شما می توانید با عضویت در انجمن پرسش و پاسخ درسمن هرگونه سوالی دارید را مطرح کنید

داده کاوی در پایتون

تاریخ بروزرسانی : پنجشنبه 3 مرداد 1398

تعداد بازدید : 85

گروه دوره : برنامه نویسی وب

زمان خواندن مقاله : 10دقیقه

آیا با مفهوم داده کاوی آشنا هستید ؟ما قصد داریم در این مقاله درمورد داده کاوی در پایتون و کاربرد هایش توضیح دهیم

داده کاوی در پایتون

آموزش داده کاوی در پایتون

با این مقاله می خواهیم شما عزیزان و همراهان  را با موضوع داده کاوی و کاربرد داده کاوی در پایتون آشنا کنیم.

 

داده کاوی چیست؟(Data Mining)

علم داده ها در سال های اخیر بسیار محبوب شده است وبسیاری از کمپانی ها از این علم برای پیشرفت کار های خود استفاده می کنند.
داده کاوی به معنای استخراج داده ازمیان حجم عظیمی از داده های خام می باشد.
درواقع یک فرآیند محاسباتی است که الگو و یا الگو هایی را در مجموعه ای بزرگ کشف می کند.
داده کاوی شاخه ای از علوم کامپیوتر است که ترکیبی از هوش مصنوعی, مدیریت پایگاه داده, یادگیری ماشین, الگوریتم ریاضی و آمار می باشد.

 

 

 

کاربرد های داده کاوی چیست؟

کاربرد های زیادی در داده کاوی وجود دارد برای مثال چند نمونه ازآن را شرح می دهیم:
 
1.سیستم های مدیریتی :مدیریت ارتباط با مشتریان
2.نرم افزار های امنیتی:مثل نرم افزارویروس کش
3.سیستم های بانکی: تخصیص دادن اعتبار به مشتریان
4.اقتصادی و مالی: پیش بینی قیمت سهام
5.مکان یابی و برنامه ریزی
6.علوم پزشکی
7.علوم سیاسی و اجتماعی
 

داده کاوی در پایتون

برنامه نویسی پایتون یکی از نرم افزارهایی است که در داده کاوی کاربرد دارد.

زبان پایتون به دلیل همه منظوره و سادگی آن مورد استفاده همه قرار گرفته است وهمچنین پایتون با داشتن کتابخانه های مختلف باعث شده است که برنامه نویسان زیادی به این زبان روی آورند.

 

کتابخانه های ضرروی برای داده کاوی در پایتون

 

برای انجام داده کاوی در پایتون ما به یک مجموعه کتابخانه نیاز داریم که با استفاده از آنها بتوانیم کد ها را اجرا کنیم.
چند نمونه از این کتابخانه ها به صورت زیر می باشد.
 
Numpy: کتابخانه پایه ای که در بیشتر محاسبات علمی در پایتون کاربرد دارد.
در واقع یک ماژول متن باز و توسعه  یافته است وابزار هایی برای یکپارچه سازی c,c++ و کد های فرترن را فراهم می سازد و همچنین در  انجام  محاسبات جبر خطی, تبدیل فوریه و اعداد تصادفی کاربرد دارد.
 
 
 Scipy:یک کتابخانه متن باز است و در زمینه ریاضیات ,مهندسی و علمی کاربرد دارد.
این کتابخانه شامل ماژول هایی است که در حوزه بهینه سازی ,آمار ,یکپارچه سازی ,جبر خطی و سری فوریه همچنین در معادلات دیفرانسیل استفاده می شود.
 
Matplotlib :یک کتابخانه دو بعدی است و برای رسم نموداردر پایتون استفاده می شود.
در واقع ماژولی است که در تصویر سازی استفاده می شود و این کتابخانه این امکان را به شما می دهد که  به سرعت یافته های خود را به صورت نمودار و گراف درآورده وحالت های(فیگور) حرفه ای بسازید.
از این کتابخانه می توان برای نوشتن اسکریپت های ساده استفاده کرد و کاربرد های دیگر این کتابخانه شامل استفاده کردن در برنامه های وب سرور , رابط های گرافیکی و Ipython  می باشد.
 
 
Gensim:یکی دیگر از کتابخانه های پایتون می باشد و کاربردش در مدل سازی موضوعی ,شاخص گذاری مستندات و بازیابی مشابهات در اسناد بزرگ می باشد.
این کتابخانه برای افرادی که درزمینه بازیابی اطلاعات فعالیت دارند کاربردی است.
 
Pandas:ماژولی است برای پایتون که دارای ساختار های سطح بالا و ابزارهای طراحی برای عملیات ساده و سریع آنالیزی می باشد.
 
حال اگر بخواهیم از این کتابخانه های پایتون در داده کاوی استفاده کنیم قبل از کدنویسی باید آنها را فراخوانی کنیم و این فراخوانی به صورت زیر می باشد.

 

فراخوانی کتابخانه در پایتون

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats

 

 

در داده کاوی اولین کار آماده سازی داده ها می باشد و دارای روش های مختلفی با کتابخانه های متفاوت است.
یکی از ابزارهای داده کاوی در پایتون machine learning(یادگیری ماشین) می باشد و کاربردش به صورت زیر است.
  • تحلیل داده‌ها
  • مدیریت داده‌های ناکامل
  • نرمال ساختن داده‌ها
  • دسته‌بندی داده‌ها

ما بعد از اینکه داده ها را آماده سازی کردیم  می خواهیم به دنبال اهدافمان برویم و در داده کاوی اهداف به شرح زیر است.

1.خوشه بندی داده ها:

خوشه بندی فرایند اتوماتیکی است که داده ها را به دسته هایی که اعضای مشترک و مشابه دارند تقسیم می کند.

2.طبقه بندی داده ها:

هدف از طبقه بندی داده ها این است که با استفاده از داده های موجود یک مدل بسازیم.

 

3.رگرسیون روی داده ها:

رگریسون یک الگوریتم است که روابط میان داده ها ومدل سازی را بررسی میکند و شامل دو نوع است.

1.رگرسیون خطی

2.رگرسیون غیر خطی


اشتراک گذاری


توضیحاتی در مورد نویسنده این مقاله :
زهرا چگینی زهرا چگینی

کارشناس علوم کامپیوتر گرایش نرم افزار.... من مثل یک نابغه فکر می کنم..مثل نویسنده ای ممتاز می نویسم و مثل کودکی سخن می گویم


نظر بدهید

نشانی ایمیل شما منتشر نخواهد شد .
برای ارسال نظر نیاز است وارد سایت شوید. در صورت نداشتن حساب کاربری عضو شوید.

گروه مقالات


آموزشی
14
علمی
11
تحقیقاتی
12


به دنبال هر آموزشی هستید در اینجا به دنبال آن باشید .