چرا باید از الگوریتم های داده کاوی استفاده کنیم

تاریخ بروزرسانی : شنبه 12 مهر 1399

تعداد بازدید : 96

زمان خواندن مقاله : 10دقیقه

آشنایی با روشی که با کمترین دخالت کاربر، به صورت خودکار الگوها و رابطه ی منطقی بین آنها را بیان کند. به نظر شما چه روشی برای اینکار مناسب است؟ بله الگوریتم های داده کاوی ما در این مطلب به شما خواهیم گفت که انتخاب الگوریتم های داده کاوی چگونه است و پرکاربرد ترین آنها کدام است.

چرا باید از الگوریتم های داده کاوی استفاده کنیم

انواع الگوریتم های داده کاوی

همان طور که در مقاله معرفی الگوریتم برنامه نویسی چیست گفتیم، الگوریتم یک روش برای پیاده سازی حل مسئله است یعنی روشی برای جست وجوی الگو در داده ها.اما با گسترش سیستم های پایگاهی و ذخیره حجم بالای اطلاعات در این سیستم ها به ابزاری قوی تر نیاز است تا بتواند داده ها را پردازش و اطلاعات را در اختیار کاربران قرار دهد. در واقع ما به روش هایی نیاز داریم که اصطلاحا به کشف دانش بپردازد. یعنی روشی که با کمترین دخالت کاربر، به صورت خودکار الگوها و رابطه ی منطقی بین آنها را بیان کند.

به نظر شما چه روشی برای اینکار مناسب است؟
بله، یکی از روش های بسیار مهم برای تشخیص اینگونه داده ها، داده کاوی است. اصطلاح داده کاوی زمانی به کار برده میشود که با حجم بزرگی از داده ها در حد مگا یا ترابایت مواجه باشیم. پس با ما همراه شوید تا شما را با الگوریتم های داده کاوی بیشتر آشنا کنیم.


تعریف داده کاوی:


به زبان ساده به معنی فیلتر کردن مقادیر زیادی داده ی خام برای به دست آوردن اطلاعات مفید که به کسب و کارها، فضایی رقابتی می بخشد. این اطلاعات از الگوهای معنی داری که در داده ها موجود است اما پیش از این دیده نشده بود، تشکیل شده است. بنابراین هر چه حجم داده بیشتر و روابط بین آنها پیچیده تر باشد دسترسی به اطلاعات خفته در داده ها مشکل می شود و نقش داده کاوی به عنوان روش کشف دانش، آشکارتر می گردد که رایج ترین ابزار استفاده در هنگام کاوش هوش مصنوعی است. که اگر بخواهید درباره این موضوع اطلاعاتی کسب کنید می توانید از مقاله هوش مصنوعی ما بهره مند شوید. 


اما روش انتخاب الگوریتم های داده کاوی چگونه است؟


برای اینکه پژوهشگران یا تحلیل گران بدانند چگونه یک الگوریتم را انتخاب کنند، راهنمای مشخصی وجود ندارد و همین امر یک چالش برای آنها در علم داده کاوی است. انتخاب یک الگوریتم مشخص کاری بسیار پیچیده است که در بعضی مواقع برای نتیجه بهتر، از چندین الگوریتم استفاده می کنند و پردازش ها را با الگوریتم های مختلف تکرار می کنند.
 

جناب ویگر که یکی از فعالان علم داده کاوی است در مقاله ای توصیه کرده است که در صورت امکان، بهتر است قبل از انجام پردازش روی مجموعه داده های حقیقی، الگوریتم را روی یک مجموعه داده ورودی به صورت آزمایشی پیاده کنید تا عملکرد الگوریتم برای حل یک نوع مسئله خاص سنجیده شود.
 

در انتخاب الگوریتم مناسب چندین عامل تاثیرگذار هستند:

  1. اولین گزینه هدف مسئله است که مسائلی از قبیل: گرفتن دلایل چرایی ،کاوش داده ها و ماهیت مسئله که قصد حل کردن آن را دارد در نظر گرفته می شود.
  2. مورد بعدی در انتخاب یک الگوریتم ساختار داده می باشد که در تعیین الگوریتم مورد استفاده نقش بسیار مهمی دارد زیرا ارتباط بین داده ها، متغیرها و روشی که داده ها براساس آن ذخیره می شوند را مشخص می کند.
  3. سومین گزینه، نتایج مورد انتظار است،  که هر فرآیند داده کاوی به یک خروجی به عنوان راه حل مسئله نیاز دارد تا بسته به نوع نتایج مورد انتظار، داده کاو الگوریتمی انتخاب کند که قادر به تولید آن نتایج باشد. زیرا نتیجه یک فرآیند داده کاوی، موفقیت یا شکست آن را تعیین می کند. چون الگوریتمی که استفاده می شود باید یک الگوی مورد انتظار در خروجی ارائه دهد تا نتایج مورد انتظار براساس وظیفه ای که داده کاوی نیاز به انجام آن است تولید کند و باید آن قدر سریع باشد تا در حجم انبوهی از داده ها به جست و جو  بپردازد.
  4. مورد بعدی، وظایفی است که ضمن فرآیند داده کاوی انجام می شوند.
  5. مورد پنجم آشنایی داده کاوان با الگوریتم است که برای انجام این کار نیاز به درک کاملی از الگوریتم دارند تا از آن استفاده کنند و اگر از یک الگوریتم، بدون درک جزئیات عملکرد آن و تنها با داشتن درک کلی از ویژگی های الگوریتم استفاده کند، امکان دارد الگوریتم انتخاب شده برای وظایفی که نیاز به انجام آن است مناسب نباشد.
  6. در انتخاب یک الگوریتم باید به پیکربندی پایگاه داده ای که استفاده می کنند، توجه داشته باشند؛ در واقع باید الگوریتمی انتخاب کنند که پایگاه داده آن یکپارچه باشد تا از هزینه های اضافی جلوگیری شود.
  7. مورد آخر داشتن یک مدلسازی فرآیند است. زیرا با استفاده از مدل ساخته شده، داده کاو می تواند تصمیم بگیرد که در هر مرحله باید از چه روش ها و الگوریتم هایی استفاده شود و سپس به انتخاب الگوریتم مناسب برای هر مرحله بپردازد.


دسته بندی الگوریتم های داده کاوی:


حالا نوبت آن است که شما را با الگوریتم های داده کاوی آشنا کنیم:

 

  • الگوریتم درخت تصمیم:


این الگوریتم یکی از پرکاربرد ترین الگوریتم های داده کاوی برای کاوش در داده ها و کشف دانش است. این الگوریتم داده ها را به مجموعه های مشخص تقسیم میکند و هر مجموعه شامل چندین زیر مجموعه از داده هایی است که دارای ویژگی های قابل پیش بینی هستند و به این صورت عمل می کند که در مورد یک هدف خاص چند ویژگی را تجزیه و شرایط را برای پیش بینی و هدفمندی فروش آماده می کند.

 

  • الگوریتم خوشه بندی:


این الگوریتم اطلاعاتی را که ویژگی های نزدیک به هم و مشابه دارند را در قطعه هایی جدا به نام خوشه قرار می دهد. به طوری که اعضای درون یک خوشه شباهت های زیادی به یکدیگر دارند، اما اعضاء هر خوشه با اعضای موجود در خوشه های دیگر شباهت کمتر دارد. از این الگوریتم می توانیم برای تقسیم بندی مشتریان براساس هزینه ها و درآمدها، تعیین انواع قراردادهای پیمانکاری براساس پرداخت وجه از مشتری و ..... استفاده کنیم.

 

  • الگوریتم وابستگی:


این الگوریتم یک روش مناسب و توانمند برای یافتن روابط جذاب بین متغیرهای موجود در پایگاه داده های بزرگ است. در واقع وابستگی بین داده ها به شکل یک مجموعه از قواعد شناسایی و امکان رخداد دو یا چند مشخصه در کنار یکدیگر را تعیین می کند. از این الگوریتم می توانیم برای تجزیه و تحلیل رفتار مشتریان، تحلیل اطلاعات سبد خرید و چیدمان محصولات که سبب می شود کالاها را به صورت هدفدار به مشتری پیشنهاد دهیم، استفاده کنیم.

 

  • الگوریتم رگرسیون خطی:


این الگوریتم یک تکنیک آماری برای بررسی و مدل سازی روابط بین داده ها است که از فرمول های مناسب برای رسیدن به پیش بینی ها استفاده می کند و تنوع دیگری از الگوریتم درخت تصمیم است.

 

  • الگوریتم بیز:


این الگوریتم برای مدل سازی پیشگویانه ارائه شده یعنی برای دسته بندی داده ها از احتمال وقوع یا عدم احتمال وقوع یک پدیده و احتمال رخ دادن آن استفاده می شود و سازمان برای بازاریابی می تواند نتیجه را برای یک مشتری خاص به سرعت پیش بینی کند.

 

  • الگوریتم شبکه های عصبی:


این الگوریتم برای مسائل بزرگ و پیچیده که شامل صدها متغیر است، استفاده می شود و در مواردی چون بازاریابی، پیش بینی حرکت سهام و ... کاربرد دارد.

 

  • الگوریتم رگرسیون منطقی:


این الگوریتم، یک روش آماری برای مدل سازی هایی که نتیجه دودویی دارند به کار برده می شود که نتیجه آن دو حالت دارد : یا رخ می دهد و یا رخ نمی دهد که تنوع دیگری از الگوریتم شبکه های عصبی است.

 

  • الگوریتم خوشه بندی زنجیره ای:


این الگوریتم مشابه الگوریتم خوشه بندی است با این تفاوت که خوشه ها را بر پایه یک مدل جست وجو می کند نه شباهت. مثلا فرض کنید در وب سایت فروش اینترنتی خود، اطلاعات کاربران و صفحات بازدید شده ثبت می شود و هر مشتری برای خرید خود اطلاعاتی در سایت ثبت می کند و با هر کلیک مشتریان، اطلاعات مشتری و صفحه ثبت می شود. حالا با استفاده از این الگوریتم می توانید مشتریانی را که کلیک و الگوهای مشابه داشتند گروه بندی کرده و متوجه شوید که چه کاربرانی به سایت شما می آیند، چه صفحاتی از سایتتان پر بازدید است و ......

 

  • الگوریتم سری های زمانه:


این الگوریتم نیز یکی از روش های پیش بینی است و از نوع الگوریتم رگرسیون است که برای پیش بینی پیوسته مقادیر در طول زمان استفاده می شود و می توان از خروجی یک سری، بر پایه رفتار سری دیگر استفاده کرد. در واقع هدف اصلی از این الگوریتم، پیش گویی درباره مقادیر آینده است و در مواردی چون پیش بینی فروش محصولات یک فروشگاه به منظور بهینه سازی انبار، پیش بینی درخواست های مشتری یک کارخانه جهت برنامه ریزی تولید در ماه های آینده و ..... کاربرد دارد.

 

معرفی الگوریتم های داده کاوی پرکاربرد:

 

  1. الگوریتم k-means

این الگوریتم، روشی ساده برای روش های دیگری از خوشه بندی است. الگوریتم k-means روالی تکراری دارد که برای مشخص کردن تعداد خوشه های ثابت به صورت زیر عمل می کند: نقایص را به عنوان مرکز خوشه ها مشخص می کند که میانگین نقطه مربوط به هر خوشه است. سپس هر نمونه داده ای که کمترین فاصله تا مرکز خوشه را داشته باشد به آن نسبت می دهد.

  1. الگوریتم Apriori

این الگوریتم یک روش کلاسیک برای قواعد وابستگی است و روی پایگاه داده هایی که برای تراکنش استفاده می شوند، ساخته شده است. همچنین یک الگوریتم پایین به بالا است و تلاش می کند زیر مجموعه ای از آیتم ها را که آیتم مشترک دارند، بیابد. هدف این الگوریتم پیدا کردن وابستگی ها بین مجموعه های مختلف است.

  1. الگوریتم EM

این الگوریتم در زمینه هایی چون میانگین داده، ماشین یادگیری و شناسایی کاربرد دارد و یک الگوریتم تکراری است که در تکرار آن دو مرحله وجود دارد:

  1. مرحله انتظار
  2. مرحله حداکثرسازی

این الگوریتم یک روش متداول برای زمان هایی است که برخی از متغیرهای تصادفی پنهان هستند.

 

  1. الگوریتم CART

این الگوریتم موجب تشکیل یک درخت تصمیم با تقسیمات دودویی می شود و برای متغیرهای کمی طراحی شده است ولی قابل استفاده برای هر نوع متغیری می باشد و برای پاسخ به متغیر کیفی، از شاخص جینی برای انتخاب متغیرهای مناسب استفاده می کند.


در معرفی الگوریتم های داده کاوی پرکاربرد ما به چند مورد از آنها اشاره کردیم چرا که انواع مختلفی از الگوریتم ها وجود دارد. امیدواریم که این مطلب مورد رضایت شما قرار گرفته باشد.
 

 


 


اشتراک گذاری

کلمات کلیدی :
داده کاوی چیست

توضیحاتی در مورد نویسنده این مقاله :
مرضیه فتاحی مرضیه فتاحی

کارشناس کامپیوتر گرایش نرم افزار..... نویسندگی،تجربه ای انفرادی است یعنی به اشتراک گذاری.... این بخشی از ذات انسان است که بخواهد مسائل را به اشتراک بگذارد ازجمله:افکار،ایده ها،عقاید


نظر بدهید

نشانی ایمیل شما منتشر نخواهد شد .
برای ارسال نظر نیاز است وارد سایت شوید. در صورت نداشتن حساب کاربری عضو شوید.