کارا

داده کاوی

داده کاوی زمینه نسبتا جدید علمی است و به فرایند کشف الگوهای مفید و مدل بندی و استفاده از آنها در تصمیم گیری های مهم تجاری یا مدیریتی  اطلاق می شود. که در زمینه های مختلفی از علوم و تجارت کاربرد دارد. از کاربردهای آن در زمینه تجارت می توان به تحلیل بازار و تحلیل رقبا و مدیریت مشتری، که از ارکان مهم برای پایداری سازمانها می باشد، میتواند حائز اهمیت باشد. مبحث دیگری که شاید در سازمان های مهمی چون شرکتهای بیمه یا بانکها اهمیت دارد شناسایی تقلب(افراد) و الگوهایی است که به موجب آن می توان از اعمالی چون پولشویی جلوگیری کرد.

ذهن انسان به هنگام تحلیل انبوه داده ها ممکن است دچار خطا شود.  علاوه براین همیشه سعی بر این دارد که نتایج را مبنی بر تجربیات و آزمون های قبلی بنا نهد اما داده کاوی بدون تکیه بر فرضهای از پیش پنداشته شده به تحلیل داده ها میپردازد. دلیل استفاده از این رویکرد افزایش حجم داده های موجود درسازمان هاست افزایش حجم داده ها و پیچیدگی روابط بین آنها درسترسی به اطلاعات نهفته در داده ها را مشکل تر خواهد کرد که نیاز به پردازشی فراتر از رویکرد سنتی دارد. روشهای سنتی تحلیل داده ها به دلیل اتلاف زمان و هزینه بسیار زیاد مناسب نبوده و بکار بردن روش های نوین تحلیل مانند داده کاوی را گریز ناپذیر و این علم را به یکی از ده علم برتر در حال توسعه جهان بدل کرده است.  پیش بینی میشود این زمینه در آینده نزدیک تحولی در فناوری اطلاعات بوجود آورد.

داده کاوی

فرایند داده کاوی

داده کاوی روشی بسیار قوی و با پتانسیل بالاست که به تحلیلگر کمک میکند بر روی مهمترین اطلاعات از مخزن داده های خود تمرکز کند. در این روش از ابزارهای گوناگون برای کشف روابط و الگوهای نهفته بین داده ها استفاده می­کند که برای اعتبار بخشیدن به پیش­ بینی بکار برده می­شود. به این ترتیب به سازمان ها کمک میشود تا با کشف الگوها و  پیش بینی رفتار آینده، بهتر تصمیم بگیرند.

این رشته خود  شامل تحقیقات در رشته های آمار، مدیریت پایگاه داده، علوم رایانه و یادگیری ماشین است. آمار اساس بسیاری از تکنیکهای داده کاوی است. غالباً فرایند داده کاوی برای تبدیل داده ها به دانش از الگوریتم های پیچیده ریاضی و آماری استفاده می کند که روابط بین متغیرها  غالبا به شکل مدل های رگرسیونی، سری زمانی، خوشه بندی ها و رده بندی هاست.  از آزمونهای آماری در ارزیابی نتایج  استفاده می شود.  اما وجه اشتراک اصلی تکنیک های داده کاوی و آمار در تخمین و پیش بینی است. بنابراین در صورتی که پیش بینی را جز وظایف داده کاوی بدانیم ، تحلیل های آماری بیش از یک قرن است که داده کاوی را اجرا کرده است و روش های آماری جز روش های کلاسیک داده کاوی محسوب می شود.

از طرفی بسیاری از داده ها شامل مفروضات آماری از قبیل استقلال و نرمال بودن توزیع داده ها نمی باشد. اما در آمار کلاسیک تخلف از هر کدام از این مفروضات باعث بی اعتباری نتایج میشود.  بنابر این علاوه بر ریاضی و آمار رشته های هوش مصنوعی و یادگیری ماشین،  بکار برده می شود. روش های هوش مصنوعی انعطاف پذیر بوده و شامل هیچ فرضی در مورد داده ها نمی شود و نسبت به تنطیم پارامترها حساسیت کمتری نسبت به روش های آماری دارد.

مراحل داده کاوی

داده کاوی شامل مراحل زیر است:

  1. تعیین داده ها و پردازش آنها
  2. یکپارچه سازی داده هایی که از منابع مختلف جمع اوری شده اند.
  3. انتخاب داده های هدف
  4. تبدیل داده ها خلاصه سازی و همسان سازی داده ها به شکلی که مناسب داده کاوی باشند.
  5. انتخاب عملیات داده کاوی ( دسته بندی، خوشه بندی، پیش بینی)
  6. انتخاب روش داده کاوی( شبکه های عصبی، شبکه های بیزین، بردار ماشین پشتیبانی، درخت تصمیم و …)
  7. یافتن مدل مناسب
  8. ارزیابی مدل و تحلیل
  9. نمایش و تفسیر نتایج

آماده سازی داده ها برای عملیات داده کاوی شامل تعیین اطلاعات مورد استفاده، پالایش اطلاعات و تصحیح خطاهای موجود در داده ها و همسان سازی اطلاعاتی که از منابع مختلفی جمع آوری شده اند دارای اهمیت زیادی است و ممکن است بیش از ۶۰ در صد از زمان داده کاوی را در برگیرد. نرم افزار های مختلفی در این زمینه وجود دارد امکاناتی را در اختیار کاربران قرار می دهند از جمله Python, Rapid Miner, R , Spss Modeler,  SQL server, WEKA, Sas Inter Prise Miner   و …

رویکردهای داده کاوی

میتوان دو رویکرد کلی برای داده کاوی در نظر گرفت. یادگیری نظارت شده و پردازش فاقد نظارت. پردازش با ناظر به روشهایی اطلاق میشود که در آن با مدل بندی بروی یک سری داده که بعنوان داده های آموزشی یاد میشوند یادگیری سیستم انجام شده و در مرحله بعدی پیش بینی برروی مجموعه داده های دیگری صورت می گیرد. در روش پردازش فاقد ناظر سیستم با نمونه قبلی اموزش داده نمی شود و استنباط از وضعیت داده های ورودی گزارش میشود.

کاربردهای داده کاوی

کاربردهایی مختلفی و فراوانی برای این رشته در تمام زمینه ها وجود دارد که در این نوشته فرصت بیان تعداد محدودی از آنها را داریم. علاوه بر تجارت و تحقیقات بازار و بیمه که به آنها اشاره شد. برای نمونه  میتوان  کاربردهای داده کاوی در زمینه های زیر را عنوان کرد:

  • روانشناسی، علوم اجتماعی و رفتاری، مثلا پیش بینی یا تحلیل نتایج انتخابات
  • سیستم های مدیریتی، به عنوان مثال مدیریت ارتباط با مشتریان یا CRM
  • سیستم های خدمات مالی و بانکی، مثلا تخصیص اعتبار به مشتریان و طبقه بندی آن ها
  • مالی و بورس ،  پیش بینی قیمت یک یا چند سهام یا شاخص
  • علوم پزشکی،  پیش بینی خطرات احتمالی ناشی از یک عمل جراحی خاص

از دیگر کاربردهای داده کاوی میتوان به مبحث متن کاوی و وب کاوی که هریک به علومی تخصصی تبدیل شده اند، اشاره کرد. به عنوان مثال پایش مطالب سایتهای اینترنتی و یافتن الگویی برای تشخیص سایتهای ناهنجار یکی از کاربردهای متن کاوی می باشد.