آکادمی داده کاوی

روش کریسپ (CRISP-DM)

مقدمه
اولین بار در دهه ۱۹۹۰ گروهی از شرکت های اروپایی روش کریسپ را برای انجام پروژه داده کاوی ارائه دادند این فرآیند دارای شش مرحله اصلی است. این شش مرحله از درک نیازهای اصلی کسب و کار شروع می شود و در نهایت به ارائه راهکاری برای آن  ختم می شود. به نظر می رسد که این مراحل به دنبال یکدیگر انجام می شوند اما در عمل رفت و برگشت های زیادی بین مراحل وجود دارند

 گام اول: فهم کسب و کار

 از مراحل بسیار مهم یک پروژه داده کاوی فهم کسب و کاراست، در واقع انگیزه اصلی اجرای پروژه در این مرحله به خوبی مشخص میشود. اهدافی مانند اینکه ویژگی‌های مشترکی که باعث شده است مشتریان ما از محصولات و خدمات رقبای ما استفاده کنند چیست؟ زمانی که فهم کسب و کار به خوبی شکل گرفته شوند مشخص میشود چه داده هایی باید جمع آوری شوند و چگونه این داده ها تحلیل و در نهایت به نتیجه مورد نظرما برسد.روش CRISP-DM روش کریسپگام دوم: درک داده

 هر کسب و کاری دارای داده های متعددی است و برای رسیدن به نتیجه مشخصی نیازمند آنیم داده های مشخص را بدست آورده و از آن استفاده کنیم. برای این ذکر چندین  نکته در این مرحله الزامی است:

  • تحلیلگر باید در مورد داده هایی که به آن نیاز دارد بسیار دقیق و شفاف باشد برای مثال اگر می خواهد تحلیل رفتار خریداران زن را که پوشاک فصلی از خرده فروش ها خریداری می کنند را مورد بررسی قرار دهد باید در مورد میزان خرید، وضعیت جمعیت شناختی و ویژگی های اجتماعی-اقتصادی آنان  داده‌های مربوطه را جمع آوری کند.
  • تحلیل‌گر باید در مورد داده ها اطلاعات جامعی داشته باشد او باید بداند منابع داده ها چه بوده؟ چگونه جمع آوری شده؟ در چه فرمت و قالبی نگهداری می شود؟ چه افرادی این داده ها را به دست آوردند؟ و چه زمانی نیاز به بروزرسانی داده ها می باشد.
  •  تحلیل گر باید تعریف واحدی از یک متغیر داشته باشد و متغیرهای وابسته و مستقل را شناسایی کند.
  • تحلیل‌گر باید شناخت خوبی از متغیر های کمی و کیفی داشته باشد متغیرهای کیفی متغیرهای رسته ای می‌باشند که به طور مستقیم با اعداد سروکار ندارد و این متغیرها به دودسته اسمی و ترتیبی تقسیم می شود. معمولا متغیرهای اسمی دارای مقادیر  محدود و بدون ترتیب هستند. مثل جنسیت، استان زندگی و … و متغیرهای ترتیبی همانطور که از اسمش پیداست دارای ترتیب می باشد مثلا سطح رضایت مشتری را می توان از خیلی راضی تا خیلی ناراضی دسته بندی کرد دلیل اهمیت فهم این متغیر ها این است که روشهای تحلیلی این متغیرها از نظر آماری متفاوت می‌ باشد و متغیرهای  کمی را می توان به طور مستقیم تحلیل کرد اما متغیر های کیفی را باید به شکل عددی کد گذاری کرده و بعد آنها را مورد تحلیل قرار داد.

در این مرحله بررسی اولیه داده ها توسط تحلیلگر انجام میشود و متغیرهای عددی بر اساس خلاصه های آماری مثل انحراف معیار، میانه، میانگین و… مورد بررسی قرار می گیرند و در مورد متغیرهای رسته ای فرکانس و    مد

 داده ها  مورد بررسی قرار می می‌گیرند همچنین  رسم نمودارهای پراکندگی، تحلیل های همبستگی و هیستوگرام و سایر روش ها برای نمایش گرافیکی داده ها در این مرحله مورد استفاده قرار می گیرند تا تحلیلگر بتوانند اطلاعات بهتری نسبت به داده ها پیدا کنند.

 گام سوم: آماده سازی داده

 در این مرحله هدف آماده کردن داده‌ها برای فاز تحلیلی با استفاده از روش های داده کاوی است و معمولا بیشترین زمانی در انجام پروژه داده کاوی صرف می شود در این مرحله انجام می شود به عبارتی ۸۰% زمان یک پروژه مرتبط به آماده سازی داده است و دلیلش هم آن است که در دنیای واقعی داده ها آنطوری نیستند که باید باشند! وجود المان های نامربوط عدم وجود المان های مورد علاقه، داده های پرت، خطا، ناسازگاری و … دلیلی برای زمان زیادی است که در این مرحله هدر می رود و زمان هایی نیز پیش می آید که داده ها به صورت الکترونیکی ذخیره نشدند و برگردان این اطلاعات به صورت الکترونیکی کاری بسیار طاقت فرسا و زمان‌بر است.روش CRISP-DM روش کریسپگام چهارم: مدل سازی

 در این مرحله از روش کریسپ ممکن است بر روی داده های آماده شده روش های مختلف داده کاوی انجام شود تا به هدف اصلی پروژه و نتیجه ای که مدنظر داریم برسیم ساخت مدل یک فرایند خطی نمی باشند و در واقع یک آزمون و خطایی است که در یک مسیر رفت و برگشت می باشد زیرا که در داده کاوی مدل بهینه وجود ندارد و بسته به مسئله‌ای که وجود دارد باید روش‌های مختلف آزمایش شوند و خروجی های آنها را با یکدیگر مقایسه کنیم و گاهی لازم است برای آنکه به خروجی که مورد نیاز است دست پیدا کنیم به مرحله قبلی بازگردیم و برخی از الگوریتم های داده ها را به شکل دیگری آماده کنیم.

 با توجه به نیاز کسب و کار، داده کاوی سه هدف متفاوت را میتواند دنبال کند.  هدف پیش بینی، هدف پیدا کردن روابط و خوشه بندی که در هرکدام این دسته ها الگوریتم های متنوعی وجود دارد که بسته به شرایطی که موجود است یکی از آنها و یا ترکیبی از آنها مورد استفاده قرار میگیرد.

گام پنجم: ارزیابی

 در این مرحله از روش کریسپ مدلی را بر اساس دقت و قابلیت   عمومی سازی آن مورد آزمایش قرار می دهیم. در این مرحله باید ارزیابی کنیم که این مدل تا چه حد می‌تواند اهداف کسب و کاری را که از قبل مشخص کردیم را مورد پوشش قرار دهد. بسیار مورد پسند است اگر بتوان مدلی را که به دست آورده اید در دنیای واقعی مورد آزمایش قرار دهید اما گاهی زمان و بودجه پروژه اجازه چنین کاری را به ما نمی دهند تا نتایج را مورد بررسی قرار دهیم و با توجه به اطلاعاتی که به دست آمده به بهبود و کامل تر شدن مدل کمک کند.

در واقع این مرحله بسیار مهم چالش و برانگیز است و مانده حل کردن  معما است. مشکل دیگری که وجود دارد این است اطلاعاتی که به دست آمده بسیار پیچیده به نظر میاید و این تحلیل های پیچیده از نظر مدیران کسب و کار چندان خوشایند نیست بنابراین تحلیلگران این تحلیل های پیچیده ریاضی را باید به شکل های ساده مانند گراف و نمودار و آمار به مدیران ارائه دهند.

 گام ششم: استقرار

  فاز استقرار در روش کریسپ بسته به نوع پروژه می تواند متفاوت باشد در برخی از پروژه ها ارائه گزارش از روند کار و خروجی تحلیل در واقع پایان یک پروژه داده کاوی است و گاهی استقرار یک سیستم قابل تکرار است که سازمان بتواند برای مدت ها از آن استفاده کنند در استقرار چنین سیستمی در واقع تحلیل‌گر باید فهم و دانش خود را به اجرا کننده سیستم منتقل کند.

   فعالیت های نگهداری  نیز می توانند جزئی از مرحله استقرار باشد چیزی که طبیعی است آن است که کسب و کار در طول زمان تغییر می‌کند و نیازهای آن نیز  به طبع تغییر می کند و مدلی که به دست آمده ممکن است در طول زمان کارایی خود را از دست بدهد بنابراین طراحی یک استراتژی نگهداری مناسب تا حد زیادی می تواند استفاده مداوم و طولانی به اشتباه از یک مدل داده کاوی را کاهش دهد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مطالب مرتبط با این نوشته

لینک کوتاه این مقاله