مراحل داده کاوی
علم داده کاوی کشف گنج اطلاعات از میان انبوه دادههای عظیم است ، دقیقاً مانند کشف طلا از میان صخره ها و سنگ های بزرگ ما در این مقاله مراحل داده کاوی را مورد بررسی قرار میدهیم قبل از شروع جامعه هر مرحله ابتدا بگذارید تمامی مراحل انجام پروژه داده کاوی را به صورت کوتاه معرفی کنیم :
- مرحله اول: تشکیل انبار داده
- مرحله دوم: انتخاب داده ها
- مرحله سوم: تبدیل داده ها
- مرحله چهارم: در داده ها
- مرحله پنجم: تفسیر نتیجه
مرحله اول انبار داده ها
تعریف Ralhp Kimball از انبار داده ها :
در واقع یک DW نسخه ای است از داده های تراکنشی چه به صورت کاملا اختصاصی برای گزارش گیری پرس و جوها سازماندهی شده است. اما بر این تعریف دو ایراد می توان گرفت نخست در یک DW گاهی داده های غیر تراکنشی رفیق می شود اما معمولا 90 الی 95 درصد داده ها تراکنشی است . در ثانی خروجی اصلی سیستم های دیدنی در واقع لیست های فهرست دار queries در حجم کم و یا گزارش های اداری در حجم زیاد است .
تعریف دوم
اگر تعریف ما از داده حقیقت قابل مشاهده یا قابل نصب باشد و تعریف ما از اطلاع مجموعه سازماندهی شده از حقیقت ها یا داده های با ارتباط و با هدف باشند و تعریف موسسه و عملیاتی در واقع محیطی باشد که برای داده ها و برنامههای لازم برای ادامه حیات فعالیت های یک سازمان صورت میگرد . و آخرین تعریف ما مربوط به انبار داده اطلاعی است که تعریف آن به این شرح است که انبار داده مجموعه ای از داده ها و برنامه ها برای تحلیل و تصمیم گیری، جدا از سیستم عملیاتی باشد آنگاه می توانیم بگوییم یک انبار داده DW در واقع دارای معماری جداگانه ای برای نگهداری داده های حساس تاریخی است که این داده ها از انبار داده های عملیاتی به دست آمده است و به صورت قابل درکی برای عملیات تحلیل سازمانی استفاده می شود.
پیشینه
بعد از رشد قابل ملاحظه ای در استفاده از TPS ها به عنوان سیستم های پردازش تراکنش ای در بخشهای عملیاتی سازمان نیاز به سیستم های اطلاعاتی که بتوانند عملیاتی به صورت گزارش گیری در رده گزارش های مدیریتی را سازماندهی کنند ، شدیدا نیاز می شد . از آنجایی که با وجود آمدن جزایر فناوری یعنی سیستم هایی که به صورت جدا از هم به فعالیت می پرداختند امکان تهیه گزارشی ترکیبی از تمام این ها به نوعی غیر ممکن می نمود بنابراین با وجود این مشکلات حرکت به سمت سیستمهای اطلاعات مدیریت مخصوصاً سیستم های گزارش گیری مدیریتی آغاز شد اما متاسفانه این سیستم ها به شدت به TPS ها نیاز داشتند و داده های آنها یک مرجع بود و تغییر در یکی باعث تغییر در کل سیستم می شد بنابراین مدل فکری جدیدی به نام انبار داده ها به وجود آمد.
دلایلی که باعث شد از DW استفاده شود
- کاهش زمان پردازش با استفاده از منابع IO مجزایی
- برای گزارش گیری و انجام پرس و جو
- استفاده از مدل های داده ای و یا تکنولوژی های سرور برای ارتقاء سرعت عملیاتی گزارش گیری و پرس جو
- ایجاد وسیله ای برای سرعت بخشیدن به عملیات گزارش گیری
- امکان تصحیح کردن داده ها بدون تغییر دادن سیستمهای پردازش تراکنش ها
روش کار به چه صورت است ؟
در dw فرایندی بهنام ETL داریم که در این فرآیند داده ها از سیستم های پردازش تراکنش استخراج می شود E در واقع تغییر فرمت هایی است که در آن صورت می گیرد و T قالب داده ای جدید و مناسب برای گزارش گیری است و L مرحله ای است که در آن از طریق داده کاوی و مکانیزمی مانندOLAP پرس و جو ها را ایجاد می کنیم و گزارشات را تهیه میکنیم.
مرحله دوم انتخاب داده ها
برای آنکه هزینه های عملیات داده کاوی را کاهش دهیم نیاز است داده هایی را که از پایگاه داده انتخاب کنیم کوچکتر شوند . در واقع باید تولید یک مجموعه کوچکتر از دادههای اولیه بصورتی باشد که داده کاوی روی آن با داده کاوی روی داده های اولیه نتایج مشابهی را به دست دهد . این از طریق حذف خصیصه های غیر مرتبط با نوع عملیات داده کاوی مورد نظر انجام می گید .سه روش کلی برای انتخاب خصایص مرتبط با دیتا ماینینگ وجود دارد
انتخاب پیشرونده: در هر مرحله ما خصیصه ای را که بیشترین ارتباط را دارد برمی گزینیم.
انتخاب عقب رونده: در هر مرحله ای خصیصه ای را که کمترین ارتباط را دارد انتخاب می کنیم و آن را حذف می کنیم .
روش ترکیبی: ترکیب انتخاب پیشرونده و انتخاب عقب رونده است.
مرحله سوم انتخاب داده ها
سیستم های اطلاعاتی و برنامه های کاربردی یک سازمان در طول زمان با توجه به نیازهای موجود معمولا یا تولید و یا تغییر شکل می دهند . در نتیجه یکسان سازی آنها یک امر کاملا حیاتی می باشد . یکسان سازی داده ها ، برقراری ارتباط بین فیلدها و شکل سازی داده ها در این مرحله صورت می پذیرد. گاهی این تبدیلها آسان و سریع انجام میگیرد گاهی بسیار پیچیده و زمانبر است.
کیفیت اطلاعات چیزی نیست که به راحتی قابل دریافت باشد، بلکه میتوان کیفیت اطلاعات را از صحت و نتایج آن به دست آورد و این اطلاعات با این فاکتور در طول زمان قابل سنجش است، بنابراین با ایجاد شاخص های مناسب برای اطلاعات مورد نیاز کیفیت اطلاعات را در طول زمان مورد بررسی قرار می دهیم. در واقع کیفیت اطلاعات مجموعه ای از نیازهای اطلاعاتی است که برای برطرف کردن یک نیاز اطلاعاتی یا همان انجام کاری که مورد نیاز است مورد استفاده قرار میگیرد .
کاوش داده ها
معمولا این مرحله با نوشتن مقادیر زیادی گزارش و تحقیق استعلام از آنها اشتباه گرفته می شود . کاوش داده از طریق تجهیزات مخصوصی که عملیات کاوش را بر اساس مدل های تجزیه و تحلیل انجام می دهد . بررسی داده ها با انگیزه کشف نکات ارزشمند و دریافت اطلاعات مفید در حجم قابل توجهی داده که در طول زمان در کار و تجارت به دست آمده است را کاوش داده می گوییم و این امر تفاوت های اساسی با آنالیز های متداول آماری دارد و منبع معمول کاوش داده همان انبار داده است .
تحلیل و تفسیر نتیجه
تفسیر نتیجه در این مرحله نتایج و الگوهای ارائه شده توسط ابزار داده کاوی مورد بررسی قرار گرفته و نتایج مفید معین می شود. طرز کار ابزار داده کاوی این گونه است که ابزار به دنبال اثبات این است که وجود چیزی به معنای وجود چیز دیگری است و سعی می کند در درجه اول از توالی ارتباطات برای کشف یک الگو بهره بگیرد و در نهایت اطلاعات بدست آمده را دسته بندی کند تا به الگوی خاصی برسد که بتواند آن را براساس فاکتورهای داخلی به مخاطبش ارائه دهد.