آکادمی داده کاوی

مراحل داده کاوی

دسته بندی :داده کاوی ۷ دی ۱۳۹۷ آکادمی داده‌کاوی 6825

علم داده کاوی کشف گنج اطلاعات  از میان انبوه داده‌های عظیم است ، دقیقاً مانند کشف طلا از میان صخره ها و سنگ های بزرگ ما در این مقاله مراحل داده کاوی را مورد بررسی قرار می‌دهیم قبل از شروع جامعه هر مرحله ابتدا بگذارید تمامی مراحل انجام پروژه داده کاوی را به صورت کوتاه معرفی کنیم :

  • مرحله اول: تشکیل انبار داده
  • مرحله دوم: انتخاب داده ها
  • مرحله سوم: تبدیل داده ها
  • مرحله چهارم: در داده ها
  • مرحله پنجم: تفسیر نتیجهمراحل داده کاوی

مرحله اول انبار داده ها 

 تعریف Ralhp Kimball از انبار داده ها :

در واقع یک DW نسخه ای است از داده های تراکنشی چه به صورت کاملا اختصاصی برای گزارش گیری پرس و جوها سازماندهی شده است. اما بر این تعریف دو ایراد می توان گرفت نخست در یک DW گاهی داده های غیر تراکنشی رفیق می شود اما معمولا  90 الی 95 درصد داده ها تراکنشی است . در ثانی خروجی اصلی سیستم های دیدنی در واقع لیست های فهرست دار queries در حجم کم و یا گزارش های اداری در حجم زیاد است .

تعریف دوم

 اگر تعریف ما از داده حقیقت قابل مشاهده یا قابل نصب باشد و تعریف ما از اطلاع مجموعه سازماندهی شده از حقیقت ها یا داده های با ارتباط و با هدف باشند و تعریف موسسه و عملیاتی در واقع محیطی باشد که برای داده ها و برنامه‌های لازم برای ادامه حیات فعالیت های یک سازمان صورت میگرد . و آخرین تعریف ما مربوط به انبار داده اطلاعی است که تعریف آن به این شرح است که انبار داده مجموعه ای از داده ها و برنامه ها برای تحلیل و تصمیم گیری، جدا از سیستم عملیاتی باشد آنگاه می توانیم بگوییم یک انبار داده DW در واقع دارای معماری جداگانه ای برای نگهداری داده های حساس تاریخی است که این داده ها از انبار داده های عملیاتی به دست آمده است و به صورت قابل درکی برای عملیات تحلیل سازمانی استفاده می شود.

  پیشینه

بعد از رشد قابل ملاحظه ای در استفاده از TPS ها به عنوان سیستم های پردازش تراکنش ای در  بخش‌های عملیاتی سازمان  نیاز به سیستم های اطلاعاتی که بتوانند عملیاتی به صورت گزارش گیری در رده گزارش های مدیریتی را سازماندهی کنند ، شدیدا نیاز می شد . از آنجایی که با وجود آمدن جزایر فناوری یعنی سیستم هایی که به صورت جدا از هم به فعالیت می پرداختند امکان تهیه گزارشی ترکیبی از تمام این ها به نوعی غیر ممکن می نمود بنابراین با وجود این مشکلات حرکت به سمت سیستم‌های اطلاعات مدیریت مخصوصاً سیستم های گزارش گیری مدیریتی آغاز شد اما متاسفانه این سیستم ها به شدت به TPS ها  نیاز داشتند و داده های آنها یک مرجع بود و تغییر در یکی باعث تغییر در کل سیستم می شد بنابراین مدل فکری جدیدی به نام انبار داده ها به وجود آمد.

 دلایلی که باعث شد از DW استفاده شود

  • کاهش زمان  پردازش با استفاده از منابع IO  مجزایی
  • برای گزارش گیری و انجام پرس و جو
  • استفاده از مدل های داده ای و یا تکنولوژی های سرور برای ارتقاء سرعت عملیاتی گزارش گیری و پرس جو
  • ایجاد  وسیله ای برای سرعت بخشیدن به عملیات گزارش گیری
  • امکان  تصحیح کردن داده ها بدون تغییر دادن سیستم‌های پردازش تراکنش ها

روش کار به چه صورت است ؟

در dw  فرایندی بهنام  ETL   داریم که در این فرآیند داده ها از سیستم های پردازش تراکنش استخراج می شود E در واقع تغییر فرمت هایی است که در آن صورت می گیرد  و T قالب  داده ای جدید  و مناسب برای گزارش گیری است و L مرحله ای است که در آن از طریق داده کاوی و مکانیزمی مانندOLAP پرس و جو ها را ایجاد می کنیم و گزارشات را تهیه میکنیم.مراحل داده کاوی آکادمی داده کاوی

مرحله دوم انتخاب داده ها

برای آنکه هزینه های عملیات داده کاوی را کاهش دهیم نیاز است داده هایی را که از پایگاه داده انتخاب کنیم کوچکتر شوند .  در واقع باید  تولید  یک مجموعه کوچکتر از داده‌های اولیه بصورتی باشد که داده کاوی روی آن با داده کاوی روی داده های اولیه نتایج مشابهی را به دست دهد . این از طریق حذف خصیصه های غیر مرتبط با نوع عملیات داده کاوی مورد نظر انجام می گید .سه روش کلی برای انتخاب خصایص مرتبط با دیتا ماینینگ وجود دارد

انتخاب پیشرونده: در هر مرحله ما خصیصه ای را که بیشترین ارتباط را دارد برمی گزینیم.

انتخاب  عقب رونده: در هر مرحله ای خصیصه ای را که کمترین ارتباط را دارد انتخاب می کنیم و آن را حذف می کنیم .

روش ترکیبی: ترکیب انتخاب پیشرونده و انتخاب عقب رونده است.

مرحله سوم انتخاب داده ها

سیستم های اطلاعاتی و برنامه های کاربردی یک سازمان در طول زمان با توجه به نیازهای موجود معمولا یا تولید و یا تغییر شکل می دهند . در نتیجه یکسان سازی آنها یک امر کاملا حیاتی می باشد . یکسان سازی داده ها ، برقراری ارتباط بین فیلدها و شکل سازی داده ها در این مرحله صورت می پذیرد. گاهی  این تبدیلها آسان و سریع انجام می‌گیرد گاهی بسیار پیچیده و زمانبر است.

 کیفیت اطلاعات چیزی نیست که به راحتی قابل دریافت باشد، بلکه می‌توان کیفیت اطلاعات را از صحت و نتایج آن به دست آورد و این اطلاعات با این فاکتور در طول زمان قابل سنجش است، بنابراین با ایجاد شاخص های مناسب برای اطلاعات مورد نیاز کیفیت اطلاعات را در طول زمان مورد بررسی قرار می دهیم. در واقع کیفیت اطلاعات مجموعه ای از نیازهای اطلاعاتی است که برای برطرف کردن یک نیاز اطلاعاتی یا همان انجام کاری که مورد نیاز است مورد استفاده قرار میگیرد .مراحل داده کاوی

 کاوش داده ها

معمولا این مرحله با نوشتن مقادیر زیادی گزارش و تحقیق استعلام از آنها اشتباه گرفته می شود . کاوش داده از طریق تجهیزات مخصوصی که عملیات کاوش را بر اساس مدل های تجزیه و تحلیل انجام می دهد . بررسی داده ها با انگیزه کشف نکات ارزشمند و دریافت اطلاعات مفید در حجم قابل توجهی داده که در طول زمان در کار و تجارت به دست آمده است را کاوش داده می گوییم  و این امر تفاوت های اساسی  با آنالیز های متداول آماری دارد و منبع معمول کاوش داده همان انبار داده است .

تحلیل و تفسیر نتیجه

تفسیر نتیجه در این مرحله نتایج و الگوهای ارائه شده توسط ابزار داده کاوی مورد بررسی قرار گرفته و نتایج مفید معین می شود. طرز کار ابزار داده کاوی این گونه است که ابزار به دنبال اثبات این است که وجود چیزی به معنای وجود چیز دیگری است و سعی می کند در درجه اول از توالی ارتباطات برای کشف یک الگو بهره بگیرد و در نهایت اطلاعات بدست آمده را دسته بندی کند تا به الگوی خاصی برسد که بتواند آن را براساس فاکتورهای داخلی به مخاطبش ارائه دهد.

profile avatar
آکادمی داده‌کاوی

راه آسان‌تری برای ارتباط با کاربران‌مان پیدا کرده‌ایم :) عضویت در کانال

مطالب زیر را حتما بخوانید:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لینک کوتاه: