یکی از قدرتمندترین و پرکاربردترین الگوریتمهای داده کاوی الگوریتم درخت تصمیم است ، که در انجام پروژه داده کاوی از آن استفاده میشود. این الگوریتم برای کاوش کردن در دادهها و کشف دانش در آنها کاربرد دارد. اگر بخواهیم درخت تصمیم را به شکل تمثال توضیح دهیم میتوانیم بگوییم دقیقاً مانند درختی است که در آن نمونهها را دسته بندی میکند که از ریشه به سمت پایین رشد کرده و در انتها به گرههای برگ خواهد رسید.برای روشن شدن بیشتر این سه موضوع را میتوان اضافه کرد:
- هر گره داخلی یا غیر برگ را با یک ویژگی مشخص میکنند در واقع این ویژگی سوالی را در رابطه با مثال ورودی مطرح میکند
- برگهای این درخت در واقع با یک کلاس و یک درصد جواب مشخص خواهد شد
- در هر گره داخلی به تعداد جوابهای ممکن با این سؤال شاخه وجود دارد که هر کدام آنها با میزان یا مقدار آن جواب مشخص میشود
از آنجایی که یک درخت به طور کلی از ریشه، شاخهها و گرهها و برگها تشکیل شده است. درختهای تصمیم نیز همانند این ساختارها در خود دارد. در درخت تصمیم از گرهها که با دایره نشان داده میشود و شاخهها که با پاره خطهای اتصال بین گرهها مشخص میشود برای سادگی در رسم معمولاً از چپ به راست یا از بالا به پایین رسم کرده به طوری که ریشه در بالا قرار بگیرد
همانطور که میدانید به گروه اول ریشه گفته میشود، در انتهای یک زنجیر که در واقع میتواند ریشه، شاخه یا گره باشد را برگ مینامیم گرهای که برگ نباشد را گره داخلی می گویند.
از هر گره داخلی میتوان دو یا چند شاخه منشعب شود همانطور که می دانیم هر گره مربوط به یک خصوصیت معین است و شاخههای مرتبط به آن به معنای تازهای از مقادیر است در واقع این بازههای مقادیر باید بخشهای این الگوریتم دادهها را به مجموعههای مشخص تقسیم کند و هر مجموعهای از مجموعههای گفته شده زیر مجموعهای از دادههای کم و بیش همگن میباشد که دارای ویژگیهای قابل پیش بینی هستند.