داده کاوی و تکنیک های داده کاوی (قوانین انجمنی – طبقه بندی – خوشه ‌بندی)

داده کاوی و تکنیک های داده کاوی (قوانین انجمنی   طبقه بندی   خوشه ‌بندی)

داده کاوی و تکنیک های داده کاوی

در این بخش با یک مقاله کوتاه در مورد داده کاوی و تکنیک های داده کاوی در خدمت شما هستیم که در ابتدای آن به معرفی داده کاوی پرداخته و در ادامه به بررسی روش های داده کاوی شامل قوانین انجمنی ، طبقه بندی ، خوشه ‌بندی می پردازیم.

معرفی داده کاوی (Data Mining)

به صورت ساده اینطور می توان بیان کرد که داده کاوی به استخراج دانش از حجم انبوهی از داده ها اطلاق می شود. به همین دلیل بسیاری از افراد این واژه را مترادفی برای واژه کشف دانش می دانند. اما همانطور که در شکل زیر نیز مشاهده می شود، داده کاوی در واقع مرحله ای از فرایند کشف دانش تلقی می شود. داده کاوی شامل مجموعه ای از تکنیک هایی است که در حوزه های دیگر علمی مانند پایگاه داده ها، آمار، یادگیری ماشین، شبکه های عصبی، بازیابی اطلاعات و تشخیص الگو می توان آن را یافت.

داده کاوی و تکنیک های داده کاوی (قوانین انجمنی   طبقه بندی   خوشه ‌بندی)

خصوصیت داده ها در پایگاه داده و مدل سازی داده های در دسترس

از یک نقطه نظر می توان عملیات داده کاوی را در دو گروه دسته بندی نمود، که دسته اول به توصیف خصوصیت داده ها در پایگاه داده ها می پردازند و عملیات دسته ی دوم با مدل سازی داده های در دسترس سعی می کنند تا یک پیش بینی صحیح از داده های آتی و آزمایشی داشته باشند. مواقعی که کاربر هیچگونه نظری در مورد نوع الگوها ندارد، می تواند از دو روش استفاده و نتایج را مشاهده و ارزیابی کند. به همین دلیل بسیار مهم است که یک سیستم داده کاوی را انتخاب کند که عملیات متنوعی را می توان در آن پیدا کرد.

به طور معمول کلیه الگوهای تولید شده توسط الگوریتم برای کاربر مفید نیست و تنها کسر کوچکی از این الگوها می توانند برای تحلیل گر و کاربر جالب باشند و نظر آنها را جلب کنند. در این راستا سه سوال اساسی مطرح می شود. چه چیزی باعث آن می شود که ما یک الگو را جالب بدانیم ؟ آیا یک سیستم داده کاوی قادر به تولید تمام الگوهای جالب هست ؟ آیا یک سیستم داده کاوی می تواند فقط الگوهای بدردبخور و جالب را تولید کند ؟ برای پاسخ به سوال اول می توان اینطور ادعا نمود که الگوهایی جالب هستند که:

  • توسط انسان به راحتی قابل فهم باشند
  • درستی آنها با درجه ای از قطعیت برای داده های جدید و آزمایشی تضمین شده باشد
  • مفید و بدیع باشند

برای فرضیه های تعریف شده توسط کاربر معتبر باشند. اما سوال مهم این است که خصوصیاتی چون قابل فهم بودن یا سودمند و بدیع بودن الگو چگونه اندازه گیری می شود. در فصل های بعدی معیارهایی را معرفی خواهیم کرد، تا این مفاهیم را بتوان محاسبه نمود و رتبه ای برای الگوهای بدست آمده متصور شد.

داده کاوی و تکنیک های داده کاوی (قوانین انجمنی   طبقه بندی   خوشه ‌بندی)

جهت پاسخ به سوال دوم که آیا یک سیستم داده کاوی قادر به تولید تمام الگوها هست یا خیر، باید گفت که این موضوع که یک سیستم داده کاوی تمام الگوهای ممکن را تولید کند، نه کارآمد است و نه واقع بینانه. در مقابل هر کاربر به معرفی محدودیت ها و معیارهایی می پردازد، تا الگوریتم به تولید برخی از آنها اکتفا کند. در بسیاری از موارد فضای جستجوی الگوها آنقدر وسیع است که تولید کلیدی الگوها چنانچه امکان پذیر هم باشد، بصورت قابل توجهی زمانبر خواهد بود. اما سوال سوم که یک مسئله بهینه سازی در داده کاوی تلقی می شود، که آیا سیستم می تواند فقط الگوهای جالب توجه کاربر را تولید کند، اگر چنین باشد که بسیار دلخواه و مطلوب است و در واقع هدف غایی کاربر این است که فقط تعداد محدود و خاصی از الگوها تحت عنوان الگوهای جالب در خروجی قرار گیرند.

اما سیستم ها در رسیدن به این هدف با چالش های بسیار زیادی روبرو هستند. بدین ترتیب پس از مرحله داده کاوی در فرایند استخراج دانش به معیارهایی نیاز خواهیم داشت تا میان الگوهای استخراج شده یک رتبه بندی مناسب تشکیل دهد و از الگوهای مزاحم صرف نظر کند. چنین معیارهایی جهت اجرای کارآ و موثر الگوریتم ها نیز مفید هستند. تکنیک های متنوعی در داده کاوی وجود دارند که الگوهای مختلفی را تولید می کنند. روش های کشف قوانین انجمنی، طبقه بندی داده ها و خوشه بندی از عمده ترین راهکارهایی محسوب می شوند که به تولید الگوهای خاص خود می پردازند.

داده کاوی و تکنیک های داده کاوی (قوانین انجمنی   طبقه بندی   خوشه ‌بندی)

تکنیک های داده کاوی

قوانین انجمنی (Association Rules)

قوانین انجمنی، از تکنیک های اصلی در داده کاوی می باشد که تقریبا مهمترین شکل کشف و استخراج الگوها در سیستم های یادگیری می باشد. قوانین انجمنی ارتباطات جذاب در میان مجموعه عظیمی از داده ها را کشف می نمایند که این ارتباطات می تواند به تصمیم گیرندگان کمک کننده باشد. قوانین انجمنی در واقع شرایطی را نشان می دهند که در یک مجموعه داده، به صورت مکرر با هم اتفاق می افتند. قوانین استخراج شده در حقیقت حضور برخی ویژگی ها را براساس دیگر ویژگی ها شرح می دهند.

داده کاوی و تکنیک های داده کاوی (قوانین انجمنی   طبقه بندی   خوشه ‌بندی)

طبقه بندی (Classification)

داده کاوی به دنبال یافتن راه حلی به منظور مسائل مختلف همچون طبقه بندی می باشد. در طبقه بندی هدف پیش بینی مقدار هدف با توجه به متغییر های ورودی می باشد. در این پیش بینی به مقدار هدف بر پایه مجموعه داده آموزش داده می شود. در واقع یکی از الگوریتم های یادگیری ماشین با توجه به مجموعه داده آموزش، تربیت شده و بر اساس آن نسبت ورودی مقدار هدف را پیش بینی می نماید. جهت طبقه بندی می توان از الگوریتم های بسیاری مثل درخت تصمیم گیری ، شبکه عصبی ، نیوبیز و غیره استفاده نمود.

داده کاوی و تکنیک های داده کاوی (قوانین انجمنی   طبقه بندی   خوشه ‌بندی)

خوشه بندی (Clustering)

خوشه ‌بندی یا کلاسترینگ (Clustering) از جمله الگوریتم ‌های قطعه بندی به شماره می روند. الگوریتم خوشه ‌بندی اطلاعاتی را که ویژگی ‌های نزدیک به هم و مشابه دارند را در دسته‌ های جداگانه که خوشه نام دارد قرار می ‌دهد. در آنالیز خوشه یا خوشه بندی، گروه بندی مجموعه ای از اشیا صورت می گیرد که این عمل به این شکل می باشد که اشیا در یک گروه در مقایسه با دسته های دیگر مشابه تر می باشند.

داده کاوی و تکنیک های داده کاوی (قوانین انجمنی   طبقه بندی   خوشه ‌بندی)

مطالب مرتبط
بررسی چالش های داده کاوی
ثبت نظر
ریفریش کنید!
نظرات کاربران (۰ مورد)

هیچ نظری ثبت نشده است