لزوم آماده سازی داده ها برای داده کاوی

لزوم آماده سازی داده ها برای داده کاوی

آماده سازی داده ها برای داده کاوی

در این بخش در قالب یک مقاله به بررسی لزوم آماده سازی داده ها برای داده کاوی پرداخته می شود که امیدواریم مطالعه آن برای علاقمندان به مباحث داده کاوی مفید باشد.

استخراج دانش از داده های مختلف

کتابخانه های دیجیتال، آرشیوی از تصاویر، اطلاعات پزشکی بیماران، مجموعه داده های مربوط به تجارت و خرید و فروش و همچنین داده های علمی نمونه های بارزی از داده ها هستند که استخراج دانش از آنها بدون شک مهم است. وقتی مقیاس داده ها و کار بر روی آنها بالاتر از قابلیت های انسانی قرار می گیرند، نیاز به تکنولوژی های محاسباتی به جای تحلیل دستی و سنتی بیشتر احساس می شود. نکته حائز اهمیت در این میان آماده سازی داده ها برای یک تحلیل هوشمند است.

لزوم آماده سازی داده ها

پایگاه داده های امروزی به دلیل حجم بسیار بالا، مستعد داده های نادرست و ناسازگار هستند. بطور حتم این داده های ناقص و افزونه می تواند در نتایج عملیاتی مثل داده کاوی خلل ایجاد کند. اصطلاح داده های ناقص به وضعیتی اشاره می کند، که داده های موجود حاوی اطلاعات کافی جهت استخراج دانش جدید نیستند. عدم وجود مقدار برای یک صفت خاصه نمونه ای از این نوع داده است. هرگاه با دو یا تعداد بیشتری از نمونه های یکسان برخورد کنیم، یا تعدادی از صفات خاصه با یکدیگر همبستگی قوی دارند، در واقع با داده های افزونه روبرو هستیم. در این شرایط ممکن است با موضوع ناسازگاری داده ها مواجه شویم.

لزوم آماده سازی داده ها برای داده کاوی

روش های اصلی آماده سازی داده ها

این خیلی مهم است که داده ها قبل از هرگونه اقدامی آزمایش شوند. تحلیلگرها قبل از اینکه مدلی از داده ها را درست کنند، یا از الگوریتم های داده کاوی استفاده کنند، باید خودشان با ماهیت داده ها آشنا باشند. اما با حجم زیاد داده ها این آشنایی یا بسیار دشوار است و یا امکانپذیر نیست. حذف داده های نادرست و اصلاح کردن مقادیر ناسازگار، جمع آوری داده های مورد نیاز برای تحلیل در انبار داده ها و همچنین کاهش حجم داده ها به منظور تسریع در عملیات با داده ها پیش از داده کاوی به طور حتم موثر خواهد بود.

لزوم آماده سازی داده ها برای داده کاوی

انبار داده ها

بحرانی ترین مراحل استخراج دانش

به منظور تسهیل و بهبود فرایند داده کاوی آماده سازی داده ها یکی از مراحل اساسی تلقی می شود. بسیاری از کارشناسان داده کاوی در اینکه آماده سازی داده ها یکی از بحرانی ترین مراحل موجود در فرایند استخراج دانش است، اتفاق نظر دارند. نامفهوم بودن داده ها و استفادهی نادرست از ابزار داده کاوی، می تواند این فرایند را در مسیری نادرست قرار دهد. از این رو می توان گفت داده کاوی فقط راهنمای استفاده از ابزاری برای مشکل مطرح شده نیست، بلکه یک فرایند بحرانی اکتشافی است و به همین دلیل داده ها باید برای این عمل مهم درست و سازگار تعریف شوند.

لزوم آماده سازی داده ها برای داده کاوی

الگوی استخراج و مهندسی دانش و تولید سیستم براساس دانش

به دلایل فوق و همانطور که قبل از این نیز اشاره کردیم، بسیاری از کارشناسان حوزه داده کاوی، آماده سازی و تغییر شکل مناسب داده های اولیه را یکی از بحرانی ترین گام ها می دانند. این نکته درست است که این مرحله وابسته به نوع برنامه ی کاربردی است، اما در بسیاری از برنامه های کاربردی بدون در نظر گرفتن تکنیک داده کاوی می توان برخی از روش های آماده سازی داده ها را استفاده نمود.

بهترین روش آماده سازی داده ها

اینکه کامپیوتر به تنهایی و بدون کمک انسان بتواند بهترین روش آماده سازی داده ها را انتخاب کند، انتظار بیهوده ای است. حتی انتظار نداریم که روش های به کار برده شده برای آماده سازی داده ها در یک برنامه کاربردی بهترین باشند. تصور کنید شما مدیر یک سازمان هستید و تصمیم به تحلیل اطلاعاتی از سازمان مزبور را دارید. در میان داده ها صفات خاصه ای از پایگاه داده را انتخاب و در انتظار جواب می مانید. مقادیر برخی از این صفات خاصه در نمونه ها نامشخص هستند. به عبارت دیگر داده های مورد نظر شما برای داده کاوی ناتمام و یا می توانند ناسازگار و نادرست باشند. این مسئله می تواند در تصمیم گیری نهایی شما موثر باشد. داده ها به دلایل متعددی می توانند ناتمام یا ناقص باشند.

لزوم آماده سازی داده ها برای داده کاوی

مقایسه اهمیت گام آماده سازی داده ها با سایر گام های داده کاوی

بطور مثال مقادیر بعضی از صفات خاصه در زمان ورود در دسترس نبوده یا حداقل در آن زمان وجودشان الزامی نبوده است. پایگاه داده آموزشی دانشگاه را تصور کنید. مشخصات دانشجو بدون مقدار برای صفت خاصه آدرس یا نام پدر می تواند ثبت شود. خطا های انسانی و ماشین (مانند خطا در انتقال داده ها) و محدودیت های سخت افزاری نیز می تواند در داده های ما خلل ایجاد کنند. در مرحله آماده سازی داده ها مواردی اینچنین که باعث گیج شدن فرایند داده کاوی می شود را باید رفع نمود.

برخی اوقات داده ها باید از چندین منبع و یا فایل جمع آوری شوند. این منابع می توانند ناهمگن یا نامتجانس و از پایگاه داده های مختلف جمع آوری شوند. در این صورت ممکن است با صفات خاصه ای با مفاهیم یکسان ولی نام های مختلف روبرو شوید و این باعث افزونگی داده ها و شاید ناسازگاری آنها شود. موضوع دیگر مربوط به مقادیری است که می توان آنها را از داده های دیگر بدست آورد. وجود این مقادیر حجم داده های ورودی برای داده کاوی را افزایش میدهد. بطور مثال فرض کنید در پایگاه داده پزشکی یک بیمارستان وزن و یا قد بیماران در بخش های مختلف آن با واحد های متفاوت اندازه گیری و نگهداری می شوند.

لزوم آماده سازی داده ها برای داده کاوی

پایگاه داده ها

بکارگیری شبکه عصبی و الگوریتم ژنتیک در داده کاوی

استفاده از روش هایی نظیر شبکه های عصبی و الگوریتم ژنتیک در فرایند داده کاوی می تواند دلیلی برای تغییر شکل داده ها باشد. بطور مثال در پایگاه داده دانشگاه تغییر نمرات دانشجویان از محدوده صفر تا بیست به محدوده صفر تا یک برای ورودی به لایه های شبکه عصبی می تواند مفید باشد. همچنین تبدیل مقادیر به محدوده خاص و واحد می تواند به یکسان سازی تأثیر صفات خاصه مختلف نیز کمک کند.

شاید بطور کلی و خلاصه بتوان دو وظیفه زیر را برای مرحله آماده سازی داده ها در نظر گرفت:

  • سازماندهی داده ها در یک شکل استاندارد تا برای پردازش در عمل داده کاوی مناسب باشند.
  • آماده سازی مجموعه داده ها تا الگوریتم های داده کاوی بتوانند با کارایی بالایی اجرا شوند.

گاهی به تکنیک های آماده سازی داده ها، تکنیک های پیش پردازش داده ها نیز گفته می شود.

خوشحال خواهیم شد اگر نظر خودتون رو درباره این مطلب ثبت کنید

خطا!دکمه ریفریش را بزنید