آشنایی با چالش های یادگیری ماشین (Machine Learning)

آشنایی با چالش های یادگیری ماشین (Machine Learning)

آشنایی با چالش های یادگیری ماشین

اگر مفاهیم پایه یادگیری ماشین را مطاله کرده باشید متوجه شده اید که یادگیری ماشین (Machine Learning) تکنیکی است که برای پیدا کردن (یا یاد گرفتن) یک مدل از میان داده ها استفاده می شود. یادگیری ماشین برای مسائل هوش مصنوعی از قبیل تشخیص تصویر و گفتار مناسب است. به طور کلی در جاهایی که معادلات ریاضی یا قوانین فیزیکی نتوانند مدلی را تولید کنند مناسب است. از یک سو زمانی که رویکرد هایی یادگیری ماشین استفاده می شود فرآیند هایی را می سازد که کار می کند و از سوی دیگر مسائل اجتناب ناپذیری را با خود می آورد. در این بخش مفاهیم اساسی که یادگیری ماشین با آنها مواجه است آماده شده است. هنگامی که فرآیند های یادگیری ماشین مدلی را از داده های آموزش دیده می سازند داده های واقعی به این مدل داده می شوند. شکل زیر این فرآیند را نشان می دهد.

آشنایی با چالش های یادگیری ماشین (Machine Learning)

شکل اعمال مدل بر روی فیلد های داده

داده هایی که برای مدل سازی استفاده شده است (داده های آموزش دیده) و داده های واقعی که بر روی مدل اعمال می شوند جدا می گردند. اجازه بدهید بلوک های دیگری به این تصویر اضافه گردد. شکل زیر این موقعیت را بهتر نشان می دهد.

آشنایی با چالش های یادگیری ماشین (Machine Learning)

شکل داده های ورودی و آموزش دیده که مجزا هستند

متمایز بودن داده های آموزشی و ورودی یک چالش ساختاری است که یادگیری ماشین با آن رو به رو است. مبالغه نیست که بگوییم مسائل یادگیری ماشین از این موضوع سرچشمه می گیرند. برای مثال داده های آموزشی که از دستخط یک فرد مجزا تشکیل شده است چه استفاده ای دارند؟ آیا مدل این داده های آموزشی، دستخط دیگران را تشخیص می دهد؟ امکان این تشخیص بسیار پایین است. رویکرد های یادگیری ماشین نمی توانند با داده های آموزشی غلط به هدف دلخواه برسند. بنابراین رسیدن به داده های آموزشی بی طرفانه برای رویکرد های یادگیری ماشین، مسئله مهمی است به طوری که این داده های آموزشی بتوانند مشخصه های ویژگی های داده ها را به طور کامل منعکس کنند. فرآیند استفاده از عملکرد مدل ساخته شده، بدون در نظر گرفتن داده های آموزشی یا داده های ورودی “تعمیم پذیری” نامیده می شود (جهت پیش بینی داده های جدید). موفقیت یادگیری ماشینی تا حد زیادی به خوب بودن تعمیم پذیری متکی است.

بیش برازش

یکی از دلایل اصلی انحراف در فرآیند تعمیم پذیری بیش برازش ۰ است. بیش برازش یک اصطلاح جدید است. برای درک این موضوع، یک مسئله طبقه بندی در شکل زیر نشان داده شده است. لازم است نواحی داده ها (یا مختصات) به دو گروه تقسیم شوند. نقاط روی شکل داده های آموزشی هستند. هدف شناسایی منحنی است که با مرز بندی، داده های آموزشی مورد استفاده را به دو گروه تقسیم کند.

آشنایی با چالش های یادگیری ماشین (Machine Learning)

شکل تعیین منحنی برای تقسیم داده ها به دو گروه

اگرچه برخی از داده ها از مناطق منحرف شده اند اما به نظر می رسد منحنی شکل زیر به عنوان یک مرز معقول بین گروه ها عمل کند.

آشنایی با چالش های یادگیری ماشین (Machine Learning)

شکل منحنی جدا کننده بین دو گروه از داده ها

وقتی این منحنی قضاوت می شود (منحنی شکل بالا) نقاطی وجود دارند که با توجه به مرز بندی به طور صحیح گروه بندی نشده اند. در مورد دسته بندی کلی نقاط با استفاده از یک منحنی پیچیده، همان طور که در شکل زیر نشان داده شده است؟

آشنایی با چالش های یادگیری ماشین (Machine Learning)

این شکل نشان می دهد که گروه بندی بهتر شده، اما با چه هزینه ای؟

عملکرد مدل به گونه ای است که داده های آموزشی را به طور کامل گروه بندی کرده است. این مدل چگونه به نظر می رسد؟ آیا این مدل سازی بهتر است؟ آیا این مدل رفتار کلی سیستم را به صورت صحیح منعکس می کند؟ اکنون از این مدل در دنیای واقعی استفاده می کنیم. ورودی های جدید برای مدل سازی با علامت مربع سیاه نشان داده می شوند. شکل زیر این موضوع را نشان می دهد. آیا به نظر می رسد که به طور صحیح رفتار کلی سیستم منعکس می شود؟ این مدل بدون خطا، داده جدید را به عنوان کلاس (علامت مثلث آبی) شناسایی می کند. با این حال روند کلی داده های آموزشی می گوید که این یک مورد مشکوک است. گروه بندی این داده با کلاس (دایره آبی) منطقی تر به نظر می رسد. اما چرا این مدل داده ای با دقت ۱۰۰ درصدی نتوانست به خوبی داده جدید را طبقه بندی کند؟

آشنایی با چالش های یادگیری ماشین (Machine Learning)

شکل داده های جدید درون داده های قبلی قرار می گیرند

اگر نگاه دیگری به نقاط بیندازیم برخی از حاشیه ها به دسته دیگر سرایت کرده و مرزها را به هم زده است. به عبارت دیگر داده هایی هستند که حاوی نویز زیادی هستند. یادگیری ماشین راهی برای تشخیص این مسئله ندارد. بنابراین یادگیری ماشین با در نظر گرفتن چنین داده هایی (داده های نویزی) مدل نامناسبی را در نهایت تولید می کند. در واقع در نظر گرفتن داده های نویزی یک مسئله بهینه نیست. بنابراین همان طور که مشاهده نمودید داده های آموزشی، داده های کاملی نیستند و ممکن است حاوی مقادیر متفاوتی از نویز باشند. اما اگر اعتقاد دارید که هر عنصر داده آموزشی صحیح است و مدل ساخته شده به طور دقیق همه مدل را پوشش می دهد مدلی با تعمیم پایین دارید. این موضوع بیش برازش نامیده می شود. مطمئنا با توجه به ماهیت یادگیری ماشین، این شاخه تمام تلاش خود را می کند تا یک مدل عالی از داده های آموزشی به دست آورد. با این وجود یک مدل کاری از داده های آموزشی ممکن است به طور کامل نتواند شاخه ای از داده ها را منعکس کند. البته این بدان معنا نیست که به طور عمد مدلی ساخته شود که دقت این مدل از داده های آموزشی پایین باشد. این استراتژی اساسی مفهوم یادگیری ماشین را تضعیف می کند. اکنون معضل کاهش خطای داده های آموزشی مطرح می شود که این معضل منجر به ببش برازش و در نتیجه کاهش تعمیم پذیری می شود. چه کنیم؟ در بخش های بعدی تکنیک هایی معرفی می گردد که بیش برازش را محدود می کند.

مقابله با بیش برازش

بیش برازش به طور قابل ملاحظه ای بر میزان عملکرد یادگیری ماشین تأثیر دارد. رویکرد های افراد در برخورد با بیش برازش نشان می دهد که آنها در زمینه یادگیری ماشین افراد حرفه ای هستند یا خیر؟ در این بخش دو رویکرد مورد استفاده برای مقابله با بیش برازش معرفی می گردد: اعتبار سنجی و تنظیم کردن. تنظیم مدل، یک قاعده عددی است که سعی در ساختن ساختار یک مدل به سادهترین شکل ممکن دارد. مدل ساده شده می تواند از تأثیرات بیش برازش با هزینه پایین عملکردی جلوگیری کند. مسئله طبقه بندی شده بخش قبلی می تواند به عنوان یک نمونه خوب مورد استفاده قرار بگیرد. مدل پیچیده (یا منحنی) تمایل به بیش برازش دارد. در مقابل مدل ساده (منحنی ساده) با وجود اینکه برخی نقاط را به طور صحیح طبقه بندی نمی کند اما مشخصه های دسته را بسیار بهتر منعکس می کند. این قاعده با جزئیات بیشتر در بخش توابع با ارزش و قانون یادگیری از فصل سوم مورد بحث قرار می گیرد. به راحتی می توان گفت که مدل دسته بندی بیش برازش شده است چون داده های آموزشی ساده بوده و مدل به آسانی قابل مشاهده است. با این حال در بسیاری از موارد، شرایط این گونه نیست و داده ها دارای ابعاد بالاتری هستند. نمی توان مدلی را ترسیم نمود و سپس به صورت بصری تأثیرات بیش برازش بر روی داده ها را ارزیابی کرد. بنابراین نیازمند شیوه هایی هستیم که تعیین کند مدل آموزشی بیش برازش هست یا خیر. در اینجا اعتبار سنجی وارد بازی می شود.

اعتبار سنجی فرآیندی است که قسمتی از داده های آموزشی را ذخیره می کند و از آنها برای نظارت بر عملکرد مدل استفاده می کند. مجموعه داده هایی که برای اعتبار سنجی استفاده می شود (برای تست مورد استفاده قرار می گیرد) در فرآیند آموزش داده ها مورد استفاده قرار نمی گیرد. با توجه به اینکه خطای مدل سازی داده های آموزشی نشان دهنده بیش برازش نیست از برخی از داده های آموزشی استفاده می شود تا بیش برازش مدل مورد بررسی قرار گیرد. یک مدل زمانی بیش برازش است که بازده مدل آموزشی سطوح پایینی از کارایی را برای ذخیره داده های ورودی داشته باشد. در این مورد مدل اصلاح می شود تا مانع بیش برازش شود. شکل زیر تقسیم بندی داده های آموزشی را برای فرآیند اعتبار سنجی نشان می دهد.

آشنایی با چالش های یادگیری ماشین (Machine Learning)

شکل تقسیم بندی داده های آموزشی برای فرآیند اعتبار سنجی

وقتی اعتبار سنجی در کار باشد فرآیند آموزش داده ها در یادگیری ماشین با مراحل زیر ادامه می یابد:

  • داده های آموزشی به دو گروه تقسیم می شوند که گروهی برای فرآیند آموزش و گروه دیگر برای فرآیند اعتبار سنجی مورد استفاده قرار می گیرد. به عنوان یک قانون کلی نسبت داده های آموزشی به داده های اعتبار سنجی ۸ به ۲ است.
  • آموزش مدل با مجموعه داده های آموزشی انجام می شود.
  • ارزیابی کارایی مدل با استفاده از مجموعه داده اعتبار سنجی (داده های تست) انجام می شود.
  • اگر مدل عملکرد مطلوبی داشته باشد فرآیند آموزش پایان می پذیرد
  • اگر مدل نتواند نتایج خوبی ارائه کند اصلاح شده و این فرآیند از گام دوم تکرار می شود.

اعتبار سنجی متقابل ، تغییرات جزئی نسبت به فرآیند اعتبار سنجی دارد. این فرآیند نیز داده ها را به دو گروه، داده های آموزشی و داده های آزمایشی تقسیم می کند اما این تقسیم بندی به صورت مداوم تغییر می کند. این اعتبار سنجی به جای حفظ مجموعه داده های تقسیم شده، این تقسیم بندی را به طور مداوم تغییر می دهد. دلایل انجام این کار این است که مدل می تواند با وجود مجموعه داده های اعتبار سنجی ثابت بیش برازش شود. هنگامی که اعتبار سنجی متقابل مجموعه داده های آزمایشی (عتبار سنجی) را به صورت تصادفی حفظ می کند بیش برازش مدل می تواند بهتر مشخص شود. شکل زیر مفهوم کلی از اعتبار سنجی متقابل را نشان می دهد. در هر مرحله سایه های تیره، داده های اعتبار سنجی را نشان می دهند که به صورت تصادفی در سراسر فرآیند آموزش انتخاب شده اند.

آشنایی با چالش های یادگیری ماشین (Machine Learning)

شکل اعتبار سنجی متقابل

منبع: فصل اول کتاب یادگیری ماشین با MATLAB نوشته فیل کیم

 

مطالب مرتبط
بررسی چالش های داده کاوی
ثبت نظر
ریفریش کنید!
نظرات کاربران (۰ مورد)

هیچ نظری ثبت نشده است