کارا

رگرسیون حداقل مربعات جزئی PLS

 

روش رگرسیون حداقل مربعات جزئی، PLS جایگزین خوبی برای رگرسیون خطی چندگانه و روش رگرسیون مؤلفه‌های اصلی است. این تکنیک زمانی استفاده میشود که می‌خواهیم تأثیرات چندین متغیر مستقل را بر یک یا چند متغیر وابسته بررسی کنیم اما پیش فرض‌های انجام رگرسیون برقرار نیست. منشاء رویکرد حداقل مربعات جزئی به سال ۱۹۹۶‎ برمی‌گردد زمانی‌که والد دو روش تکرار شونده با استفاده از برآورد حداقل مربعات برای مدل‌های تک و چند جزئی و همبستگی کانونی ارائه داد.

هنگامی که در مدلهای خطی با مشکلات زیر مواجه شویم بکار بردن روش حداقل مربعات جزئی راهگشاست : ‎

  • چندین متغیر وابسته داشته باشیم.
  • تعداد متغیرهای مستقل زیاد باشد حتی بیشتر از تعداد مشاهدات و شناسایی متغیرهای تأثیرگذار مشکل باشد.
  • در متغیرهای مستقل هم‌خطی وجود داشته باشد.
  • حجم نمونه کم باشد.
  • در رگرسیون، توزیع فراوانی متغیرها نرمال نباشد.

روش حداقل مربعات جزئی (Partial Least Square) می‌تواند تأثیرات متغیرهای مستقل را بر متغیر وابسته به صورت یک مدل رگرسیونی برازش کند. چنانچه هدف پژوهشگر پیش‌بینی باشد، استفاده از این روش توصیه می‌شود. این روش چون برای مقاصد اکتشافی کاربرد دارد به هیچ گونه پیش فرضی احتیاج ندارد‎.‎

جذاب‌ترین توصیف آماری برای روش حداقل مربعات جزئی توسط استون و بروکس (Stone & Brooks ) در سال۱۹۹۰ ‎ ارائه شد. آن‌ها نشان دادند که ‎ PLS ‎ معادل است با یافتن توابع خطی از متغیرهای مستقل به‌طور پیاپی که دارای بیشترین کواریانس با متغیر وابسته هستند،  بطوری که هر تابع خطی با توابع قبلی ناهمبسته باشد.‎ میتوان گفت حداقل مربعات جزئی خانواده‌ای از الگوریتم‌های حداقل مربعات متناوب است که تحلیل مؤلفه‌های اصلی (PCR) و همبستگی کانونی را گسترش می‌دهد. برای رگرسیون متغیرهای‎ Y ‎ روی متغیرهای مستقل ‎X‎، هدف از بکاربردن روش حداقل مربعات جزئی، یافتن عوامل جدیدیست که نقش ‎X‎ را بازی کنند،  این عوامل جدید اغلب متغیرهای پنهان نامیده می‌شوند که هر متغیر پنهان ترکیب خطی از متغیرهای مستقل ‎X‎ است‎.

مقایسه روش حداقل مربعات جزئی با رگرسیون مولفه های اصلی

روش ‎ PLS‎ شباهت‌هایی با روش ‎ PCR ‎ دارد. در هر دو روش برای پیدا کردن عواملی که با متغیر ‎ Y‎ رگرسیون می‌شوند، تلاش شده است. تفاوت بزرگ این دو در این است که در حالت‎ PCR ‎ فقط از متغیرهای ‎X‎ برای ساخت عوامل جدید استفاده می‌شود در حالی که در حالت ‎ PLS ‎ از هر دو متغیر ‎X‎ و ‎ Y‎ برای ساخت عوامل جدید استفاده می‌شود که این عوامل نقش متغیرهای مستقل را بازی می‌کنند‎

pls

در واقع حداقل مربعات جزئی ترکیب گسترده‌ای از خصوصیات تحلیل مؤلفه‌های اصلی و رگرسیون چندگانه را شامل می‌شود. در ‎ PCR ‎ به دنبال پیدا کردن مؤلفه‌هایی هستیم که بیشترین واریانس را از ‎X‎ دریافت کرده‌اند. یعنی در این روش مؤلفه‌های اصلی ‎ (PC) ‎ را، تنها از مقدار واریانس روی ‎X‎ تعیین می‌کنند، در حالی که این مؤلفه‌ها هیچ نوع اطلاعاتی را در مورد متغیرهای ‎Y‎ دارا نیستند. همچنین در ‎ MLR ‎ به دنبال پیدا کردن مؤلفه‌ای هستیم که بهترین همبستگی را بین متغیرهای وابسته و مستقل برقرار نماید. اما در ‎ PLS ‎ به دنبال یافتن مؤلفه‌هایی هستیم که بتوانند علاوه بر ایجاد بیشترین واریانس، همبستگی را نیز بین متغیرهای وابسته و مستقل برقرار نمایند. در حداقل مربعات جزئی علاوه بر بردارهای امتیاز و بار یک ماتریس اضافی دیگر به نام وزن وجود دارد که به حفظ تعامد در مؤلفه‌ها کمک می‌کند‎.

مزیت های رگرسیون PLS،

این روش در ابتدا بصورت یک الگوریتم برای محاسبه‌ بردارهای ویژه به کار برده میشد اما به سرعت به یک معیار آماری تعبیر و تفسیر شد. به‌طور خاص ‎ PLS ‎ به صورت یک مجموعه از متغیرهای پنهان که تجزیه‌ همزمان ‎ Xو ‎Y‎ را با این شرط که این متغیرهای پنهان بیشترین مقدار ممکن کواریانس را بین ‎X ‎ و ‎ Y‎ بیان کنند، انجام می‌دهد. در حقیقت ایده کلی در ‎ PLS ‎ اینست که متغیرهای پنهان را پیدا کنیم. این متغیرهای پنهان کمی هستند که بیشتر، تغییرات متغیر پاسخ را توضیح می‌دهند. ‎

گفتیم که روش تحلیل مؤلفه‌های اصلی براساس تجزیه‌ی طیفی ‎X’X‎ و روش حداقل مربعات جزئی براساس تجزیه‌ی مقادیر ویژه  X’Y است. بنابراین اگر تعداد مؤلفه‌ استخراج شده بزرگتر یا مساوی رتبه‌ فضای نمونه باشد، روش ‎ PLS ‎ و ‎ MLR ‎ معادل خواهند بود.

در تکنیک ‎ PLS ‎، حذف خطا و شناسایی مؤلفه‌ها ثانویه‌ ماتریس جدید، از ماتریس متغیرهای مستقل و وابسته جهت تحلیل حاصل می‌شود. به همین جهت روش ‎ PLS ‎، روش مبنی بر مؤلفه نامیده می‌شود. این روش نسبت به روش‌های غیرمبنی بر مؤلفه نظیر ‎ MLR ‎ در برخورد با داده‌های تکراری، قوی‌تر و تواناتر است. ‎