کارا

همخطی در رگرسیون – تحلیل رگرسیونی با SPSS

همخطی چیست؟

همخطی در رگرسیون چندگانه شرایطی است که در آن برخی متغیرهای مستقل دارای همبستگی بالایی باشند و یک یا چند متغیر تابعی خطی (یا نزدیک به خطی) از سایر متغیرها باشند. در پاسخ به اینکه چرا همخطی مشکل ساز است میتوان گفت در روش کمترین مربعات معمولی در صورتی که بین متغیرهای مستقل رابطه خطی وجود داشته باشد  مدل تمایل دارد واریانس حداقل یک ضریب رگرسیونی را بیش از حد معمول کند و این موجب می شود برخی ضرایب رگرسیونی معنی داری غیر واقعی داشته و  نتایج مدل گمراه کننده باشند.

علل ایجاد همخطی در مدل رگرسیون

دلایل متفاوتی می تواند باعث بوجود امدن همخطی در مدل رگرسیونی شوند.  از جمله شیوه جمع اوری داده ها ، نحوه برازش مدل و حضور متغیرهای اضافی در مدل،  به عنوان مثال در تحلیل پرسشنامه گاهی سوالاتی  به لحاظ مغهومی بسیار نزدیک به هم بوده  طوری که جواب‌های آن دو بسیار نزدیک به هم هستند یا در صورتی که در مدل دو متغیر داشته باشیم که ارتباط خطی با هم داشته باشند مثلاً یکی از آن‌ها طول را بر حسب متر و دیگری بر حسب سانتی‌متر بیان کرده باشد و یا متغیرهایی با همبستگی خیلی بالا به عنوان متغیرهای مستقل به کار گرفته شود؛ مانند متغیرهای میزان درآمد ماهیانه، میزان سپرده های بانکی، ارزش املاک و مستغلات برای یک فرد.

 همخطی چگونه تشخیص داده می شود؟

یک روش برای تشخیص همخطی در رگرسیون بررسی ماتریس همبستگی متغیرهای مستقل و تعیین متغیرهایی با ضریب همبستگی بالاست. در صورتی که مقدار همبستگی نزدیک ۱ باشد نشان می دهد دو متغیر همبستگی بالایی دارند.  که در نرم افزار  SPSS با مسیر زیر انجام می شود:

Analyze→Correlate→Biovariate

 

در تحلیل رگرسیونی با روش کمترین مربعات معمولی پس از آنکه بررسی مانده ها مناسب بودن مدل را تایید کرد،  انحراف استاندارد در ضرایب رگرسیونی  که تنها به مقادیر متغیر مستقل بستگی دارد در صورت وجود همخطی در مدل حداقل یک  ضریب دارای انحراف استاندارد زیاد خواهد بود. گاهی نیز ممکن است علامت ضرایب در مدل خلاف انتظار ما ظاهر شوند. اقدام دیگر انجام رگرسیون خطی روی تک تک متغیرها به عنوان متغیر وابسته و سایر متغیرها به عنوان متغیر مستقل است. در این رگرسیون‌ها باید معیارهای همخطی (همانند VIF) بررسی شوند.

عامل افزایش واریانس VIF  معیاری برای تشخیص همخطی است. این عامل مشخص میکند واریانس ضرایب رگرسیونی برآورد شده تا چه حد بیشتر از زمانی که متغیرهای همبسته در مدل وجود ندارند افزایش یافته است. این شاخص در نرم افزار SPSS به این روش محاسبه می شود.

Analyze→Regression→Linear→Statistics→Collinearity diagnostics

مقدار  VIF همواره ۱ یا بیشتر از ۱ هست.  شرایطی که تمام مقادیر VIF در مدل ، نزدیک ۱ باشند همخطی وجود ندارد و مقدار بیشتر از ۱۰ برای این شاخص نشان از همخطی جدی بوده و باعث عدم اعتماد به نتایج میشود .

برای محاسبه عامل تورم واریانس  رگرسیونی را در نظر بگیرید که در آن یکی از متغیرهای مستقل، X_K  به عنوان متغیر پاسخ با سایر متغیرهای مستقل به عنوان متغیر پیشگو مدل شده است VIF   برای این متغیر به این صورت محاسبه می شود:

    \[{VIF}_K = \frac{1}{1-{R^2}_k}\quad k=1,\cdots ,p-1\]

در  صورتی که X_k رابطه خطی با سایر متغیرهای مستقل نداشته باشد ضریب تعیین این مدل نزدیک به مقدار ۰ بوده   و مقدار VIF نیز به ۱ نزدیک است که نشان از عدم وجود همخطی برای این متغیر خواهد بود.

روشهای پیش رو با وجود همخطی در مدل

پس از تایید وجود همخطی بین متغیرهای مدل با توجه به شرایط میتوان راهکارهایی برای مقابله با این وضعیت در نظر گرفت که به برخی اشاره می شود:

  • نادیده گرفتن: بنا به نظر برخی تحلیل گران، در صورتی که هدف از تحلیل رگرسیونی صرفا پیش بینی مقادیر پاسخ بوده و تعیین متغیرهای مدل یا براورد ضرایب رگرسیونی مد نظر نباشد، هم خطی در مدل در نتایج تحلیل مشکلی ایجاد نخواهد کرد و می توان آنرا نادیده گرفت.
  • انتخاب متغیر: برای رهایی از متغیرهای اضافی در شرایط همخطی دقت در انتخاب متغیر یک روش مناسب و رایج است. در این رویکرد هدف انتخاب کوچکترین زیر مجموعه از متغیرهای پیشگوست که متغیر پاسخ را به اندازه تمام متغیرهای پیشگو توضیح دهد. چندین روش می تواند بکار برده شود. شامل R^2، R^2 تعدیل شده و روش انتخاب پیشرو و روش حذف پسرو.

در کل می توان گفت مدل هایی با R^2بالا خوب هستند ولی نباید این مسئله را تعمیم داد. در روش انتخاب متغیر بوسیله این شاخص، مدل اول شامل متغیرهای X_1,X_2,\lots,X_m و مدل دوم شامل همین متغیرها به علاوه یک متغیر اضافی است به شرطی که R^2 برای مدل دوم بزرگتر یا برابر با مقدار آن برای مدل اول باشد. اگر میزان افزایش در R^2 در مقایسه با تعداد متغیرها کم باشد، در این صورت بکار بردن از مدلهای پیچیده خوب نبوده و استفاده از مدلهای ساده سازگار با داده ها در اولویت است.

برای مدلی با k متغیر پیشگو R^2 تعدیل شده به صورت زیر تعریف شده:

    \[R_{adj}^2=1-(1-R^2)(\frac{n-1}{n-k-1})\]

و مدلی انتخاب می شود که {R^2_{adjرا ماکزیمم میکند.

در روش انتخاب متغیر پیشرو نیز متغیرها به ترتیب و در m گام انتخاب میشوند. مسیر روش پیشرو در نرم افزار SPSS به این صورت است:

Analyze→Regression→Linear

در قسمت Method از منوی کشویی Forward را انتخاب میکنیم. آستانه خطا بصورت پیش فرض روی ۰.۰۵  دارد.

رگرسیون ستیغی
  • رگرسیون ستیغی: استفاده از برآوردگر ضرایب رگرسیونی غیر از کمترین مربعات خطا، می تواند به عنوان روشی جایگزین معرفی شود. روش رایج در این شرایط به کار بردن براورگر رگرسیون ستیغی Ridge Regression است. در این روش فرض می شود ضرایب براورد شده در مقایسه با روش کمترین مربعات، مربع خطای کوچکتری دارند. و براوردگر پارامترها در مقایسه با روش رایج به مقدار واقعی ضرایب رگرسیونی نزدیکتر است و دارای این ویژگی است که با اضافه شدن متغیر پیشگوی جدید به مدل، ضرایب رگرسیونی تغییر نمی کنند. و به شکل زیر محاسبه می شود:

    \[\hat{\beta}=(X^{\prime} X-KI)X^{\prime} Y\]

براوردگرها شباهت زیادی با تعریف تابع پاسخ درجه دوم دارند به همین دلیل براوردها در این روش  رگرسیون ستیغی نامیده شده است. این براوردگر ترکیب خطی از براورگر کمترین مربعات باقی مانده است.این روش براورد اریبی به دست میدهد که دارای واریانس کمتری نسبت به روش کمترین مربعات است.

  • ترکیب متغیرها: گاهی بکار بردن ترکیب خطی از متغیرهای پیشگوی موجود در مدل و استفاده از رگرسیون مولفه های اصلی  Principal Components Regression موجب مرتفع شدن مسئله همخطی می شود.