کارا

مدل رگرسیون لجستیک

رگرسیون لجستیک دووجهی Binomial Logistic Regression تکنیک آماری رگرسیونی است که به ما امکان مدل بندی داده های کیفی دودویی  Dichotomous  (وقوع یا عدم وقوع پیشامد) به عنوان متغیر پاسخ را میدهد و امروزه در تمام زمینه های علمی کاربرد گسترده ای یافته است. در مباحث مطرح شده در رگرسیون خطی گفتیم متغیرهای پیشگو می توانند هم کمی و هم کیفی باشند ولی عموما متغیر پاسخY، متغیری کمی و پیوسته در نظر گرفته می شود.  گاهی در تحلیل های رگرسیونی با مواردی مواجه می شویم که این پیش فرض نادیده گرفته می شود.

به عنوان مثال در مطالعات بازار، میخواهیم بدانیم در خرید یا عدم خرید یک محصول یا برند چه عواملی و هر کدام با چه ضریبی موثر هستند. در زمینه پزشکی  اطلاع از اینکه آیا بکار بردن درمانهای خاص باعث بهبودی بیمار خواهد شد یا خیر؟ وجود یا عدم وجود بیماری خاصی در همگیر شناسی Epidemiology.   در تشخیص اینکه یک سری نقاط بروی نقشه ماهواره مین خنثی نشده هستند یا خیر؟  یا یک ماهی مناسب نگهداری در آکواریوم هست؟  و کاربردهای فراوانی در زمینه اقتصادی، صنعت، کشاورزی، ژنتیک و …

این تکنیک در ابتدا در حوزه سلامت و برای بررسی بیماری یا عدم وجود بیماری بکار برده شد. در مطالعات بروی داده های کیفی دووجهی، متغیر پاسخ را می توان به صورت مقادیر ۰ و ۱ کدگذاری کرد. اگر برای چنین حالتی الگوی سنتی رگرسیونی بکار برده شود یک طرف معادله فقط اعداد ۰ و۱ را می تواند بپذیرد در صورتی که طرف دیگر تساوی از نظر تئوری بینهایت مقدار را شامل میشود.

 

رگرسیون لجستیک

 

راه حل که برای این مسئله پیشنهاد میشود اینست که طرف اول معادله را نیز به مقادیر پیوسته تبدیل کنیم. در این تکنیک به جای پیشگویی مقادیر متغیر پاسخ، احتمال این را که متغیر پاسخ یکی از مقادیر ۰ یا ۱ را بگیرد، محاسبه می شود. به عبارتی در این مدل پیشنهادی به جای استفاده از Y ، تابعی از احتمال Y بعنوان متغیر پاسخ بکار برده میشود.  این کار در سه مرحله انجام میشود.

  • گام اول، در این مرحله احتمال Y در معادله رگرسیون بجای Y است محاسبه می­شود تا بعنوان متغیر پاسخ وارد مدل شود. در این صورت سمت چپ معادله رگرسیونی عددی بین ۰ و ۱ است

    \[P(Y=1)=\pi,\quad P(Y=0)=1-\pi\]

  • گام دوم شامل بکاربردن تابعی از احتمال Y در معادله است این تابع نسب بخت (Odds Ratio)  نامیده میشود. دراین مرحله سمت چپ معادله رگرسیونی عدی بین ۰ و مثبت بینهایت خواهد بود.

    \[ Odds Ratio (\frac{P(Y=1)}{1-P(Y=1)})=OR=\frac{\pi}{1-\pi} \]

  • گام سوم شامل استفاده از لگاریتم طبیعی تابع نسبت بخت بعنوان متغیر پاسخ در معادله است در این صورت سمت چپ معادله مقداری بین منفی بینهایت تا مثبت بینهایت خواهد بود.

    \[Ln(OR)=Ln(\frac{\pi}{1-\pi})\]

بدین ترتیب مسئله عدم تناسب بین مقیاس طرفین معادله حل میشود. تابع بدست آمده لگاریتم تابع بخت یا تابع پیوند لاجیت Logit است که بعنوان متغیر پاسخ در مدل بکاربرده میشود.

مانند همه تحلیلهای رگرسیون، رگرسیون لجستیک را می توان یک تحلیل پیش بینی کننده عنوان کرد.  این الگو برای توصیف داده ها و توضیح رابطه بین یک متغیر دووجهی وابسته و یک یا چند متغیر مستقل، با مقیاس اسمی، ترتیبی، فاصله ای یا نسبی استفاده میشود. اگر تمام متغیرهای مستقل، پیوسته و دارای توزیعی مانند نرمال باشند در این صورت میتوان تحلیل تشخیصی  Discriminant Analysis بکاربرد. در صورتی که آمیخته ای از متغیرهای پیوسته و رسته ای در متغیرهای مسقل یا پیشگو داشته باشیم یا در صورتی که متغیرهای مستقل دارای توزیع مناسب نرمال چند متغیره نباشند استفاده از رگرسیون لجستیک توصیه میشود.

رگرسیون لجستیک برای ما این امکان را فراهم آورده است که متغیر وابسته دووجهی را بر مبنای متغیرهای پیشگو یا مستقل پیش بینی کنیم. در این روش لگاریتم بخت متغیرهای وابسته، بعنوان ترکیب خطی متغیرها در مدل  قرار میگیرد.

    \[Ln(\frac{\pi}{1-\pi})= \beta_{0}+\beta_{1}X_{1}+\cdots+\beta_{n}X_{n},\]

 

پیش فرضهای مدل رگرسیون لجستیک

 

در رگرسیون لجستیک مقیاس اندازه گیری متغیرهای پیشگو هم میتواند کمی(سطوح اندازه گیری نسبی یا فاصله ای)  و هم کیفی (سطوح اندازه گیری اسمی و ترتیبی) باشد.

در الگوی رگرسیون لجستیک  نیاز نیست متغیرهای مستقل توزیع نرمال داشته باشند (بر خلاف تحلیل تشخیصی) ولی در صورتی که توزیع نرمال چند متغیره برای متغیرهای پیشگوی پیوسته که در مدل حضور دارند برقرار باشد برازش بهتری برای مدل میسر خواهد شد. تغسیر نتایج رگرسیون لجستیک نیز آسانتر از تفسیر نتایج تحلیل تشخیصی است.

در صورتی که متغیرهای پیشگوی مدل دارای چندهمخطی باشند براورد های مدل اریب و خطای استاندارد مدل دارای نوسان خواهد بود

در مدل رگرسیون لجستیک قواعد خاصی برای حجم نمونه و تعداد متغیرهای پیشگوی مدل تعریف نشده است. در برخی منابع  حداقل حجم نمونه برای رگرسیون لجستیک ۵۰ و برخی منابع ۱۰۰ تعیین شده است.

 

براورد ضرایب مدل رگرسیون لجستیک و تفسیر نتایج

 

آنچه که در مدل رگرسیون لجستیک  متفاوت از مدلهای سنتی رگرسیونی است نحوه براورد ضرایب است. در مدلهای عمومی رگرسیونی نحوه براورد ضرایب مدل، با روش حداقل کردن مجذور خطا انجام میشود. در رگرسیون لجستیک، احتمالی که یک واقعه رخ میدهد را حداکثر میکنند(روش آماری حداکثر درستنمایی Maximum Likelihood) و  پارامترهای مدل با استفاده از الگوریتم تکراری نیوتن رافسون محاسبه میشود.   همچنین در الگوی لجستیک اماره والد Wald و کای دو بجای آماره های T و F بکار برده میشود.

با توجه به اینکه در مدل رگرسیونی لجستیک، متغیر پاسخ بطور مستقیم در مدل وارد نمیشود بلکه تابعی از احتمال متغیر پاسخ، بعنوان لگاریتم بخت یک رویداد، در مدل نمود پیدا کرده و مورد تحلیل قرار میگیرد. تفسیر ضرایب مدل نیز در مدل لجستیک اندکی متفاوت با رگرسیون خطی معمولی است. هر ضریب \beta_{i} را در مدل رگرسیون لجستیک به صورت میزان تغییر در لگاریتم نسبت بخت یا تابع لاجیت را در ازای یک واحد افزایش در عامل iام میتوان تفسیر کرد.

 

تحلیل رگرسیون لجستیک با استفاده از نرم افزار SPSS

 

مراحل انجام تحلیل در نرم افزار SPSS را با مثالی  که به پیش بینی نارسایی قلبی در بیماران بوسیله متغیرهای مربوط به شاخص های عمومی و سلامت آنها مانند سن و جنسیت، میزان چربی خون، فشار خون، دیابت و …  پی میگیریم.  بمنظور تحلیل داده ها با استفاده از رگرسیون لجستیک مراحل زیر را در نرم افزار SPSS دنبال می کنیم:

Analyze→Regression→Binary Logistic

 

 رگرسیون لجستیک در spss

سپس در کادر محاوره logistic regression متغیر پاسخ را به کادر Dependent و متغیرهای مستقل را به کادر Covariates انتقال می دهیم.

  • گزینه Method در کادر محاوره، روش تحلیل رگرسیون را تعیین می کند.
  • گزینه Categorical موجود در کادر محاوره تنظیمات مربوط به متغیرهای رسته ای مستقل را انجام میدهد.
  • در بخش Options آزمونهایی برای نیکویی برازش مدل انتخاب شده و معیارهای همگرایی الگوریتم تعیین میشود.

 

مراحل رگرسیون لجستیک در spss

آزمون نیکویی برازش(Hosmer-Lemeshow) این فرض را که “آیا رسته بندی که برای هر آزمودنی پیشگویی شده با آنچه که مشاهده شده است همخوانی دارد؟” را می آزماید.

در بخش Statistics and Plots چندین انتخاب وجود دارد که میتوان نمودارها و کمیتهای مختلفی را محاسبه کرد. با انتخاب CL میتوان بازه اطمینانی برای نرخ بخت پیشگویی شده در خروجی مدل محاسبه کرد.

همچنین انتخاب مقدار آستانه برای رده بندی Classification cutoff تعیین میکنیم که چگونه از این اطلاعات برای رده بندی مشاهدات استفاده کنیم. در صورتی که مقدار احتمال پیشامد بزرگتر یا مساوی مقدار آستانه تعیین شده باشد پیشگویی میکنیم که این پیشامد روی میدهد. مقدار پیشفرض برای این کمیت نرم افزار SPSS،  معمولا ۰.۵ است.

در هر مرحله با کلیک بروی Continue تنظیمات ذخیره شده و مراحل کار ادامه می یابد.

  • گزینه Save امکان ذخیره انواع اطلاعات، مانند مقادیر پیش بینی شده را فراهم می آورد. همچنین میتوان مقادیر باقی مانده را با استفاده از این گزینه مدیریت کرد.

رگرسیون لجستیک نرم افزار spss

درنهایت با کلیک بروی دکمهOK میتوان خروجی مدل را مشاهده کرد.

 

تفسیر خروجی مدل رگرسیون لجستیک

 

خروجی مدل رگرسیون لجستیک در نرم افزار SPSS شامل بخشهایی است که در اینجا به تعدادی از مهمترین آنها میپردازیم. جدول اول جدول آزمون کلی نگر هست و این فرض را آزمون میکند که آیا متغیرهای مستقلی که وارد مدل میشوند از لحاظ آماری تاثیرگذار و مناسب ورود به مدل هستند یا خیر؟ و  در سطح معناداری کمتر از ۰.۰۵ فرض صفر رد شده و میپذیریم متغیرهای مستقل مدل تاثیرگذار بوده و موجب بهبود مقادیر پیش بینی در مدل میشوند.

جدول بعدی خلاصه مدل است که شامل سه آماره  است. آماره ۲log likelihood- که میزان ضعف پیش گویی مدل را می سنجد در مقایسه دو مدل ، میتوان گفت مدلی که میزان آماره کوچکتری داشته باشد مدل بهتری است. دو آماره دیگر جدول شبیه R2 در رگرسیون خطی عمل میکنند و میزان تغییر پذیری مدل در رابطه با متغیرهای پیشگو را محاسبه میکنند. با توجه به جدول خلاصه مدل میتوان گفت حدود ۰.۳۶ از تغییرات مربوط به تابع لاجیت، توسط متغیرهای پیشگوی حاضر در مدل تبیین میشود.

با توجه به اطلاعات درج شده در جدول نیکویی برازش در مدل ارائه شده در این مثال، آزمون نیکویی برازش Hosmer & Lemeshow با سطح معناداری بیشتر از ۰.۰۵ رد نشده و میتوان گفت رسته بندی پیشگویی شده با مشاهدات همخوانی دارد.

 

 تحلیل خروجی رگرسیون لجستیک

 جدول رده بندی اطلاعات مربوط به اعتبار سنجی مدل و تحلیل حساسیت است. در این جدول میزان پیش بینی های درست درج شده است. میتوان با اطلاعات این جدول میزان حساسیت Sensitivity مدل (احتمال اینکه پیشامدی رخ داده و بطور صحیح پیشگویی شده باشد) و مشخص سازی Specificity مدل ( احتمال اینکه پیشامدی رخ نداده و بطور صحیح پیشگویی شده)  را محاسبه کرد. میزان حساسیت مدل در مثال اراده شده ۸۹.۵ در صد با توجه به مقدار این شاخص می توان گفت در بیش از ۸۹ در صد از موارد وجود نارسایی قلبی در بیمار با این مدل درست تشخیص داده میشود.  میزان مشخص سازی مدل ۵۶.۷ در صد محاسبه شده است. در مجموع میزان صحت مدل برابر با ۷۸.۷ درصد است.

خروجی مدل رگرسیون لجستیک

در جدول اخر ستون اول شامل عرض از مبدا و ضرایب متغیرهای مستقل مدل است. ستون پنجم جدول سطوح معناداری متغیرهای پیشگو محاسبه شده است. میتوان متغیرهای مستقلی که در مدل معنادار نبودند را کنار گذاشت و مدل را دوباره اجرا نمود. بدین ترتیب مدل تبیین میشود.

EXP(B) نرخ بخت پیشگویی شده است و هنگامی که مقدار کمتر از ۱ می گیرد میتوان گفت بخت شکست به پیروزی بیشتر است. در این مدل میتوان گفت افرادی که شاخص توده بدنی بیشتری دارند شانس ابتلا به نارسایی قلبی کمتری داشته اند.  و افرادی که دچار اریتمی قلبی و چربی خون هستند شانس بسیار بالایی برای بروز نارسایی قلبی خواهند داشت. عرض از مبدا در این مدل تاثیر معناداری ندارد.

تحلیل نتایج رگرسیون لجستیک

اگر به مشاوره بیشتری در این زمینه نیاز دارید با ما تماس بگیرید.