کارا

تحلیل مولفه های اصلی

یکی از روش های کاهش بعد در داده های چند متغیره، تحلیل مولفه های اصلی است. هدف در این تحلیل کاهش بعد داده ها و نیز تحلیل و تفسیر الگوهای پراکندگی در بین داده هاست. این روش به دنبال یافتن ترکیبات خطی از متغیرهاست به نحوی که

  • بیشترین پراکندگی ممکن در راستای این ترکیبات باشد.
  • ضرایب این ترکیبات از لحاظ جبری یکا متعامد باشند.

ثابت می شود که اگر بردارهای ویژه ماتریس واریانس-کواریانس داده ها را به عنوان ضرایب ترکیبات خطی در نظر بگیریم، ترکیبات به دست آمده شرایط مولفه های اصلی را دارا هستند.

به منظور دستیابی به هدف اول در تحلیل مولفه های اصلی یعنی کاهش بعد، تعدادی از مولفه ها را که درصد قابل قبولی از واریانس کل را تبیین می کنند انتخاب می کنیم.

به منظور دستیابی به هدف دوم یعنی توصیف ساختارهای پراکندگی داده ها، سعی بر آن می شود که مولفه های انتخاب شده را به مفاهیمی معقول ارتباط داد. این کار سخت ترین قسمت در تحلیل مولفه های اصلی است که با ادغام دانش آماری و اطلاعات بر روی پدیده مورد بررسی امکان پذیر است. یکی از ابزارها برای دستیابی به این هدف، نمودار امتیازها و مقایسه نمودارهاست. دیگری بررسی نقش متغیرها در مولفه ها از طریق بررسی ضریب همبستگی متغیر و مولفه موردنظر است. بعد از تعیین متغیرهای تاثیرگذار بر روی هر مولفه و با توجه به مثبت یا منفی بودن همبستگی ها در مورد مفاهیم مولفه های اصلی اظهار نظر می شود.

نکته ها در تحلیل مولفه های اصلی:

نکته ۱: واریانس هر مولفه اصلی برابر مقدار ویژه متناظر با بردارویژه استفاده شده به عنوان ضرایب آن مولفه است.

نکته۲: هر مولفه با استفاده از یک بردارویژه ماتریس واریانس کوواریانس ساخته می شود. هر چقدر مقدار ویژه متناظر بزرگتر باشد، اهمیت مولفه اصلی متناظر بیشتر است. در واقع مولفه اصلی اول متناظر با مقدارویژه ماکزیمم و مولفه اصلی دوم متناظر با دومین مقدار ویژه از لحاظ بزرگی در مقدار است.

نکته۳: سهم تبیین شده توسط هر مولفه برابر با نسبت مقدارویژه متناظر با مولفه تقسیم بر مجموع کل مقادیرویژه.

نکته۴: امتیازهای هر مشاهده متناظر با هر یک از مولفه ها، با جایگذاری مقدار مشاهده شده در مولفه مورد نظر حاصل می شود.

نکته۵: در تفسیر نتایج نمی توان تنها به اندازه ضرایب متغیرها در مولفه ها نگاه کرد، بلکه در صورتی که واریانس های متغیرها متفاوت باشد، ممکن است ضریب یک متغیر زیاد ولی همبستگی مولفه با متغیر ناچیز باشد. همیشه ملاک ضریب همبستگی است.

نکته۶: ضریب همبستگی مولفه با متغیر برابر ضریب متغیر در مولفه ضرب در جذر مقدار ویژه تقسیم بر انحراف معیار متغیر است.

نکته۷: مجموع واریانس های متغیرها برابر با مجموع واریانس های کل مولفه ها و برابر با اثرماتریس واریانس کوواریانس و برابر با مجموع تمام مقادیر ویژه است. درصورتی که داده ها استاندارد شده باشند این مجموع ها برابر با تعداد متغیرها هستند.

نکته۸: واریانس هر مولفه برابر یک و کوواریانس مولفه ها برابر صفر است.

نکته۹: برای انتخاب تعداد مولفه اصلی کافی، معیارهایی پیشنهاد شده است از جمله بررسی درصد سهم تبیین شده از واریانس، انتخاب تعداد مقادیر ویژه ای که اختلاف زیاد با بقیه مقادیر دارند (نمودار سنگ ریزه روش مناسبی برای بررسی این موضوع است). همچنین آزمون فرض نیز در کتاب های آماری ذکر شده است.