کارا

آمار توصیفی

گاهی هدف از انجام یک تحقیق، بررسی و شناخت ساختار کلی و نحوه توزیع کمیت هایی در یک جامعه آماری است. در این صورت، کمیت های مربوط به این جامعه آماری به طور کامل اندازه گیری شده یا به اصطلاح سرشماری شده است که در این حالت ابزارهای آمار توصیفی کارائی زیادی در خلاصه سازی اطلاعات و توصیف آن دارد. گاهی نیز جامعه آماری به طور کامل اندازه گیری نشده و به اصلاح نمونه گیری صورت گرفته است و برای بررسی ویژگی های کلی این نمونه تصادفی از ابزارهای موجود در آمار توصیفی استفاده می شود.

در آمار توصیفی از دو ابزار برای ترسیم یا گزارش ویژگی های موجود در داده ها استفاده می شود. یکی از این ابزارها، جداول آماری است که متشکل از شاخص های آماری است که غالباً در دو دسته شاخص های پراکندگی و مرکزی قرار می گیرند. ابزار دیگر شامل نمودارهای آماری است که انواع مختلفی دارد و بنا به نوع داده ها و اهداف محقق، مورد استفاده قرار می گیرد.

شاخص های مرکزی

  • میانگین
  • میانه
  • چندک
  • نما

شاخص های پراکندگی

  • واریانس
  • انحراف استاندارد
  • دامنه

نمودارهای آماری

  • شاخه و برگ
  • هیستوگرام
  • نمودار میله ای
  • نمودار دایره ای
  • نمودار سری زمانی
  • نمودار جعبه ای
  • نمودار پراکنش
  • نمودار چهره نما
  • دیگر نمودارهای چند متغیره

میانگین: معروف ترین و پرکاربرد ترین شاخص های آماری، میانگین است که خود چند نوع است، میانگین حسابی که همان میانگین معمولی و رایج است، میانگین هندسی که برای محاسبه شاخص مرکزی اعدادی که از جنس نسبت یا درصد هستند به کار می رود، میانگین هارمونیک و …. .

میانگین حسابی: متداول ترین نوع میانگین است. این میانگین از تقسیم مجموع کل داده ها بر تعداد آن ها به دست می آید.

    \[ \bar{x}=\frac{1}{n} \sum_{i=1}^{n}x_i\ \]

از معایب میانگین حسابی، تاثیر پذیری از داده های پرت است. در حالتی که داده های مورد بررسی، شامل اعداد پرت باشند، از میانه یا میانگین اصلاح شده استفاده می شود.

میانگین هندسی:نوعی میانگین است که هرگاه داده­ها شامل نسبت­ها یا درصدها باشد کاربرد دارد. وقتی داده ها به صورت امتیازهای نسبی باشند می توان از این میانگین استفاده کرد. مثلاً در پرسشنامه های مقایسات زوجی که در تحلیل های تصمیم گیری چندمعیاره استفاده می شود، بهتر است از این میانگین برای متوسط گیری از امتیازات دو معیار خاص استفاده کرد. میانگین هندسی با G نشان داده شده و به صورت زیر محاسبه می­شود:

    \[ G=\sqrt[n]{x_1.x_2...x_n} \]

میانگین هارمونیک:اگر مقیاس داده­ها ترکیبی باشد از میانگین هارمونیک یا همسازه استفاده می­شود:

    \[ HM=\frac{1}{\frac{1}{n}[\frac{1}{x_1}+\frac{1}{x_2}+\dots + \frac{1}{x_n}]} \]

میانه: نوعی معیار گرایش به مرکز است که عمدتا برای داده های رتبه ای کاربرد دارد هرچند برای داده های نسبی و فاصله ای نیز استفاده می شود. میانه جایگاهی در توزیع داده­هاست که یک مجموعه آماری ویا یک توزیع احتمال را به دو قسمت مساوی تقسیم می­کند.  این معیار نسبت به اعداد بزرگ یا کوچک حساس نبوده بنابراین بهترین شاخص برای نشان دادن تمرکز داده­ها در وسط توزیع است. برای محاسبه میانه ابتدا داده­ها را از کوچک به بزرگ مرتب کرده اگر تعداد داده­ها فرد باشد میانه عضو وسط است و اگر تعداد داده­ها زوج باشد میانه با میانگین دو عضو وسط، محاسبه می­شود.

چندک: یک معیار کلی‌تر از میانه است و درعنوان حالت خاص میانه را نیز در بر می‌گیرد. اگرp یک عدد حقیقی بین صفر و یک باشد،‌آنگاه عدد Q_p را چندک مرتبه p می‌نامیم هر گاه p*100\% داده‌ها سمت چپ و (1-p)*100\% داده‌ها سمت راست  Q_p باشند. از معروفترین چندک­ها میتوان به چارک­ها اشاره کرد، چارک‌های اول، دوم و سوم  به ترتیب داده‌هایی هستند که ۰/۲۵، ۰/۵۰ و ۰/۷۵ داده‌ها از آن کوچک‌تر هستند. چارک دوم همان میانه است.

نما: مد یا نما یکی دیگر از شاخص­های گرایش به مرکز است . عضوی از مجموعه آماری را که دارای بیشترین فراوانی است، نشان می­دهد و بیشتر در داده­های اسمی کاربرد دارد.

واریانس: . یک مفهوم مهم در ارتباط با داده‌های آماری، ‌میزان تغییرات آنهاست،  شاخص­های پراکندگی  نشان می دهند داده ها از میانگین چقدر دور و یا به آن نزدیک هستند  واریانس که یکی از مهمترین و پرکاربردترین پارامترها در آمار است عبارت است از متوسط توان دوم اختلاف داده‌ها از میانگین، واریانس کمتر بدین معنا است که انتظار می‌رود که اگر نمونه‌ای از توزیع مزبور انتخاب شود مقدار آن به میانگین نزدیک باشد. که برای میانگین معلوم با فرمول زیر محاسبه می­شود:

    \[ S^2=\frac{1}{n} \sum_{i=1}^n {(x_i - \bar{x})^2} \]

انحراف استاندارد: یکی دیگراز شاخص‌های پراکندگی انحراف معیار یا انحراف استاندارداست که نشان می‌دهد به طور میانگین داده‌ها چه مقدار از میانگین فاصله دارند. انحراف معیار برابر با ریشه دوم واریانس است اگر انحراف معیار مجموعه‌ای از داده‌ها نزدیک به صفر باشد، نشانه آن است که داده‌ها نزدیک به میانگین هستند و پراکندگی اندکی دارند؛ در حالی که انحراف معیار بزرگ بیانگر پراکندگی قابل توجه داده‌ها می‌باشد. مزیت آن  نسبت به واریانس، این است که هم بعد با داده‌ها می‌باشد انحراف معیار برای تعیین ضریب اطمینان در تحلیل‌های آماری نیز به کار می‌رود. در مطالعات علمی، معمولاً داده‌های با انحراف معیار بیشتر از دو به عنوان داده‌های پرت در نظر گرفته و از تحلیل، خارج می‌شوند.

دامنه: روشی ساده برای بررسی پراکندگی داده­ها یافتن دامنه یا به عبارتی اختلاف بزرگترین و کوچکترین مشاهده است. اما هنگامی که داده­های بسیار بزرگ یا بسیار کوچک وجود داشته باشند این معیار رضایت بخش نبوده و معرف خوبی برای بیان میزان انحراف داده­ها نیست. در این­گونه موارد استفاده از واریانس مطلوب است.

    \[R= x_{(n)}-x_{(1)}\]

 

نمودارهای آماری روشی عینی و سریع برای تجسم اطلاعات نهفته در داده­ها هستند  و ابزاری ساده برای نمایش و استباط از مشاهدات و روشی کارا در تجزیه و تحلیل­های آماری محسوب می­شوند  و در دو دسته نمودارهای تک­متغیره و نمودارهای چند متغیره تقسیم می­شوند.  نمودارهای شاخ و برگ دایره­ ای، میله­ای و هیستوگرام از رایج­ترین نمودارهای تک متغیره هستند.

۱ نمودار شاخه و برگ

برای اینکه یک دید سریع از توزیع داده ها کسب کنیم بهترین روش استفاده از نمودار ساقه و برگ است. در نمودار ساقه و برگ هر مقدار مشاهده شده به دو بخش تقسیم می شود یک یا چند رقم اصلی که شاخه نامیده می شود و یک رقم دنباله که برگ نامیده می شود.

در نمودار ساقه و برگ هر ردیف مطابق با یک ساقه بوده و هر نمونه توسط برگ های آن نشان داده می شود. همچنین بیشتر از یک ردیف می توانند ساقه های یکسانی داشته باشند. این نوع نمودار همچنین روش مناسبی برای نمایش داده­های پرت و مد ارائه می­دهد. البته در صورتی که تعداد داده­ها خیلی زیاد باشد نمودار شکل کاملا بهم ریخته ای خواهد داشت. بنابراین برای تعداد داده بیشتر از ۱۵۰ این نوع نمودار توصیه نمی­شود. با تعداد کم داده نیز خواص توزیع  بخوبی نمایش داده نخواهد شد که در این مورد نمودار نقطه­ای توصیه می­ شود.

نمودار شاخه و برگ

نمودار شاخه و برگ

۲ – هیستوگرام

بافت نگار یا هیستوگرام از رایج­ترین نمودار­های آماری برای داده­های کمی فاصله­ای و نسبی است که بهترین روش برای نمایش میزان گرایش به مرکز و پراکندگی در این نوع از داده­ها و سنجش نرمال بودن توزیع است. در  نمودارهیستوگرام ستون افقی شامل متغیرها و ستون عمودی فراوانی یا فراوانی نسبی آنهاست.

هیستوگرام

هیستوگرام

 

۳ نمودار میله ای

نمودار میله­ای  برای نمایش داده­های کیفی اسمی و ترتیبی و کمی با تعداد طبقات کم بکار می­رود شامل مجموعه ای از ستون­ها یا میله­ها با فاصله­های یکنواخت است و در آن هر مقدار به عنوان رده یا طبقه­ای از یک متغیر و فراوانی نسبی آن با ارتفاع میله­ها نشان داده می­ شوند.

نمودار میله ای

نمودار میله ای

 

۴ نمودار دایره ای

یک روش جالب برای نمایش متغیرهای مرتبط استفاده از نمودار دایره ­ای است. در این نوع نمایش سهم مشارکت متغیرهای خاص در موضوع مورد بررسی نشان داده می ­شود که در آن متغیرها به تناسب فراوانی نسبی، سهمی از دایره را پر می­ کنند. معمولاً بخش­ های تشکیل دهنده در این نوع نمودار در جهت عقربه ­های ساعت از بزرگ به کوچک تنظیم می­ شوند.

نمودار دایره ای

نمودار دایره ای

۵ نمودار سری زمانی

این نوع نمودار برای نمایش گرافیکی پدیده هایی که در طول زمان تغییر کرده و اندازه گیری شده اند، استفاده می شود. بدین ترتیب که مقدار مشاهده شده متغیر بر محور عمودی و زمان نیز محور افقی قرار می گیرد.

 

نمودار سری زمانی

نمودار سری زمانی

۶ نمودار جعبه ای

این نمودار روشی مناسب برای نمایش نحوه پراکندگی داده­ های کمی است که بر اساس داده­های مرتب شده به صورت صعودی و تعیین چارک­ها و دامنه است در نمودار جعبه­ ای از چارک ­ها برای نشان دادن فاصله استفاده م ی­شود و خط داخل جعبه چارک دوم یا میانه را مشخص می­کند . دامنه داده­ ها نیز با خطوطی خارج از جعبه، حد بالایی و پایینی داده ­ها در رده­ای خاص را نشان می ­دهند. داده ­های پرت نیز در صورت وجود با نقاطی اطراف جعبه نشان داده می ­شود.

نمودار جعبه ای

نمودار جعبه ای

 

۷ نمودار پراکنش

رابطه بین دو متغییر با استفاده از نمودار پراکنش بررسی می ­شود. که در آن مقادیر هر متغیر با نقاطی بر روی صفحه نمودار مشخص می­شوند. و به این صورت می­ توان وجود الگوهای مختلف در ارتباط دو متغییر را جستجو کرد. تفسیر نمودار پراکنش آسان بوده و اطلاعات زیادی در مورد داده ها در اختیار می گذارد.

نمودار پراکنش

نمودار پراکنش