۲۴ خرداد آمار توصیفی
گاهی هدف از انجام یک تحقیق، بررسی و شناخت ساختار کلی و نحوه توزیع کمیت هایی در یک جامعه آماری است. در این صورت، کمیت های مربوط به این جامعه آماری به طور کامل اندازه گیری شده یا به اصطلاح سرشماری شده است که در این حالت ابزارهای آمار توصیفی کارائی زیادی در خلاصه سازی اطلاعات و توصیف آن دارد. گاهی نیز جامعه آماری به طور کامل اندازه گیری نشده و به اصلاح نمونه گیری صورت گرفته است و برای بررسی ویژگی های کلی این نمونه تصادفی از ابزارهای موجود در آمار توصیفی استفاده می شود.
در آمار توصیفی از دو ابزار برای ترسیم یا گزارش ویژگی های موجود در داده ها استفاده می شود. یکی از این ابزارها، جداول آماری است که متشکل از شاخص های آماری است که غالباً در دو دسته شاخص های پراکندگی و مرکزی قرار می گیرند. ابزار دیگر شامل نمودارهای آماری است که انواع مختلفی دارد و بنا به نوع داده ها و اهداف محقق، مورد استفاده قرار می گیرد.
شاخص های مرکزی
- میانگین
- میانه
- چندک
- نما
شاخص های پراکندگی
- واریانس
- انحراف استاندارد
- دامنه
- …
نمودارهای آماری
- شاخه و برگ
- هیستوگرام
- نمودار میله ای
- نمودار دایره ای
- نمودار سری زمانی
- نمودار جعبه ای
- نمودار پراکنش
- نمودار چهره نما
- دیگر نمودارهای چند متغیره
میانگین: معروف ترین و پرکاربرد ترین شاخص های آماری، میانگین است که خود چند نوع است، میانگین حسابی که همان میانگین معمولی و رایج است، میانگین هندسی که برای محاسبه شاخص مرکزی اعدادی که از جنس نسبت یا درصد هستند به کار می رود، میانگین هارمونیک و …. .
میانگین حسابی: متداول ترین نوع میانگین است. این میانگین از تقسیم مجموع کل داده ها بر تعداد آن ها به دست می آید.
از معایب میانگین حسابی، تاثیر پذیری از داده های پرت است. در حالتی که داده های مورد بررسی، شامل اعداد پرت باشند، از میانه یا میانگین اصلاح شده استفاده می شود.
میانگین هندسی:نوعی میانگین است که هرگاه دادهها شامل نسبتها یا درصدها باشد کاربرد دارد. وقتی داده ها به صورت امتیازهای نسبی باشند می توان از این میانگین استفاده کرد. مثلاً در پرسشنامه های مقایسات زوجی که در تحلیل های تصمیم گیری چندمعیاره استفاده می شود، بهتر است از این میانگین برای متوسط گیری از امتیازات دو معیار خاص استفاده کرد. میانگین هندسی با G نشان داده شده و به صورت زیر محاسبه میشود:
میانگین هارمونیک:اگر مقیاس دادهها ترکیبی باشد از میانگین هارمونیک یا همسازه استفاده میشود:
میانه: نوعی معیار گرایش به مرکز است که عمدتا برای داده های رتبه ای کاربرد دارد هرچند برای داده های نسبی و فاصله ای نیز استفاده می شود. میانه جایگاهی در توزیع دادههاست که یک مجموعه آماری ویا یک توزیع احتمال را به دو قسمت مساوی تقسیم میکند. این معیار نسبت به اعداد بزرگ یا کوچک حساس نبوده بنابراین بهترین شاخص برای نشان دادن تمرکز دادهها در وسط توزیع است. برای محاسبه میانه ابتدا دادهها را از کوچک به بزرگ مرتب کرده اگر تعداد دادهها فرد باشد میانه عضو وسط است و اگر تعداد دادهها زوج باشد میانه با میانگین دو عضو وسط، محاسبه میشود.
چندک: یک معیار کلیتر از میانه است و درعنوان حالت خاص میانه را نیز در بر میگیرد. اگرp یک عدد حقیقی بین صفر و یک باشد،آنگاه عدد را چندک مرتبه
مینامیم هر گاه
دادهها سمت چپ و
دادهها سمت راست
باشند. از معروفترین چندکها میتوان به چارکها اشاره کرد، چارکهای اول، دوم و سوم به ترتیب دادههایی هستند که ۰/۲۵، ۰/۵۰ و ۰/۷۵ دادهها از آن کوچکتر هستند. چارک دوم همان میانه است.
نما: مد یا نما یکی دیگر از شاخصهای گرایش به مرکز است . عضوی از مجموعه آماری را که دارای بیشترین فراوانی است، نشان میدهد و بیشتر در دادههای اسمی کاربرد دارد.
واریانس: . یک مفهوم مهم در ارتباط با دادههای آماری، میزان تغییرات آنهاست، شاخصهای پراکندگی نشان می دهند داده ها از میانگین چقدر دور و یا به آن نزدیک هستند واریانس که یکی از مهمترین و پرکاربردترین پارامترها در آمار است عبارت است از متوسط توان دوم اختلاف دادهها از میانگین، واریانس کمتر بدین معنا است که انتظار میرود که اگر نمونهای از توزیع مزبور انتخاب شود مقدار آن به میانگین نزدیک باشد. که برای میانگین معلوم با فرمول زیر محاسبه میشود:
انحراف استاندارد: یکی دیگراز شاخصهای پراکندگی انحراف معیار یا انحراف استاندارداست که نشان میدهد به طور میانگین دادهها چه مقدار از میانگین فاصله دارند. انحراف معیار برابر با ریشه دوم واریانس است اگر انحراف معیار مجموعهای از دادهها نزدیک به صفر باشد، نشانه آن است که دادهها نزدیک به میانگین هستند و پراکندگی اندکی دارند؛ در حالی که انحراف معیار بزرگ بیانگر پراکندگی قابل توجه دادهها میباشد. مزیت آن نسبت به واریانس، این است که هم بعد با دادهها میباشد انحراف معیار برای تعیین ضریب اطمینان در تحلیلهای آماری نیز به کار میرود. در مطالعات علمی، معمولاً دادههای با انحراف معیار بیشتر از دو به عنوان دادههای پرت در نظر گرفته و از تحلیل، خارج میشوند.
دامنه: روشی ساده برای بررسی پراکندگی دادهها یافتن دامنه یا به عبارتی اختلاف بزرگترین و کوچکترین مشاهده است. اما هنگامی که دادههای بسیار بزرگ یا بسیار کوچک وجود داشته باشند این معیار رضایت بخش نبوده و معرف خوبی برای بیان میزان انحراف دادهها نیست. در اینگونه موارد استفاده از واریانس مطلوب است.
نمودارهای آماری روشی عینی و سریع برای تجسم اطلاعات نهفته در دادهها هستند و ابزاری ساده برای نمایش و استباط از مشاهدات و روشی کارا در تجزیه و تحلیلهای آماری محسوب میشوند و در دو دسته نمودارهای تکمتغیره و نمودارهای چند متغیره تقسیم میشوند. نمودارهای شاخ و برگ دایره ای، میلهای و هیستوگرام از رایجترین نمودارهای تک متغیره هستند.
۱ – نمودار شاخه و برگ
برای اینکه یک دید سریع از توزیع داده ها کسب کنیم بهترین روش استفاده از نمودار ساقه و برگ است. در نمودار ساقه و برگ هر مقدار مشاهده شده به دو بخش تقسیم می شود یک یا چند رقم اصلی که شاخه نامیده می شود و یک رقم دنباله که برگ نامیده می شود.
در نمودار ساقه و برگ هر ردیف مطابق با یک ساقه بوده و هر نمونه توسط برگ های آن نشان داده می شود. همچنین بیشتر از یک ردیف می توانند ساقه های یکسانی داشته باشند. این نوع نمودار همچنین روش مناسبی برای نمایش دادههای پرت و مد ارائه میدهد. البته در صورتی که تعداد دادهها خیلی زیاد باشد نمودار شکل کاملا بهم ریخته ای خواهد داشت. بنابراین برای تعداد داده بیشتر از ۱۵۰ این نوع نمودار توصیه نمیشود. با تعداد کم داده نیز خواص توزیع بخوبی نمایش داده نخواهد شد که در این مورد نمودار نقطهای توصیه می شود.

نمودار شاخه و برگ
۲ – هیستوگرام
بافت نگار یا هیستوگرام از رایجترین نمودارهای آماری برای دادههای کمی فاصلهای و نسبی است که بهترین روش برای نمایش میزان گرایش به مرکز و پراکندگی در این نوع از دادهها و سنجش نرمال بودن توزیع است. در نمودارهیستوگرام ستون افقی شامل متغیرها و ستون عمودی فراوانی یا فراوانی نسبی آنهاست.

هیستوگرام
۳ – نمودار میله ای
نمودار میلهای برای نمایش دادههای کیفی اسمی و ترتیبی و کمی با تعداد طبقات کم بکار میرود شامل مجموعه ای از ستونها یا میلهها با فاصلههای یکنواخت است و در آن هر مقدار به عنوان رده یا طبقهای از یک متغیر و فراوانی نسبی آن با ارتفاع میلهها نشان داده می شوند.

نمودار میله ای
۴ – نمودار دایره ای
یک روش جالب برای نمایش متغیرهای مرتبط استفاده از نمودار دایره ای است. در این نوع نمایش سهم مشارکت متغیرهای خاص در موضوع مورد بررسی نشان داده می شود که در آن متغیرها به تناسب فراوانی نسبی، سهمی از دایره را پر می کنند. معمولاً بخش های تشکیل دهنده در این نوع نمودار در جهت عقربه های ساعت از بزرگ به کوچک تنظیم می شوند.

نمودار دایره ای
۵ – نمودار سری زمانی
این نوع نمودار برای نمایش گرافیکی پدیده هایی که در طول زمان تغییر کرده و اندازه گیری شده اند، استفاده می شود. بدین ترتیب که مقدار مشاهده شده متغیر بر محور عمودی و زمان نیز محور افقی قرار می گیرد.

نمودار سری زمانی
۶ – نمودار جعبه ای
این نمودار روشی مناسب برای نمایش نحوه پراکندگی داده های کمی است که بر اساس دادههای مرتب شده به صورت صعودی و تعیین چارکها و دامنه است در نمودار جعبه ای از چارک ها برای نشان دادن فاصله استفاده م یشود و خط داخل جعبه چارک دوم یا میانه را مشخص میکند . دامنه داده ها نیز با خطوطی خارج از جعبه، حد بالایی و پایینی داده ها در ردهای خاص را نشان می دهند. داده های پرت نیز در صورت وجود با نقاطی اطراف جعبه نشان داده می شود.

نمودار جعبه ای
۷ – نمودار پراکنش
رابطه بین دو متغییر با استفاده از نمودار پراکنش بررسی می شود. که در آن مقادیر هر متغیر با نقاطی بر روی صفحه نمودار مشخص میشوند. و به این صورت می توان وجود الگوهای مختلف در ارتباط دو متغییر را جستجو کرد. تفسیر نمودار پراکنش آسان بوده و اطلاعات زیادی در مورد داده ها در اختیار می گذارد.

نمودار پراکنش