آمار

آمار (statistics)
مبحثی وابسته به ریاضیات، برای گردآوری و تعبیر و توصیف داده‌ها، و استخراج نتایجی از آن‌ها دربارۀ مشخصات گروهی از افراد یا اشیاء، برمبنای داده‌های موجود در نمونه‌ای که به صورت تصادفی انتخاب شده است. معمولاً کل گروه را جامعه می‌نامند. مثلاً، برای تعیین میانگین^[۱] سن دانش‌آموزان یک دبستان، نمونه‌ای شامل یک‌دهم دانش‌آموزان هر کلاس را که به تصادف انتخاب شده‌اند درنظر می‌گیرند و میانگین سن دانش‌آموزان نمونه را محاسبه می‌کنند. عدد حاصل از لحاظ آماری برآورد قابل قبولی از میانگین سن جامعۀ دانش‌آموزان دبستان است. در استنباط (استنتاج) آماری^[۲] از نظریۀ احتمال^[۳] استفاده می‌کنند. میانگین، میانه^[۴]، و مُد^[۵] شاخص‌های متفاوتی از مقدار «نوعی» یا «مرکزی» هر دسته از داده‌هایند. میانگین با جمع‌کردن همۀ مقادیر مشاهده‌شده و تقسیم عدد حاصل بر تعداد آن مقادیر به دست می‌آید و معمولاً به منزلۀ مقدار متوسط مشاهدات به کار می‌رود. میانه مقدار وسطی است، یعنی مقداری که نیمی از داده‌ها از آن بزرگ‌تر و نیمی از آن کوچک‌ترند. مُد مقداری است که بیشترین فراوانی را دارد. میانگین معمولاً مفیدترین شاخص برای مقاصد نظریۀ آماری به شمار می‌آید. مفهوم میانه را می‌توان گسترش داد و توزیع^[۶] داده‌ها را به چهار چارک^[۷] تقسیم کرد. چارک اول مقداری است که سه‌چهارم داده‌ها از آن بزرگ‌ترند. چارک دوم همان میانه است و چارک سوم مقداری است که یک‌چهارم داده‌ها از آن بزرگ‌ترند. علی‌رغم اهمیت میانگین، به منزلۀ شاخص گرایش به مرکز، اطلاعاتی که دربارۀ گروهی از مشاهدات به دست می‌آید، ناقص است و علاوه بر میانگین، اطلاع از میزان نزدیکی مقادیر مشاهده‌‌شده به میانگین‌ نیز مفید است. این اطلاع را شاخص‌های گوناگون پراکندگی^[۸] نشان می‌دهند. دامنه^[۹] یکی از این شاخص‌هاست که برابر تفاضل بیشترین و کمترین مقدار موجود در گروه مشاهدات است، ولی شاخص رضایت‌بخشی نیست. انحراف میانگین^[۱۰] (میانگین انحراف) میانگینِ حسابیِِ^[۱۱] قدر مطلق^[۱۲] انحراف‌ها (تفاضل‌ها^[۱۳]) بین میانگین و تک‌تک مقادیر است، زیرا اگر انحراف‌ها را با علامت مثبت و منفی‌ درنظر بگیریم، حاصل برابر صفر است. به دلایل محاسباتی، ترجیح می‌دهند میانگین حسابی توان‌های دوم انحراف‌ها را در نظر بگیرند. به این‌ترتیب، انحراف هریک از مقادیر از میانگین محاسبه می‌شود و به توان دوم می‌رسد. اگر تعداد مقادیر n باشد، مجموع توان‌های دوم انحراف‌ها را بر n تقسیم می‌کنند. به این‌ترتیب، واریانس^[۱۴] نمونه به دست می‌آید که از مفیدترین ملاک‌های پراکندگی است، اما اگر بخواهند واریانس جامعه را با استفاده از نمونه برآورد کنند، مجموع توان‌های دوم انحراف‌ها را به جای n بر n - ۱ تقسیم می‌کنند تا برآورد بهتری به دست آید. ریشۀ دوم مثبت واریانس را انحراف معیار^[۱۵] می‌نامند و آن را با s برای نمونه، یا s برای جامعه، نشان می‌دهند. میانگین معمول‌ترین شاخص گرایش به مرکز و انحراف معیار معمول‌ترین شاخص پراکندگی است. میانگین و واریانس را گشتاورهای اول و دوم می‌نامند. برای استانداردسازی اندازه‌گیری‌ها، معمولاً از واحدهای انحراف معیاری استفاده می‌کنند که با اندازه‌گیری برمبنای میانگین به دست می‌آید. به این‌ترتیب، نظریات آماری امکان تعمیم می‌یابند. توزیع استانداردشده دارای میانگین صفر و انحراف معیار یک است. شاخص مفید دیگر برای پراکندگی، دامنۀ نیم‌ میان‌چارکی^[۱۶] است که نصف فاصلۀ بین چارک‌های اول و سوم است و می‌توان آن را فاصلۀ متوسط چارک‌ها از میانه قلمداد کرد. در بسیاری از توزیع‌های نوعی، دامنۀ نیم‌ میان‌چارکی درحدود دوسوم انحراف معیار، و انحراف میانگین درحدود چهارپنجم انحراف معیار است.

کاربردها. یکی از مهم‌ترین کاربردهای آمار آزمودن فرضیه‌ها به منظور تأیید فرضیه^[۱۷] با داده‌های تجربی است. مثلاً، پژوهشگری در حوزۀ مطالعات کشاورزی به چند گروه از گاوها مواد غذایی متفاوتی می‌خوراند و میزان محصول شیر آن‌ها را ثبت می‌کند. سپس، داده‌های مربوط به محصول شیر را تحلیل می‌کند و درمی‌یابد میانگین و انحراف معیار گروه‌های متفاوت تولید شیر گاوها، متفاوت است. محقق می‌تواند با استفاده از آزمون‌های آماری تعیین کند که آیا این تفاوت‌ها در حدی است که تفاوت‌های طبیعی گاوها آن را توجیه کند یا آن‌که بیشتر از حد طبیعی است و ممکن است بر اثر تفاوت‌ در تغذیه باشد. همبستگی^[۱۸] شاخصی از میزان وابستگی دو کمیت به هم است، به این معنی که تغییری در یک کمیت با تغییری قابل پیش‌بینی در کمیت دیگر همراه باشد. مثلاً اگر فشار وارد بر مقداری گاز افزایش یابد، حجم آن کاهش می‌یابد. اگر مقادیر اندازه‌گیری‌شدۀ فشار و حجم ثبت شوند، آن‌گاه با استفاده از تحلیل همبستگی آماری می‌توان تعیین کرد که آیا حجم گاز با اطلاع از فشار وارد به آن پیش‌بینی‌پذیر است یا نه.

↑ mean
↑ statistical inference
↑ probability theory
↑ median
↑ mode
↑ distribution
↑ quartile
↑ dispersion
↑ range
↑ mean deviation
↑ arithmetic mean
↑ absolute value
↑ differences
↑ variance
↑ standard deviation
↑ semi-interquartile range
↑ hypothesis
↑ correlation

[1] ↑ mean

[2] statistical inference

[3] robability theory

[4] ↑ median

[5] ↑ mode

[6] stribution

[7] quartile

[8] spersion

[9] range

[10] viation

[11] rithmetic mean

[12] solute value

[13] rences

[14] variance

[15] standard deviation

[16] semi-interquartile range

[17] ypothesis

[18] rrelation

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[۱۸]