آمار
آمار (statistics)
مبحثی وابسته به ریاضیات، برای گردآوری و تعبیر و توصیف دادهها، و استخراج نتایجی از آنها دربارۀ مشخصات گروهی از افراد یا اشیاء، برمبنای دادههای موجود در نمونهای که به صورت تصادفی انتخاب شده است. معمولاً کل گروه را جامعه مینامند. مثلاً، برای تعیین میانگین[۱] سن دانشآموزان یک دبستان، نمونهای شامل یکدهم دانشآموزان هر کلاس را که به تصادف انتخاب شدهاند درنظر میگیرند و میانگین سن دانشآموزان نمونه را محاسبه میکنند. عدد حاصل از لحاظ آماری برآورد قابل قبولی از میانگین سن جامعۀ دانشآموزان دبستان است. در استنباط (استنتاج) آماری[۲] از نظریۀ احتمال[۳] استفاده میکنند. میانگین، میانه[۴]، و مُد[۵] شاخصهای متفاوتی از مقدار «نوعی» یا «مرکزی» هر دسته از دادههایند. میانگین با جمعکردن همۀ مقادیر مشاهدهشده و تقسیم عدد حاصل بر تعداد آن مقادیر به دست میآید و معمولاً به منزلۀ مقدار متوسط مشاهدات به کار میرود. میانه مقدار وسطی است، یعنی مقداری که نیمی از دادهها از آن بزرگتر و نیمی از آن کوچکترند. مُد مقداری است که بیشترین فراوانی را دارد. میانگین معمولاً مفیدترین شاخص برای مقاصد نظریۀ آماری به شمار میآید. مفهوم میانه را میتوان گسترش داد و توزیع[۶] دادهها را به چهار چارک[۷] تقسیم کرد. چارک اول مقداری است که سهچهارم دادهها از آن بزرگترند. چارک دوم همان میانه است و چارک سوم مقداری است که یکچهارم دادهها از آن بزرگترند. علیرغم اهمیت میانگین، به منزلۀ شاخص گرایش به مرکز، اطلاعاتی که دربارۀ گروهی از مشاهدات به دست میآید، ناقص است و علاوه بر میانگین، اطلاع از میزان نزدیکی مقادیر مشاهدهشده به میانگین نیز مفید است. این اطلاع را شاخصهای گوناگون پراکندگی[۸] نشان میدهند. دامنه[۹] یکی از این شاخصهاست که برابر تفاضل بیشترین و کمترین مقدار موجود در گروه مشاهدات است، ولی شاخص رضایتبخشی نیست. انحراف میانگین[۱۰] (میانگین انحراف) میانگینِ حسابیِِ[۱۱] قدر مطلق[۱۲] انحرافها (تفاضلها[۱۳]) بین میانگین و تکتک مقادیر است، زیرا اگر انحرافها را با علامت مثبت و منفی درنظر بگیریم، حاصل برابر صفر است. به دلایل محاسباتی، ترجیح میدهند میانگین حسابی توانهای دوم انحرافها را در نظر بگیرند. به اینترتیب، انحراف هریک از مقادیر از میانگین محاسبه میشود و به توان دوم میرسد. اگر تعداد مقادیر n باشد، مجموع توانهای دوم انحرافها را بر n تقسیم میکنند. به اینترتیب، واریانس[۱۴] نمونه به دست میآید که از مفیدترین ملاکهای پراکندگی است، اما اگر بخواهند واریانس جامعه را با استفاده از نمونه برآورد کنند، مجموع توانهای دوم انحرافها را به جای n بر n - ۱ تقسیم میکنند تا برآورد بهتری به دست آید. ریشۀ دوم مثبت واریانس را انحراف معیار[۱۵] مینامند و آن را با s برای نمونه، یا s برای جامعه، نشان میدهند. میانگین معمولترین شاخص گرایش به مرکز و انحراف معیار معمولترین شاخص پراکندگی است. میانگین و واریانس را گشتاورهای اول و دوم مینامند. برای استانداردسازی اندازهگیریها، معمولاً از واحدهای انحراف معیاری استفاده میکنند که با اندازهگیری برمبنای میانگین به دست میآید. به اینترتیب، نظریات آماری امکان تعمیم مییابند. توزیع استانداردشده دارای میانگین صفر و انحراف معیار یک است. شاخص مفید دیگر برای پراکندگی، دامنۀ نیم میانچارکی[۱۶] است که نصف فاصلۀ بین چارکهای اول و سوم است و میتوان آن را فاصلۀ متوسط چارکها از میانه قلمداد کرد. در بسیاری از توزیعهای نوعی، دامنۀ نیم میانچارکی درحدود دوسوم انحراف معیار، و انحراف میانگین درحدود چهارپنجم انحراف معیار است.
کاربردها. یکی از مهمترین کاربردهای آمار آزمودن فرضیهها به منظور تأیید فرضیه[۱۷] با دادههای تجربی است. مثلاً، پژوهشگری در حوزۀ مطالعات کشاورزی به چند گروه از گاوها مواد غذایی متفاوتی میخوراند و میزان محصول شیر آنها را ثبت میکند. سپس، دادههای مربوط به محصول شیر را تحلیل میکند و درمییابد میانگین و انحراف معیار گروههای متفاوت تولید شیر گاوها، متفاوت است. محقق میتواند با استفاده از آزمونهای آماری تعیین کند که آیا این تفاوتها در حدی است که تفاوتهای طبیعی گاوها آن را توجیه کند یا آنکه بیشتر از حد طبیعی است و ممکن است بر اثر تفاوت در تغذیه باشد. همبستگی[۱۸] شاخصی از میزان وابستگی دو کمیت به هم است، به این معنی که تغییری در یک کمیت با تغییری قابل پیشبینی در کمیت دیگر همراه باشد. مثلاً اگر فشار وارد بر مقداری گاز افزایش یابد، حجم آن کاهش مییابد. اگر مقادیر اندازهگیریشدۀ فشار و حجم ثبت شوند، آنگاه با استفاده از تحلیل همبستگی آماری میتوان تعیین کرد که آیا حجم گاز با اطلاع از فشار وارد به آن پیشبینیپذیر است یا نه.