Numpy و Pandas

NumPy و Pandas دو کتابخانه پایتون هستند که در کنار هم، امکانات بی‌نظیری را برای تحلیل داده‌ها فراهم می‌کنند. NumPy به عنوان سنگاپلیست قوی، آرایه‌های عددی چندبعدی را ارائه می‌دهد که برای ذخیره و دستکاری داده‌های عددی بهینه‌سازی شده‌اند. این کتابخانه، پایه‌ای محکم برای محاسبات علمی، مهندسی و داده‌کاوی در پایتون فراهم می‌کند.

آمار توصیفی در پایتون با کتابخانه Numpy و Pandas

کتابخانه Pandas، یک کتابخانه «متن‌باز» (Open Source) به زبان برنامه‌نویسی پایتون است که کارایی بالا در مراحل تحلیل‌های آماری، نظیر «پیش‌پردازش» (PreProcessing) و «تصویرسازی» (Visualization) داده‌ها دارد. از طرفی کتابخانه Numpy یک کتابخانه مهم دیگر در پایتون بخصوص برای تحلیل‌گرهای داده (Data Scientist) است. محاسبات توسط آرایه‌های Numpy درست به مانند لیست‌های پایتون هستند با این تفاوت که از نظر سرعت بسیار سریع‌تر از توابع اصلی پایتون اجرا می‌شوند در نتیجه برای اجرای عملیات ریاضیاتی و منطقی بسیار کارآمدتر هستند. به این ترتیب می‌توان گفت Numpy ابزاری است که استفاده از آن سرعت و کارایی برنامه‌های پایتون را افزایش می‌دهد.

شاخص‌های پراکندگی در Pandas

به منظور شناخت از داده‌ها، شاخص‌های تمرکز محاسبه می‌شوند. ولی باید از طرفی نشان دهیم که این داده‌ها نسبت به نقطه تمرکز چقدر دور یا نزدیک هستند. به این ترتیب متوجه می‌شویم که آیا شاخص تمرکز، معیار خوبی برای نمایندگی همه داده خواهد بود یا خیر. در این قسمت به نحوه محاسبه شاخص‌های پراکندگی خواهیم پرداخت تا اطلاعات بیشتری از داده‌ها جمع‌آوری شده داشته باشیم و نسبت به آن‌ها آگاهی بیشتری کسب کنیم. مجموعه شاخص‌های تمرکز و پراکندگی، آمار توصیفی در پایتون را می‌سازند.

شاخص‌های پراکندگی، معمولا عدم تمرکز داده‌ها را می‌سنجند. از شاخص‌های مهم در این زمینه می‌توان به انحراف استاندارد (Standard Deviation)، واریانس (Variance) و دامنه میان چارکی (Inter Quartile Range) اشاره کرد. هر یک از این شاخص‌ها به شکلی پراکندگی را اندازه‌گیری می‌کنند. برای مثال در محاسبه انحراف استاندارد و واریانس میزان پراکندگی حول میانگین سنجیده می‌شود در حالیکه در دامنه (Range) و دامنه میان چارکی،  نقطه مرکزی در نظر گرفته نشده و حداکثر میزان پراکندگی بین داده‌ها محاسبه می‌شود.

آمار توصیفی در پایتون با کتابخانه Numpy

در ابتدای امر با نحوه محاسبه شاخص‌های مرکزی (Central Tendency)، نظیر میانگین (Mean) و میانه (Median) و همچنین شاخص‌های پراکندگی (Dispersion Measures) مانند واریانس (Variance) و انحراف معیار (Standard Deviation) خواهیم پرداخت. همچنین چندک‌ها (Quartiles) نیز توسط این کتابخانه مورد محاسبه قرار می‌گیرند. به این ترتیب آمار توصیفی در پایتون استخراج شده و نسبت به داده‌ها، اطلاعات بیشتری خواهیم داشت.

آمار توصیفی در پایتون با کتابخانه Pandas

در این مطلب می‌آموزیم که چگونه آمار توصیفی را با استفاده از کتابخانه Pandas بدست آوریم. در این بین همچنین از بسته‌های دیگر در پایتون مانند NumPy و SciPy نیز استفاده خواهیم کرد. ابتدا با استفاده از توابع موجود در کتابخانه Pandas آمار توصیفی برای مجموعه‌ای از داده‌های شبیه‌سازی شده را محاسبه می‌کنیم.