Numpy و Pandas
NumPy و Pandas دو کتابخانه پایتون هستند که در کنار هم، امکانات بینظیری را برای تحلیل دادهها فراهم میکنند. NumPy به عنوان سنگاپلیست قوی، آرایههای عددی چندبعدی را ارائه میدهد که برای ذخیره و دستکاری دادههای عددی بهینهسازی شدهاند. این کتابخانه، پایهای محکم برای محاسبات علمی، مهندسی و دادهکاوی در پایتون فراهم میکند.
آمار توصیفی در پایتون با کتابخانه Numpy و Pandas
کتابخانه Pandas، یک کتابخانه «متنباز» (Open Source) به زبان برنامهنویسی پایتون است که کارایی بالا در مراحل تحلیلهای آماری، نظیر «پیشپردازش» (PreProcessing) و «تصویرسازی» (Visualization) دادهها دارد. از طرفی کتابخانه Numpy یک کتابخانه مهم دیگر در پایتون بخصوص برای تحلیلگرهای داده (Data Scientist) است. محاسبات توسط آرایههای Numpy درست به مانند لیستهای پایتون هستند با این تفاوت که از نظر سرعت بسیار سریعتر از توابع اصلی پایتون اجرا میشوند در نتیجه برای اجرای عملیات ریاضیاتی و منطقی بسیار کارآمدتر هستند. به این ترتیب میتوان گفت Numpy ابزاری است که استفاده از آن سرعت و کارایی برنامههای پایتون را افزایش میدهد.
شاخصهای پراکندگی در Pandas
به منظور شناخت از دادهها، شاخصهای تمرکز محاسبه میشوند. ولی باید از طرفی نشان دهیم که این دادهها نسبت به نقطه تمرکز چقدر دور یا نزدیک هستند. به این ترتیب متوجه میشویم که آیا شاخص تمرکز، معیار خوبی برای نمایندگی همه داده خواهد بود یا خیر. در این قسمت به نحوه محاسبه شاخصهای پراکندگی خواهیم پرداخت تا اطلاعات بیشتری از دادهها جمعآوری شده داشته باشیم و نسبت به آنها آگاهی بیشتری کسب کنیم. مجموعه شاخصهای تمرکز و پراکندگی، آمار توصیفی در پایتون را میسازند.
شاخصهای پراکندگی، معمولا عدم تمرکز دادهها را میسنجند. از شاخصهای مهم در این زمینه میتوان به انحراف استاندارد (Standard Deviation)، واریانس (Variance) و دامنه میان چارکی (Inter Quartile Range) اشاره کرد. هر یک از این شاخصها به شکلی پراکندگی را اندازهگیری میکنند. برای مثال در محاسبه انحراف استاندارد و واریانس میزان پراکندگی حول میانگین سنجیده میشود در حالیکه در دامنه (Range) و دامنه میان چارکی، نقطه مرکزی در نظر گرفته نشده و حداکثر میزان پراکندگی بین دادهها محاسبه میشود.
آمار توصیفی در پایتون با کتابخانه Numpy
در ابتدای امر با نحوه محاسبه شاخصهای مرکزی (Central Tendency)، نظیر میانگین (Mean) و میانه (Median) و همچنین شاخصهای پراکندگی (Dispersion Measures) مانند واریانس (Variance) و انحراف معیار (Standard Deviation) خواهیم پرداخت. همچنین چندکها (Quartiles) نیز توسط این کتابخانه مورد محاسبه قرار میگیرند. به این ترتیب آمار توصیفی در پایتون استخراج شده و نسبت به دادهها، اطلاعات بیشتری خواهیم داشت.
آمار توصیفی در پایتون با کتابخانه Pandas
در این مطلب میآموزیم که چگونه آمار توصیفی را با استفاده از کتابخانه Pandas بدست آوریم. در این بین همچنین از بستههای دیگر در پایتون مانند NumPy و SciPy نیز استفاده خواهیم کرد. ابتدا با استفاده از توابع موجود در کتابخانه Pandas آمار توصیفی برای مجموعهای از دادههای شبیهسازی شده را محاسبه میکنیم.