نمودار جعبه ای Box Plot
مقدمه نمودار جعبه ای Box Plot :
در آمار توصیفی، نمودار جعبه ای Box Plot نوعی نمودار است که اغلب در تجزیه و تحلیل داده ها استفاده میشود. نمودار جعبه ای ابزار گرافیکی نیرومندی است که توانایی مقایسه گروهها را به صورت شهودی فراهم میکند. نمودارهای جعبه ای بصورت توزیع داده های عددی و انحراف از طریق نمایش یک چهارم داده ها (یا صدکها) و میانگینها ، شرایط داده ها را نشان میدهد. تشخیص اینکه آیا داده های متقارن در کنار هم قرار گرفتن یا میزان تجمع داده در کدام مناطق است و یا تشخیص میزان چولگی به راست یا چپ از تواناییهای این نمودار است. برای تحلیل داده ها گاهاً باید در مورد تنوع یا پراکندگی داده ها اطلاعات داشته باشید. نمودار جعبه ای Box Plot یک نمودار است که چگونگی پخش مقادیر در داده ها را نشان میدهد.
نمودار جعبه ای Box Plot
نمودارهای جعبه ای خلاصه ی پنج ویژگی عددی از مجموعه داده ها را نشان میدهد: شامل کمترین مقدار (minimum score)، یک چهارم اول (first (lower) quartile) ، متوسط(median) ، یک چهارم، سوم (third (upper) quartile) و بیشترین مقدار(maximum score).
minimum score:
کمترین امتیاز، به استثنای داده های پرت (در انتهای سمت چپ نشان داده شده است).
first (lower) quartile( Q1): 25
درصد از نمرات زیر مقدار یک چهارم پایین (که به عنوان ربع اول نیز شناخته میشود) قرار میگیرند.
median:
میانه نقطه میانی داده ها را نشان میدهد و توسط خطی نشان داده میشود که جعبه را به دو قسمت تقسیم میکند (گاهی اوقات به عنوان ربع دوم شناخته می شود). نیمی از نمرات بزرگتر یا برابر با این مقدار و نصف کمتر است.
third (upper) quartile(Q3):
هفتاد و پنج درصد از مقادیر زیر مقدار ربع بالاتر قرار میگیرند (همچنین به عنوان ربع سوم شناخته می شود). بنابراین، 25 درصد از داده ها بالاتر از این مقدار هستند.
maximum:
حداکثر مقدار داده ها، بالاترین امتیاز، به استثنای داده های پرت (که در انتهای خط سمت راست نشان داده شده است).
IQR (دامنه میان چارکی):
فاصله بین یک چهارم اول و سوم توسط این شاخص نشان داده میشود. طول اضلاع دیگر جعبه توسط این شاخص تعیین میشود.
Whikers (خطوط):
این خطوط فاصله بین یک چهارم اول تا کمترین مقدار و همچنین بیشترین مقدار را پر میکنند. در تصویر بالا این خطوط به رنگ مشکی نشان داده شدهاند.
نمودارهای جعبه ای، داده ها را به بخشهایی تقسیم میکند که هر کدام تقریباً 25 درصد از داده های آن مجموعه را شامل میشوند. که این تقسیمبندی در تصویر زیر کاملا مشخص است.
نمودارهای جعبهای مفید هستند زیرا خلاصه ای از اطلاعات را فراهم میکنند که محققان را قادر میسازد تا به سرعت مقادیر متوسط، پراکندگی مجموعه داده ها و علائم انحراف را شناسایی کنند. توجه داشته باشید تصویر بالا داده هایی را نشان می دهد که یک توزیع کاملاً نرمال را دارد و بیشتر نمودارهای جعبه با این تقارن مطابقت ندارند (جایی که هر یک از چارکها یک طول دارد).
در صورت توزیع یا انحراف مجموعه داده های آماری، شکل نمودار جعبه نشان داده می شود. وقتی میانه وسط جعبه است و خطوط در هر دو طرف جعبه تقریباً یکسان هستند، در این صورت توزیع متقارن است(Normal Distribution). وقتی میانه به پایین جعبه نزدیکتر است، و اگر خطوط از انتهای پایین جعبه کوتاه تر است، توزیع به سمت مثبت کج میشود (Positive Skew). وقتی میانه به بالای جعبه نزدیکتر باشد، و اگر خطوط از انتهای بالای جعبه کوتاهتر باشد، توزیع به سمت منفی کج میشود (Negative Skew).
outlier مشاهده هایی است که از لحاظ عددی با بقیه داده ها فاصله دارد. هنگام مطالعه ی یک نمودار جعبه ای، نقاط خارج از خط maximum و minimum نقاطی وجود دارند به عنوان outlier یا داده پرت شناخته میشود. شناسایی این نقاط در تحلیل داده بسیار مهم است زیرا میتواند نتایج تحلیل را بسمتی نادرست سوق دهد.
مثال
در نمودار زیر میزان خرید اینترنتی توسط خانمها و آقایان با هم مقایسه شده است. با نگاه به این دو نمودار میتوان میانه دو نمودار را با هم مقایسه کرد و نتایج حاصل نشان دهنده این است که میانه ی مقدار خرید خانمها و اقایان تفاوت زیادی باهم دارند و به طور کلی میتوان از این دو نمودار به این نتیجه رسید که میانگین خرید اینترنتی خانمها از اقایان بیشتر است.
در مثال دوم به بررسی میزان رضایت مشتریان(نظر مشتریان) از قیمت یک چند کالا از یک برند میپردازیم. که در 5 دسته ی Faire، Good، Very Good، Premium، Ideal تقسیم شده است. همان طور که در نقشه مشاهده میکنید مشخص است که شاخص Premium میانه بیشتری نسبت به بقیه دسته ها دارد.
جمع بندی نمودار جعبه ای Box Plot
تمامی نمودارها و از جمله نمودار جعبه ای Box Plot برای نشان دادن تصویری اطلاعات به جای داده های فهرستی میباشد. یکی از روشهای ابتدایی برای فهمیدن توزیع یا پراکندگی داده ها در کنار نمودار هیستوگرام نمودار جعبه ای میباشد. با استفاده از این نمودار، میتوانیم محدوده و توزیع میانگین داده را برای تشخیص میزان پراکندگی در چند گروه مقایسه کنیم، میزان داده های پرت را تشخیص دهیم و براحتی چندین جعبه که مربوط به ویژگیهای متفاوت است ولی شاخص اندازهگیری یکسانی دارد را با هم مقایسه کنیم.
سایر نمودارها : نمودار حبابی Bubble Chart
نویسنده: تیم پژوهش راهبرد
منابع
towardsdatascience.com
simplypsychology.org
khanacademy.org
دیدگاه (2)
سلام
یه سوال دارم
من روی دادههام این نمودار جعبهای در SPSS زدم ولی اصلا جعبهای بهم نمایش نمیده و فقط یه خط هست و تعدادی دادهای که به عنوان پرت با ستاره مشخصشون کرده
دلیلش چیه؟ باید چه کار کنم؟آیا اشتباهه این نمودار؟
سلام. جهت راهنمایی به واتس اپ پشتیبان ما پیام دهید.