نمودار جعبه ای Box Plot


نمودار جعبه ای Box Plot

مقدمه نمودار جعبه ای Box Plot :

در آمار توصیفی، نمودار جعبه ای Box Plot نوعی نمودار است که اغلب در تجزیه و تحلیل داده­ ها استفاده می­شود. نمودار جعبه ­ای ابزار گرافیکی نیرومندی است که توانایی مقایسه گروه­ها را به صورت شهودی فراهم می­کند. نمودارهای جعبه ­ای بصورت توزیع داده­ های عددی و انحراف از طریق نمایش یک چهارم داده ­ها (یا صدک­ها) و میانگین­ها ، شرایط داده­ ها را نشان می­دهد. تشخیص اینکه آیا داده ­های متقارن در کنار هم قرار گرفتن یا میزان تجمع داده در کدام مناطق است و یا تشخیص میزان چولگی به راست یا چپ از توانایی­های این نمودار است. برای تحلیل داده ­ها گاهاً باید در مورد تنوع یا پراکندگی داده ­ها اطلاعات داشته باشید. نمودار جعبه ای Box Plot یک نمودار است که چگونگی پخش مقادیر در داده­ ها را نشان می­دهد.

نمودار جعبه ای Box Plot

نمودارهای جعبه ­ای خلاصه ­ی پنج ویژگی عددی از مجموعه داده­ ها را نشان می­دهد: شامل کمترین مقدار (minimum score)، یک چهارم اول (first (lower) quartile) ، متوسط(median) ​​، یک چهارم، سوم (third (upper) quartile) و بیشترین مقدار(maximum  score).

نمودار جعبه ای Box Plot

minimum score:

کمترین امتیاز، به استثنای داده ­های پرت (در انتهای سمت چپ نشان داده شده است).

first (lower) quartile( Q1): 25

درصد از نمرات زیر مقدار یک چهارم پایین (که به عنوان ربع اول نیز شناخته می­شود) قرار می­گیرند.

median:

میانه نقطه میانی داده ها را نشان می­دهد و توسط خطی نشان داده می­شود که جعبه را به دو قسمت تقسیم می­کند (گاهی اوقات به عنوان ربع دوم شناخته می شود). نیمی از نمرات بزرگتر یا برابر با این مقدار و نصف کمتر است.

third (upper) quartile(Q3):

هفتاد و پنج درصد از مقادیر زیر مقدار ربع بالاتر قرار می­گیرند (همچنین به عنوان ربع سوم شناخته می شود). بنابراین، 25 درصد از داده ها بالاتر از این مقدار هستند.

maximum:

حداکثر مقدار داده ­ها، بالاترین امتیاز، به استثنای داده­ های پرت (که در انتهای خط سمت راست نشان داده شده است).

IQR (دامنه میان چارکی):

فاصله بین یک چهارم اول و سوم توسط این شاخص نشان داده می‌شود. طول اضلاع دیگر جعبه توسط این شاخص تعیین می‌شود.

Whikers (خطوط):

این خطوط فاصله بین یک چهارم اول تا کمترین مقدار و همچنین بیشترین مقدار را پر می‌کنند. در تصویر بالا این خطوط به رنگ مشکی نشان داده شده‌اند.

نمودارهای جعبه ­ای، داده ­ها را به بخش­هایی تقسیم می­کند که هر کدام تقریباً 25 درصد از داده­ های آن مجموعه را شامل می­شوند. که این تقسیم­بندی در تصویر زیر کاملا مشخص است.

نمودارهای جعبه­ای مفید هستند زیرا خلاصه­ ای از اطلاعات را فراهم می­کنند که محققان را قادر می­سازد تا به سرعت مقادیر متوسط​​، پراکندگی مجموعه داده ­ها و علائم انحراف را شناسایی کنند. توجه داشته باشید تصویر بالا داده هایی را نشان می دهد که یک توزیع کاملاً نرمال را دارد و بیشتر نمودارهای جعبه با این تقارن مطابقت ندارند (جایی که هر یک از چارک­ها یک طول دارد).

در صورت توزیع یا انحراف مجموعه داده های آماری، شکل نمودار جعبه نشان داده می شود. وقتی میانه وسط جعبه است و خطوط در هر دو طرف جعبه تقریباً یکسان هستند، در این صورت توزیع متقارن است(Normal Distribution). وقتی میانه به پایین جعبه نزدیکتر است، و اگر خطوط از انتهای پایین جعبه کوتاه تر است، توزیع به سمت مثبت کج می­شود (Positive Skew). وقتی میانه به بالای جعبه نزدیکتر باشد، و اگر خطوط از انتهای بالای جعبه کوتاهتر باشد، توزیع به سمت منفی کج می­شود (Negative Skew).

نمودار جعبه ای Box Plot

outlier مشاهده­ ها­یی است که از لحاظ عددی با بقیه داده ­ها فاصله دارد. هنگام مطالعه ­ی یک نمودار جعبه ­ای، نقاط خارج از خط maximum و minimum  نقاطی وجود دارند به عنوان outlier یا داده پرت شناخته می­شود. شناسایی این نقاط در تحلیل داده بسیار مهم است زیرا می­تواند نتایج تحلیل را بسمتی نادرست سوق دهد.

نمودار جعبه ای Box Plot

مثال

در نمودار زیر میزان خرید اینترنتی توسط خانم­ها و آقایان با هم مقایسه شده است. با نگاه به این دو نمودار می­توان میانه دو نمودار را با هم مقایسه کرد و نتایج حاصل نشان دهنده این است که میانه ­ی مقدار خرید خانم­ها و اقایان تفاوت زیادی باهم دارند و به طور کلی می­توان از این دو نمودار به این نتیجه رسید که میانگین خرید اینترنتی خانم­ها از اقایان بیشتر است.

نمودار جعبه ای Box Plot

در مثال دوم به بررسی میزان رضایت مشتریان(نظر مشتریان) از قیمت یک چند کالا از یک برند می­پردازیم. که در 5 دسته­ ی Faire، Good، Very Good، Premium، Ideal تقسیم شده است. همان طور که در نقشه مشاهده می­کنید مشخص است که شاخص Premium میانه بیشتری نسبت به بقیه دسته­ ها دارد.

نمودار جعبه ای Box Plot

جمع­ بندی نمودار جعبه ای Box Plot

تمامی نمودارها و از جمله نمودار جعبه ای Box Plot برای نشان دادن تصویری اطلاعات به جای داده ­های فهرستی می­باشد. یکی از روش­های ابتدایی برای فهمیدن توزیع یا پراکندگی داده ها در کنار نمودار هیستوگرام نمودار جعبه­ ای می­باشد. با استفاده از این نمودار، می‌توانیم محدوده و توزیع میانگین داده را برای تشخیص میزان پراکندگی در چند گروه مقایسه کنیم، میزان داده­ های پرت را تشخیص دهیم و براحتی چندین جعبه که مربوط به ویژگی­های متفاوت است ولی شاخص اندازه­گیری یکسانی دارد را با هم مقایسه کنیم.

سایر نمودارها : نمودار حبابی Bubble Chart

نویسنده: تیم پژوهش راهبرد

 

منابع

towardsdatascience.com

simplypsychology.org

khanacademy.org

مقاله خوبی بود؟

2 نظرات

  • سلام یه سوال دارم من روی داده‌هام این نمودار جعبه‌ای در SPSS زدم ولی اصلا جعبه‌ای بهم نمایش نمیده و فقط یه خط هست و تعدادی داده‌ای که به عنوان پرت با ستاره مشخصشون کرده دلیلش چیه؟ باید چه کار کنم؟آیا اشتباهه این نمودار؟