نمودار ویولن Violin Plot
سرفصل مطالب
مقدمه ای بر نمودار ویولن Violin Plot :
نمودار ویولن Violin Plot : نقشه ویولن برای بصری سازی توزیع دیتا و تراکم احتمالی آن استفاده میشود. این نمودار شکل توزیع دیتا را نمایش میدهد. نمودار ویولنی روشی برای رسم کردن دادههای عددی است. این نمودار، نموداری مناسب برای به تصویر کشیدن توزیع پایهای دادههاست و برای مقایسه ی دادههای آماری به صورت خلاصه (ماننده بازهها و چارکها) کاربرد دارد، که به شما امکان مشاهده ی تغییرات و اختلافات در داده را میدهد.
طرح ویولن یک روش قدرتمند تجسم داده است، زیرا به شما امکان مقایسه و رتبه بندی چندین گروه و هم توزیع آنها را میدهد. ویولنها به ویژه هنگامی سازگار میشوند که مقدار داده بسیار زیاد باشد و نمایش مشاهدات فردی غیرممکن باشد. و این امکانات در نمودار جعبه ای که شباهت زیادی به نمودار ویولن دارد وجود ندارد.
نمودار ویولن
از انجایی که سادگی بصری نمودار جعبه ای تمایل به پنهان سازی جزئیات مهم چگونگی توزیع مقادیر در دیتا را دارد، این نقشه ها در نمایش دیتا محدود هستند. برای مثال، در این نقشه ها نمیتوان دید که آیا توزیع دوحالته است یا چندحالته. درحالیکه نقشه ویولن میتواند اطلاعات بیشتری را از نمودار جعبه ای به ما بدهد. این نمودار ترکیبی از یک نمودار جعبه ای و یک نمودار چگالی است تا شکل توزیع داده ها را نشان دهد. برای درک بهتر نمودار ویولن در شکل زیر به بررسی اجزای اصلی نمودار ویولن Violin Plot میپردازیم.
اجزای اصلی نمودار ویولن Violin Plot
Median: دایره سفید رنگ کوچک وسط جعبه ی رسم شده داخل نمودار، نشاندهنده ی میانه است. که در بعضی از نمودارها با یک خط نشان داده میشود.
Interquartile range: مستطیل مشکی در مرکز شکل، نشاندهنده ی بازه ی میان چارکی است.
Upper adjacent: خط سیاه نازک وسط نشان دهنده مقادیر مجاور بالا (حداکثر) در داده ها است.
Lower adjacent: خط سیاه نازک وسط نشان دهنده مقادیر مجاور پایین (حداقل) در داده ها است.
کاربرد نمودار ویولن Violin Plot
کاربرد نمودار ویولن Violin Plot – طرح ویولن امکان تجسم توزیع یک متغیر عددی برای یک یا چند گروه را فراهم میکند و همچنین تجسم توزیع داده ها و چگالی احتمال آن استفاده میشود. هر “ویولن” نماینده یک گروه یا یک متغیر است.
شکل ویولن چگالی متغیر را نشان میدهد: هرچه نقاط داده در یک محدوده خاص بیشتر باشد، ویولن برای آن دامنه بزرگتر است به عبارتی دیگر در هر قسمت از نمودار که عرض ویولن بیشتر شده نمودار نشاندهنده ی این است که نمونهها در داده ی مورد نظر با احتمال بیشتری این مقدار را میتوانند بگیرند و هر چه برای یک مقدار این عرض کوچکتر باشد احتمال آن کمتر است.
در نمودار ویولن Violin Plot، چنانچه تعداد نمونهها بسیار زیاد نباشد، بخش درونی میتواند تمام نقاط نمونهها را (با یک راس یا خط برای هر نمونه) نشان دهد.
گاهی میانگین و میانه برای درک و شناخت یک مجموعه داده به تنهایی کافی نیستند. لازم است اطلاعاتی در مورد اینکه که بیشتر مقادیر نمونهها حول میانه دستهبندی شدهاند یا اینکه بیشتر مقادیر اطراف بیشینه و کمینه قرار دارند بدست آوریم که بتوانیم تصمیمات بهتری اتخاذ کنیم. اطلاعات بدست امده از نمودار ویولنی نشان دهنده ی اوجها و توزیعها در دادهاست. برای حالتی که نمونهها دارای چند نقطه ی اوج باشند، نمودار ویولنی به صورت واضح وجود چند نقطهی اوج، مختصات آنها و نوسان نسبیشان را نشان میدهد که در نمودار جعبهای این امکان را نداریم.
کاربرد نمودار ویولن در علوم پزشکی؟
نمودار ویولن یکی از ابزارهای قدرتمند در تحلیل دادههای پزشکی است. این نمودار ترکیبی از نمودار جعبهای (Box Plot) و تخمین چگالی (Density Plot) است که بهطور همزمان نمایی از توزیع دادهها و مقادیر میانه، چارکها و گستره را فراهم میکند. این ویژگیها به پزشکان و پژوهشگران کمک میکند تا بهطور دقیقتر و جامعتری دادههای پزشکی را تحلیل کنند.
در کاربردهای پزشکی، نمودار ویولن میتواند برای نمایش توزیع نتایج آزمایشات بالینی، مقایسه توزیع دادههای گروههای مختلف بیماران یا تاثیر داروهای مختلف بر نتایج آزمایشات استفاده شود. بهعنوان مثال، در مطالعات مربوط به بیماریهای مزمن مانند دیابت یا فشار خون بالا، نمودار ویولن میتواند به وضوح نشان دهد که چگونه توزیع نتایج در گروههای مختلف بیماران متفاوت است
این نمودار همچنین میتواند به تشخیص تفاوتهای آماری بین گروهها کمک کند و پژوهشگران را قادر سازد تا الگوهای پنهان در دادهها را به راحتی مشاهده کنند. این ویژگیها موجب میشوند که نمودار ویولن ابزار مفیدی برای تحقیقات پزشکی، تحلیل دادههای بالینی و بهبود تصمیمگیری در مراقبتهای بهداشتی باشد.
در مجموع، نمودار ویولن با ارائه تصویری دقیقتر از توزیع دادهها و مقادیر مهم آماری، ابزاری ارزشمند در تجزیه و تحلیل دادههای پزشکی است که بهویژه در پژوهشهای بالینی و مطالعات جمعیتی کاربرد دارد.
مثال برای نمودار ویولن Violin Plot
مثال برای نمودار ویولن Violin Plot : در ادامه مطلب نمودار ویولن به بررسی یک مثال برای درک بهتر این نمودار میپردازیم. نمودار زیر نشان دهنده خریدهای اینترنتی تعدادی از مشتریان یک فروشگاه اینترنتی میباشد که تعدادی اقا و تعداد خانم مورد مطالعه قرار گرفتند. این نمودار ویولن Violin Plot نشان دهنده تعدادخریدهای اینترنتی خانمها و اقایان است.
بر اساس نمودار زیر 2 خرید در ماه توسط خانم با احتمال بیشتر انجام میشود و میانه خرید به سمت 2 خرید در ماه نزدیکتر است و احتمال 3 خرید برای اقایان در ماه بیشترین امکان را دارد در نمودار متعلق به اقایان داده های پرت بیشتری وجود دارد کشیدگی خط عمودی وسط نشان این داده های پرت و دور از قسمت عریض نمودار است.
در مثال دوم به بررسی هزینه خرید نوشیدنی در چهار روز هفته در یک فروشگاه زنجیره ای میپردازیم. در این پژوهش تعدادی از اقایان و تعدادی از خانم ها مورد مطالعه قرار گرفتند. همان طور که از نمودار مشخص میشود داده های مربوط به خانمها با رنگ ابی و داده های مربوط به اقایان با رنگ نارنجی نشان داده میشود. نتایج حاصل از بررسی این نمودار نشان دهنده ی این است که بیشترین میزان در هر روز برای خانمها و اقایان متعلق به قسمت عریضتر نمودار است.در روز پنج شنبه و جمعه میانه حدود 15 است و در روزهای بعد افزایش مییابد. در روز شنبه داده های پرت بیشتری موجود میباشد.
تحلیل دادههای بزرگ با استفاده از نمودار ویولن؟
نمودار ویولن ابزاری قدرتمند برای تحلیل دادههای بزرگ است که به نمایش توزیع دادهها در یک قالب بصری و قابل درک کمک میکند. این نمودار، با ترکیب ویژگیهای نمودار جعبهای و تخمین چگالی، اجازه میدهد تا پراکندگی دادهها و تراکم آنها بهطور همزمان مشاهده شود. این ویژگی بسیار مهم است زیرا به تحلیلگران امکان میدهد تا الگوهای پنهان و ناهمگنیهای دادهها را شناسایی کنند.
برای دادههای بزرگ، نمودار ویولن این مزیت را دارد که میتواند جزئیات بیشتری را نسبت به نمودارهای دیگر نمایش دهد. از جمله این جزئیات میتوان به نقاط پرت، تراکم در نواحی خاص و توزیع کلی دادهها اشاره کرد. همچنین، این نمودار امکان مقایسه بین چندین مجموعه داده را در یک گرافیک فراهم میکند که این امر به تحلیلگران اجازه میدهد تا تفاوتهای بین گروههای مختلف دادهها را بهراحتی مشاهده کنند.
بهعنوان مثال، در علوم زیستی و پزشکی، نمودار ویولن میتواند برای مقایسه توزیع نتایج آزمایشهای بالینی در گروههای مختلف بیماران استفاده شود. در تحلیل دادههای بزرگ، استفاده از نمودار ویولن میتواند باعث شود که تحلیلگران به بینشهای ارزشمندی دست یابند که با استفاده از نمودارهای دیگر ممکن است نادیده گرفته شوند.
بهطور کلی، نمودار ویولن با قابلیت نمایش جامع و دقیق توزیع دادهها، ابزاری موثر در تحلیل دادههای بزرگ است که به بهبود فهم و تحلیل دادهها کمک میکند.
جمعبندی نمودار ویولن Violin Plot
همانطور که در مطالب بالا اشاره شد نمودار ویولن Violin Plot برای تجسم توزیع داده ها، نمایش دامنه، متوسط و توزیع داده ها استفاده میشود. نمودارهای ویولن همان آمار خلاصه نمودارهای جعبه را نشان میدهد، اما همچنین شامل برآورد تراکم دادهها در هسته است.
طرح ویولن اجازه میدهد تا توزیع یک متغیر عددی را برای یک یا چند گروه تجسم کرد و سپس آنها را مقایسه کرد. به ویژه به دلیل عملکرد ویولن برای ساختن آن سازگار است. قطعات ویولن در مقایسه با نمودارهای جعبهایی که گاهی اوقات میتوانند ویژگیهای داده ها را پنهان کنند، شایسته توجه بیشتری هستند.
سوالات متداول FAQ
1.چگونه یک نمودار ویولن خوب رسم کنیم؟
رسم یک نمودار ویولن خوب مانند طراحی یک استراتژی نظامی موفق است؛ باید دادهها را بهخوبی بشناسید، ابزار مناسب را انتخاب کنید و با دقت و ظرافت، نتیجهای شفاف و دقیق ارائه دهید. نمودار ویولن ابزاری برای نمایش توزیع دادههاست که چگالی، محدوده آماری، و نقاط پرت را در یک قالب بصری ترکیب میکند. برای رسم یک نمودار ویولن مؤثر، مراحل زیر را دنبال کنید:
1. شناخت دادهها
قبل از هر چیز، دادههای خود را بررسی کنید. نمودار ویولن مناسب دادههای کمی و پیوسته است و اغلب برای مقایسه توزیع دادهها در گروههای مختلف استفاده میشود. برای مثال، اگر بخواهید عملکرد تیمهای مختلف را بر اساس زمان پاسخگویی مقایسه کنید، این نمودار میتواند انتخابی عالی باشد.
2. انتخاب نرمافزار مناسب
نرمافزارهایی مانند Python (با استفاده از کتابخانههایی مانند Matplotlib یا Seaborn)، R (با ggplot2)، و Tableau گزینههای بسیار خوبی برای رسم نمودار ویولن هستند. هر یک از این ابزارها امکانات سفارشیسازی و طراحی پیشرفتهای ارائه میدهند که میتواند نمودار شما را دقیقتر و جذابتر کند.
3. آمادهسازی دادهها
دادهها باید بهخوبی تمیز و سازماندهی شوند. اطمینان حاصل کنید که گروهبندی دادهها مشخص است و نقاط پرت (outliers) بررسی و مدیریت شدهاند. اگر دادهها ناقص یا پر از خطا باشند، نمودار نهایی نمیتواند بهدرستی پیام شما را منتقل کند.
4. تنظیم پارامترها و طراحی بصری
نمایش چگالی: بخشهای پهنتر نمودار نشاندهنده چگالی بالاتر دادهها هستند. اطمینان حاصل کنید که این چگالی بهوضوح و در تطابق با دادههای واقعی نمایش داده شود.
اضافه کردن عناصر جعبهای: بسیاری از نمودارهای ویولن دارای خط میانه، چارکها، و نقاط پرت هستند. این عناصر آماری باعث میشوند نمودار شما اطلاعات دقیقتری ارائه دهد.
سفارشیسازی رنگ و شفافیت: برای خوانایی بهتر، از رنگهایی استفاده کنید که دستهها را متمایز کنند و نمودار شما را بصریتر سازند.
5. ارائه و تحلیل
در نهایت، نمودار ویولن خود را به شکلی واضح و منظم ارائه دهید. به پیام اصلی نمودار تأکید کنید: آیا تفاوت در توزیع گروهها مشهود است؟ آیا نقاط پرت یا الگوهای خاصی وجود دارد؟ تحلیل همراه با نمودار باید شفاف و مختصر باشد تا مخاطب بهسرعت اطلاعات را درک کند.
2.تفاوت بین نمودار ویولن و نمودار چگالی چیست؟
نمودارهای ویولن و چگالی هر دو ابزارهای قدرتمندی برای نمایش توزیع دادهها هستند، اما هر کدام کاربرد و ویژگیهای خاص خود را دارند که بسته به نوع تحلیل و هدف مورد نظر میتوانند متفاوت باشند. در اینجا بهطور دقیقتر به تفاوتهای این دو نمودار خواهیم پرداخت و کاربرد هر کدام را در موقعیتهای مختلف بررسی خواهیم کرد.
1. ساختار و ترکیب نمودارها
- نمودار چگالی: این نمودار تنها یک منحنی را نمایش میدهد که چگالی دادهها را در طول دامنه مقادیر نشان میدهد. در واقع، نمودار چگالی بیانگر توزیع پیوسته دادهها است و این امکان را میدهد که ببینیم دادهها در کدام قسمت از دامنه بیشتر متمرکز شدهاند. به عبارت دیگر، نمودار چگالی تمرکز بیشتری بر روی توزیع دادهها بهصورت پیوسته دارد.
- نمودار ویولن: این نمودار ترکیبی از نمودار چگالی و نمودار جعبهای است. بهطور خاص، نمودار ویولن اطلاعاتی مشابه نمودار چگالی را به نمایش میگذارد، اما در عین حال ویژگیهای نمودار جعبهای (مانند میانه، چارکها و نقاط پرت) را هم در خود جای داده است. نمودار ویولن بهطور همزمان توزیع دادهها و ویژگیهای آماری را نشان میدهد.
2. مقایسه توزیع دادهها
- نمودار چگالی: نمودار چگالی به شما این امکان را میدهد که توزیع دادهها را در یک نگاه بررسی کنید و ببینید که کدام بخش از دامنه دادهها بیشتر تجمع دارد. این نمودار بهویژه برای بررسی دادههایی که پیوسته و بدون وقفه هستند، مفید است. اگر بخواهید دید کلی از نحوه توزیع دادهها بدست آورید، نمودار چگالی گزینه مناسبی است.
- نمودار ویولن: برخلاف نمودار چگالی که تنها یک منحنی را نمایش میدهد، نمودار ویولن معمولاً برای مقایسه توزیع دادهها در چندین گروه استفاده میشود. هر گروه معمولاً بهصورت یک نمودار ویولن جداگانه نمایش داده میشود که علاوه بر چگالی، ویژگیهای دیگری مانند میانه و چارکها را نیز به نمایش میگذارد. این ویژگی، نمودار ویولن را برای مقایسه چندین دسته از دادهها بسیار مفید میکند.
3. اطلاعات اضافی و مقایسه گروهها
- نمودار چگالی: این نمودار صرفاً برای نشان دادن چگالی دادهها است و بهطور معمول در تحلیلهای تکبعدی کاربرد دارد. بهعنوان مثال، اگر شما فقط بخواهید توزیع یک متغیر خاص را بررسی کنید، نمودار چگالی بهترین گزینه است.
- نمودار ویولن: علاوه بر نمایش چگالی، نمودار ویولن با افزودن جعبهای برای نمایش میانه، چارکها و نقاط پرت، به شما امکان میدهد که اطلاعات آماری بیشتری را نسبت به نمودار چگالی بدست آورید. این ویژگی بهویژه هنگام مقایسه چندین گروه یا دسته دادهها مفید است، زیرا میتوانید بهطور دقیقتر تحلیل کنید که هر گروه از دادهها چه ویژگیهای آماری دارد.
4. انتخاب ابزار مناسب
- اگر هدف شما فقط تجزیهوتحلیل توزیع یک متغیر است و به اطلاعات اضافی نیاز ندارید، نمودار چگالی میتواند برای شما کافی باشد.
- اما اگر بخواهید چندین گروه مختلف را مقایسه کنید و اطلاعاتی جامعتری از هر گروه از دادهها بدست آورید، نمودار ویولن انتخاب بهتری خواهد بود. این نمودار به شما این امکان را میدهد که علاوه بر تحلیل چگالی، ویژگیهای آماری دیگر هر گروه را نیز مشاهده کنید.
3. چگونه نمودار ویولن را تفسیر کنیم؟
تفسیر یک نمودار ویولن، همچون تجزیه و تحلیل یک میدان نبرد پیچیده، نیازمند دقت، توجه به جزئیات و درک صحیح از اطلاعات است. نمودار ویولن با ترکیب ویژگیهای نمودار جعبهای و چگالی، به شما امکان میدهد تا توزیع دادهها، میزان تمرکز آنها و وجود انحرافات یا نقاط پرت را بهطور واضح مشاهده کنید. در اینجا به بررسی روشهایی میپردازیم که به شما کمک میکند نمودار ویولن را بهدرستی تفسیر کنید.
1. درک ساختار نمودار ویولن
نمودار ویولن به شکل یک جعبه با دو طرف تقارن است که نمایانگر توزیع دادههاست. این نمودار از چندین بخش تشکیل میشود:
- خط میانه (Median): خط افقی در وسط نمودار نشاندهنده میانه دادهها است. این خط مشخص میکند که نیمی از دادهها بالاتر و نیمی دیگر پایینتر از آن قرار دارند.
- چگالی دادهها: عرض نمودار در هر بخش نشاندهنده چگالی دادهها است. قسمتهایی که عرض بیشتری دارند نشاندهنده تراکم بیشتر دادهها هستند.
- ربعها و چارکها: شبیه به نمودار جعبهای، نمودار ویولن میتواند شامل چارکها باشد که اطلاعاتی در مورد توزیع دادهها ارائه میدهد.
- نقاط پرت (Outliers): برخی نمودارهای ویولن نقاط پرت را بهوضوح نشان میدهند. این نقاط معمولاً در دو طرف نمودار و خارج از بخشهای اصلی قرار دارند.
نیازمند درج تصویر
2. تحلیل چگالی دادهها
چگالی یا “عرض نمودار” در قسمتهای مختلف، بیانگر توزیع دادهها در آن بخشها است. هرچه عرض نمودار بیشتر باشد، تعداد دادههای موجود در آن بخش بیشتر است. بنابراین، مناطقی که عرض بیشتری دارند، نشاندهنده تراکم بالای دادهها هستند و مناطقی که باریکتر هستند، به معنای پراکندگی دادهها در آن بخش است. این بخش از نمودار به شما کمک میکند تا بفهمید دادهها بیشتر در کدام بازه متمرکز هستند.
3. بررسی تفاوتها و شباهتها در گروههای مختلف
اگر چند گروه مختلف در نمودار ویولن مقایسه شوند، میتوانید تفاوتهای توزیع دادهها را مشاهده کنید. برای مثال، اگر دو گروه دارای میانههای متفاوت یا چگالیهای متفاوت باشند، این نشاندهنده تفاوتهای اساسی در دادههای آنها است. بررسی عرض و شکل هر گروه به شما کمک میکند تا بفهمید کدام گروهها دارای توزیع یکنواختتر یا پراکندگی بیشتری هستند.
4. توجه به نقاط پرت و ناهنجاریها
نقاط پرت، که بهطور معمول در انتهای نمودار قرار دارند، میتوانند نشاندهنده دادههایی باشند که از الگوی عمومی منحرف شدهاند. وجود این نقاط ممکن است به دلایلی مانند خطای اندازهگیری یا موارد خاص و نادر در دادهها اشاره داشته باشد. این نقاط باید بهدقت بررسی شوند تا تأثیر آنها بر نتایج تحلیل درک شود.
5. اهمیت تقارن نمودار
یک نمودار ویولن متقارن به شما نشان میدهد که دادهها بهطور مساوی در دو طرف میانه توزیع شدهاند. در حالی که نمودارهای نامتقارن میتوانند نشاندهنده وجود انحراف به سمت یک طرف خاص باشند. این تقارن یا عدم تقارن میتواند نکات مهمی را درباره ویژگیهای دادهها و رفتار آنها نمایان کند.
مقالات مرتبط:
نمودار عنکبوتی Spider Chart
نمودار قیفی Funnel Chart
نمودار پراکندگی Scatter Plot
نویسنده: تیم پژوهش راهبرد
منابع
towardsdatascience.com
datavizcatalogue.com
data-to-viz.com
دیدگاهتان را بنویسید