نمودار ویولن Violin Plot


نمودار ویولن Violin Plot

سرفصل مطالب

مقدمه ای بر نمودار ویولن Violin Plot :

نمودار ویولن Violin Plot : نقشه ویولن برای بصری­ سازی توزیع دیتا و تراکم احتمالی آن استفاده می­شود. این نمودار شکل توزیع دیتا را نمایش می­دهد. نمودار ویولنی روشی برای رسم کردن داده‌های عددی است. این نمودار، نموداری مناسب برای به تصویر کشیدن توزیع پایه‌ای داده‌هاست و برای مقایسه ­ی داده‌های آماری به صورت خلاصه (ماننده بازه‌ها و چارک­ها) کاربرد دارد، که به شما امکان مشاهده­ ی تغییرات و اختلافات در داده را می‌دهد.

طرح ویولن یک روش قدرتمند تجسم داده است، زیرا به شما امکان مقایسه و رتبه­ بندی چندین گروه و هم توزیع آن­ها را می­دهد. ویولن­ها به ویژه هنگامی سازگار می­شوند که مقدار داده بسیار زیاد باشد و نمایش مشاهدات فردی غیرممکن باشد. و این امکانات در نمودار جعبه­ ای که شباهت زیادی به نمودار ویولن دارد وجود ندارد.

نمودار ویولن Violin Plot

نمودار ویولن

از انجایی که سادگی بصری نمودار جعبه ­ای تمایل به پنهان­ سازی جزئیات مهم چگونگی توزیع مقادیر در دیتا را دارد، این نقشه ­ها در نمایش دیتا محدود هستند. برای مثال، در این نقشه ­ها نمی­توان دید که آیا توزیع دوحالته است یا چندحالته. درحالیکه نقشه ویولن می­تواند اطلاعات بیشتری را از نمودار جعبه­ ای به ما بدهد. این نمودار ترکیبی از یک نمودار جعبه­ ای و یک نمودار چگالی است تا شکل توزیع داده ­ها را نشان دهد. برای درک بهتر نمودار ویولن در شکل زیر به بررسی اجزای اصلی نمودار ویولن Violin Plot می­پردازیم.

نمودار ویولن Violin Plot

اجزای اصلی نمودار ویولن Violin Plot

Median: دایره سفید رنگ کوچک وسط جعبه ­ی رسم شده داخل نمودار، نشان‌دهنده ­ی میانه است. که در بعضی از نمودارها با یک خط نشان داده می­شود.

Interquartile range: مستطیل مشکی در مرکز شکل، نشان‌دهنده ­ی بازه­ ی میان چارکی است.

Upper adjacent: خط سیاه نازک وسط نشان دهنده مقادیر مجاور بالا (حداکثر) در داده ­ها است.

 Lower adjacent: خط سیاه نازک وسط نشان دهنده مقادیر مجاور پایین (حداقل) در داده­ ها است.

کاربرد نمودار ویولن Violin Plot

کاربرد نمودار ویولن Violin Plot – طرح ویولن امکان تجسم توزیع یک متغیر عددی برای یک یا چند گروه را فراهم می­کند و همچنین تجسم توزیع داده­ ها و چگالی احتمال آن استفاده می­شود. هر “ویولن” نماینده یک گروه یا یک متغیر است.

شکل ویولن چگالی متغیر را نشان می­دهد: هرچه نقاط داده در یک محدوده خاص بیشتر باشد، ویولن برای آن دامنه بزرگتر است به عبارتی دیگر در هر قسمت از نمودار که عرض ویولن بیشتر شده  نمودار نشان‌دهنده­ ی این است که نمونه‌ها در داده­ ی مورد نظر با احتمال بیشتری این مقدار را می‌توانند بگیرند و هر چه برای یک مقدار این عرض کوچکتر باشد احتمال آن کمتر است.

در نمودار ویولن Violin Plot، چنانچه تعداد نمونه‌ها بسیار زیاد نباشد، بخش درونی می‌تواند تمام نقاط نمونه‌ها را (با یک راس یا خط برای هر نمونه) نشان دهد.

نمودار ویولن Violin Plot

گاهی میانگین و میانه برای درک و شناخت یک مجموعه داده به تنهایی کافی نیستند. لازم است اطلاعاتی در مورد اینکه که بیشتر مقادیر نمونه‌ها حول میانه دسته‌بندی شده‌اند یا اینکه بیشتر مقادیر اطراف بیشینه و کمینه قرار دارند بدست آوریم که بتوانیم تصمیمات بهتری اتخاذ کنیم. اطلاعات بدست امده از نمودار ویولنی نشان دهنده­ ی اوج‌ها و توزیع‌ها در دادهاست. برای حالتی که نمونه‌ها دارای چند نقطه ­ی اوج باشند، نمودار ویولنی به صورت واضح وجود چند نقطه­ی اوج، مختصات آن‌ها و نوسان نسبیشان را نشان می‌دهد که در نمودار جعبه­ای این امکان را نداریم.

کاربرد نمودار ویولن در علوم پزشکی؟

نمودار ویولن یکی از ابزارهای قدرتمند در تحلیل داده‌های پزشکی است. این نمودار ترکیبی از نمودار جعبه‌ای (Box Plot) و تخمین چگالی (Density Plot) است که به‌طور همزمان نمایی از توزیع داده‌ها و مقادیر میانه، چارک‌ها و گستره را فراهم می‌کند. این ویژگی‌ها به پزشکان و پژوهشگران کمک می‌کند تا به‌طور دقیق‌تر و جامع‌تری داده‌های پزشکی را تحلیل کنند.

در کاربردهای پزشکی، نمودار ویولن می‌تواند برای نمایش توزیع نتایج آزمایشات بالینی، مقایسه توزیع داده‌های گروه‌های مختلف بیماران یا تاثیر داروهای مختلف بر نتایج آزمایشات استفاده شود. به‌عنوان مثال، در مطالعات مربوط به بیماری‌های مزمن مانند دیابت یا فشار خون بالا، نمودار ویولن می‌تواند به وضوح نشان دهد که چگونه توزیع نتایج در گروه‌های مختلف بیماران متفاوت است

این نمودار همچنین می‌تواند به تشخیص تفاوت‌های آماری بین گروه‌ها کمک کند و پژوهشگران را قادر سازد تا الگوهای پنهان در داده‌ها را به راحتی مشاهده کنند. این ویژگی‌ها موجب می‌شوند که نمودار ویولن ابزار مفیدی برای تحقیقات پزشکی، تحلیل داده‌های بالینی و بهبود تصمیم‌گیری در مراقبت‌های بهداشتی باشد.

در مجموع، نمودار ویولن با ارائه تصویری دقیق‌تر از توزیع داده‌ها و مقادیر مهم آماری، ابزاری ارزشمند در تجزیه و تحلیل داده‌های پزشکی است که به‌ویژه در پژوهش‌های بالینی و مطالعات جمعیتی کاربرد دارد.

مثال برای نمودار ویولن Violin Plot

مثال برای نمودار ویولن Violin Plot : در ادامه مطلب نمودار ویولن به بررسی یک مثال برای درک بهتر این نمودار می­پردازیم. نمودار زیر نشان دهنده خریدهای اینترنتی تعدادی از مشتریان یک فروشگاه اینترنتی می­باشد که تعدادی اقا و تعداد خانم مورد مطالعه قرار گرفتند. این نمودار ویولن Violin Plot نشان دهنده تعدادخریدهای اینترنتی خانم­ها و اقایان است.

بر اساس نمودار زیر  2 خرید در ماه توسط خانم­ با احتمال بیشتر انجام می­شود و میانه خرید به سمت 2 خرید در ماه نزدیک­تر است و احتمال 3 خرید برای اقایان در ماه بیشترین امکان را دارد ­در نمودار متعلق به اقایان داده­ های پرت بیشتری وجود دارد کشیدگی خط عمودی وسط نشان این داده­ های پرت و دور از قسمت عریض نمودار است.

 

نمودار ویولن Violin Plot 

 در مثال دوم به بررسی هزینه خرید نوشیدنی در چهار روز هفته در یک فروشگاه زنجیره ­ای می­پردازیم. در این پژوهش تعدادی از اقایان و تعدادی از خانم­ ها مورد مطالعه قرار گرفتند. همان طور که از نمودار مشخص می­شود داده­ های مربوط به خانم­ها با رنگ ابی و داده ­های مربوط به اقایان با رنگ نارنجی نشان داده­ می­شود. نتایج حاصل از بررسی این نمودار نشان دهنده ­ی این است که بیشترین میزان در هر روز برای خانم­ها و اقایان متعلق به قسمت عریض­تر نمودار است.در روز پنج شنبه و جمعه میانه حدود 15 است و در روزهای بعد افزایش می­یابد. در روز شنبه داده­ های پرت بیشتری موجود می­باشد.

 

نمودار ویولن Violin Plot 

تحلیل داده‌های بزرگ با استفاده از نمودار ویولن؟

نمودار ویولن ابزاری قدرتمند برای تحلیل داده‌های بزرگ است که به نمایش توزیع داده‌ها در یک قالب بصری و قابل درک کمک می‌کند. این نمودار، با ترکیب ویژگی‌های نمودار جعبه‌ای و تخمین چگالی، اجازه می‌دهد تا پراکندگی داده‌ها و تراکم آنها به‌طور همزمان مشاهده شود. این ویژگی بسیار مهم است زیرا به تحلیل‌گران امکان می‌دهد تا الگوهای پنهان و ناهمگنی‌های داده‌ها را شناسایی کنند.

برای داده‌های بزرگ، نمودار ویولن این مزیت را دارد که می‌تواند جزئیات بیشتری را نسبت به نمودارهای دیگر نمایش دهد. از جمله این جزئیات می‌توان به نقاط پرت، تراکم در نواحی خاص و توزیع کلی داده‌ها اشاره کرد. همچنین، این نمودار امکان مقایسه بین چندین مجموعه داده را در یک گرافیک فراهم می‌کند که این امر به تحلیل‌گران اجازه می‌دهد تا تفاوت‌های بین گروه‌های مختلف داده‌ها را به‌راحتی مشاهده کنند.

به‌عنوان مثال، در علوم زیستی و پزشکی، نمودار ویولن می‌تواند برای مقایسه توزیع نتایج آزمایش‌های بالینی در گروه‌های مختلف بیماران استفاده شود. در تحلیل داده‌های بزرگ، استفاده از نمودار ویولن می‌تواند باعث شود که تحلیل‌گران به بینش‌های ارزشمندی دست یابند که با استفاده از نمودارهای دیگر ممکن است نادیده گرفته شوند.

به‌طور کلی، نمودار ویولن با قابلیت نمایش جامع و دقیق توزیع داده‌ها، ابزاری موثر در تحلیل داده‌های بزرگ است که به بهبود فهم و تحلیل داده‌ها کمک می‌کند.

جمع­بندی نمودار ویولن Violin Plot

همان­طور که در مطالب بالا اشاره شد نمودار ویولن Violin Plot برای تجسم توزیع داده­ ها، نمایش دامنه، متوسط ​​و توزیع داده ­ها استفاده می­شود. نمودارهای ویولن همان آمار خلاصه نمودارهای جعبه را نشان می­دهد، اما همچنین شامل برآورد تراکم داده­ها در هسته است.

طرح ویولن اجازه می­دهد تا توزیع یک متغیر عددی را برای یک یا چند گروه تجسم کرد و سپس آ­ن­ها را مقایسه کرد. به ویژه به دلیل عملکرد ویولن برای ساختن آن سازگار است. قطعات ویولن در مقایسه با نمودارهای جعبه­ایی که گاهی اوقات می­توانند ویژگی­های داده ها را پنهان کنند، شایسته توجه بیشتری هستند.

سوالات متداول FAQ

1.چگونه یک نمودار ویولن خوب رسم کنیم؟

رسم یک نمودار ویولن خوب مانند طراحی یک استراتژی نظامی موفق است؛ باید داده‌ها را به‌خوبی بشناسید، ابزار مناسب را انتخاب کنید و با دقت و ظرافت، نتیجه‌ای شفاف و دقیق ارائه دهید. نمودار ویولن ابزاری برای نمایش توزیع داده‌هاست که چگالی، محدوده آماری، و نقاط پرت را در یک قالب بصری ترکیب می‌کند. برای رسم یک نمودار ویولن مؤثر، مراحل زیر را دنبال کنید:

1. شناخت داده‌ها  

قبل از هر چیز، داده‌های خود را بررسی کنید. نمودار ویولن مناسب داده‌های کمی و پیوسته است و اغلب برای مقایسه توزیع داده‌ها در گروه‌های مختلف استفاده می‌شود. برای مثال، اگر بخواهید عملکرد تیم‌های مختلف را بر اساس زمان پاسخگویی مقایسه کنید، این نمودار می‌تواند انتخابی عالی باشد.

2. انتخاب نرم‌افزار مناسب

نرم‌افزارهایی مانند Python (با استفاده از کتابخانه‌هایی مانند Matplotlib یا Seaborn)، R (با ggplot2)، و Tableau گزینه‌های بسیار خوبی برای رسم نمودار ویولن هستند. هر یک از این ابزارها امکانات سفارشی‌سازی و طراحی پیشرفته‌ای ارائه می‌دهند که می‌تواند نمودار شما را دقیق‌تر و جذاب‌تر کند.

3. آماده‌سازی داده‌ها

داده‌ها باید به‌خوبی تمیز و سازمان‌دهی شوند. اطمینان حاصل کنید که گروه‌بندی داده‌ها مشخص است و نقاط پرت (outliers) بررسی و مدیریت شده‌اند. اگر داده‌ها ناقص یا پر از خطا باشند، نمودار نهایی نمی‌تواند به‌درستی پیام شما را منتقل کند.

4. تنظیم پارامترها و طراحی بصری

نمایش چگالی: بخش‌های پهن‌تر نمودار نشان‌دهنده چگالی بالاتر داده‌ها هستند. اطمینان حاصل کنید که این چگالی به‌وضوح و در تطابق با داده‌های واقعی نمایش داده شود.

اضافه کردن عناصر جعبه‌ای: بسیاری از نمودارهای ویولن دارای خط میانه، چارک‌ها، و نقاط پرت هستند. این عناصر آماری باعث می‌شوند نمودار شما اطلاعات دقیق‌تری ارائه دهد.

سفارشی‌سازی رنگ و شفافیت: برای خوانایی بهتر، از رنگ‌هایی استفاده کنید که دسته‌ها را متمایز کنند و نمودار شما را بصری‌تر سازند.

5. ارائه و تحلیل

در نهایت، نمودار ویولن خود را به شکلی واضح و منظم ارائه دهید. به پیام اصلی نمودار تأکید کنید: آیا تفاوت در توزیع گروه‌ها مشهود است؟ آیا نقاط پرت یا الگوهای خاصی وجود دارد؟ تحلیل همراه با نمودار باید شفاف و مختصر باشد تا مخاطب به‌سرعت اطلاعات را درک کند.

2.تفاوت‌ بین نمودار ویولن و نمودار چگالی چیست؟

نمودارهای ویولن و چگالی هر دو ابزارهای قدرتمندی برای نمایش توزیع داده‌ها هستند، اما هر کدام کاربرد و ویژگی‌های خاص خود را دارند که بسته به نوع تحلیل و هدف مورد نظر می‌توانند متفاوت باشند. در اینجا به‌طور دقیق‌تر به تفاوت‌های این دو نمودار خواهیم پرداخت و کاربرد هر کدام را در موقعیت‌های مختلف بررسی خواهیم کرد.

1. ساختار و ترکیب نمودارها

  • نمودار چگالی: این نمودار تنها یک منحنی را نمایش می‌دهد که چگالی داده‌ها را در طول دامنه مقادیر نشان می‌دهد. در واقع، نمودار چگالی بیانگر توزیع پیوسته داده‌ها است و این امکان را می‌دهد که ببینیم داده‌ها در کدام قسمت از دامنه بیشتر متمرکز شده‌اند. به عبارت دیگر، نمودار چگالی تمرکز بیشتری بر روی توزیع داده‌ها به‌صورت پیوسته دارد.
  • نمودار ویولن: این نمودار ترکیبی از نمودار چگالی و نمودار جعبه‌ای است. به‌طور خاص، نمودار ویولن اطلاعاتی مشابه نمودار چگالی را به نمایش می‌گذارد، اما در عین حال ویژگی‌های نمودار جعبه‌ای (مانند میانه، چارک‌ها و نقاط پرت) را هم در خود جای داده است. نمودار ویولن به‌طور همزمان توزیع داده‌ها و ویژگی‌های آماری را نشان می‌دهد.

2. مقایسه توزیع داده‌ها

  • نمودار چگالی: نمودار چگالی به شما این امکان را می‌دهد که توزیع داده‌ها را در یک نگاه بررسی کنید و ببینید که کدام بخش از دامنه داده‌ها بیشتر تجمع دارد. این نمودار به‌ویژه برای بررسی داده‌هایی که پیوسته و بدون وقفه هستند، مفید است. اگر بخواهید دید کلی از نحوه توزیع داده‌ها بدست آورید، نمودار چگالی گزینه مناسبی است.
  • نمودار ویولن: برخلاف نمودار چگالی که تنها یک منحنی را نمایش می‌دهد، نمودار ویولن معمولاً برای مقایسه توزیع داده‌ها در چندین گروه استفاده می‌شود. هر گروه معمولاً به‌صورت یک نمودار ویولن جداگانه نمایش داده می‌شود که علاوه بر چگالی، ویژگی‌های دیگری مانند میانه و چارک‌ها را نیز به نمایش می‌گذارد. این ویژگی، نمودار ویولن را برای مقایسه چندین دسته از داده‌ها بسیار مفید می‌کند.

3. اطلاعات اضافی و مقایسه گروه‌ها

  • نمودار چگالی: این نمودار صرفاً برای نشان دادن چگالی داده‌ها است و به‌طور معمول در تحلیل‌های تک‌بعدی کاربرد دارد. به‌عنوان مثال، اگر شما فقط بخواهید توزیع یک متغیر خاص را بررسی کنید، نمودار چگالی بهترین گزینه است.
  • نمودار ویولن: علاوه بر نمایش چگالی، نمودار ویولن با افزودن جعبه‌ای برای نمایش میانه، چارک‌ها و نقاط پرت، به شما امکان می‌دهد که اطلاعات آماری بیشتری را نسبت به نمودار چگالی بدست آورید. این ویژگی به‌ویژه هنگام مقایسه چندین گروه یا دسته داده‌ها مفید است، زیرا می‌توانید به‌طور دقیق‌تر تحلیل کنید که هر گروه از داده‌ها چه ویژگی‌های آماری دارد.

4. انتخاب ابزار مناسب

  • اگر هدف شما فقط تجزیه‌وتحلیل توزیع یک متغیر است و به اطلاعات اضافی نیاز ندارید، نمودار چگالی می‌تواند برای شما کافی باشد.
  • اما اگر بخواهید چندین گروه مختلف را مقایسه کنید و اطلاعاتی جامع‌تری از هر گروه از داده‌ها بدست آورید، نمودار ویولن انتخاب بهتری خواهد بود. این نمودار به شما این امکان را می‌دهد که علاوه بر تحلیل چگالی، ویژگی‌های آماری دیگر هر گروه را نیز مشاهده کنید.

3. چگونه نمودار ویولن را تفسیر کنیم؟

تفسیر یک نمودار ویولن، همچون تجزیه و تحلیل یک میدان نبرد پیچیده، نیازمند دقت، توجه به جزئیات و درک صحیح از اطلاعات است. نمودار ویولن با ترکیب ویژگی‌های نمودار جعبه‌ای و چگالی، به شما امکان می‌دهد تا توزیع داده‌ها، میزان تمرکز آن‌ها و وجود انحرافات یا نقاط پرت را به‌طور واضح مشاهده کنید. در اینجا به بررسی روش‌هایی می‌پردازیم که به شما کمک می‌کند نمودار ویولن را به‌درستی تفسیر کنید.

1. درک ساختار نمودار ویولن

نمودار ویولن به شکل یک جعبه با دو طرف تقارن است که نمایانگر توزیع داده‌هاست. این نمودار از چندین بخش تشکیل می‌شود:

  • خط میانه (Median): خط افقی در وسط نمودار نشان‌دهنده میانه داده‌ها است. این خط مشخص می‌کند که نیمی از داده‌ها بالاتر و نیمی دیگر پایین‌تر از آن قرار دارند.
  • چگالی داده‌ها: عرض نمودار در هر بخش نشان‌دهنده چگالی داده‌ها است. قسمت‌هایی که عرض بیشتری دارند نشان‌دهنده تراکم بیشتر داده‌ها هستند.
  • ربع‌ها و چارک‌ها: شبیه به نمودار جعبه‌ای، نمودار ویولن می‌تواند شامل چارک‌ها باشد که اطلاعاتی در مورد توزیع داده‌ها ارائه می‌دهد.
  • نقاط پرت (Outliers): برخی نمودارهای ویولن نقاط پرت را به‌وضوح نشان می‌دهند. این نقاط معمولاً در دو طرف نمودار و خارج از بخش‌های اصلی قرار دارند.

نیازمند درج تصویر

2. تحلیل چگالی داده‌ها

چگالی یا “عرض نمودار” در قسمت‌های مختلف، بیانگر توزیع داده‌ها در آن بخش‌ها است. هرچه عرض نمودار بیشتر باشد، تعداد داده‌های موجود در آن بخش بیشتر است. بنابراین، مناطقی که عرض بیشتری دارند، نشان‌دهنده تراکم بالای داده‌ها هستند و مناطقی که باریک‌تر هستند، به معنای پراکندگی داده‌ها در آن بخش است. این بخش از نمودار به شما کمک می‌کند تا بفهمید داده‌ها بیشتر در کدام بازه متمرکز هستند.

3. بررسی تفاوت‌ها و شباهت‌ها در گروه‌های مختلف

اگر چند گروه مختلف در نمودار ویولن مقایسه شوند، می‌توانید تفاوت‌های توزیع داده‌ها را مشاهده کنید. برای مثال، اگر دو گروه دارای میانه‌های متفاوت یا چگالی‌های متفاوت باشند، این نشان‌دهنده تفاوت‌های اساسی در داده‌های آن‌ها است. بررسی عرض و شکل هر گروه به شما کمک می‌کند تا بفهمید کدام گروه‌ها دارای توزیع یکنواخت‌تر یا پراکندگی بیشتری هستند.

4. توجه به نقاط پرت و ناهنجاری‌ها

نقاط پرت، که به‌طور معمول در انتهای نمودار قرار دارند، می‌توانند نشان‌دهنده داده‌هایی باشند که از الگوی عمومی منحرف شده‌اند. وجود این نقاط ممکن است به دلایلی مانند خطای اندازه‌گیری یا موارد خاص و نادر در داده‌ها اشاره داشته باشد. این نقاط باید به‌دقت بررسی شوند تا تأثیر آن‌ها بر نتایج تحلیل درک شود.

5. اهمیت تقارن نمودار

یک نمودار ویولن متقارن به شما نشان می‌دهد که داده‌ها به‌طور مساوی در دو طرف میانه توزیع شده‌اند. در حالی که نمودارهای نامتقارن می‌توانند نشان‌دهنده وجود انحراف به سمت یک طرف خاص باشند. این تقارن یا عدم تقارن می‌تواند نکات مهمی را درباره ویژگی‌های داده‌ها و رفتار آن‌ها نمایان کند.

مقالات مرتبط:

نمودار عنکبوتی Spider Chart

نمودار قیفی Funnel Chart

نمودار پراکندگی Scatter Plot

نویسنده: تیم پژوهش راهبرد

 

منابع

towardsdatascience.com

datavizcatalogue.com

data-to-viz.com

5/5 - (1 امتیاز)

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *