نمودار شش ضلعی Hexagonal Plot
مقدمه ای بر نمودار شش ضلعی Hexagonal Plot
نمودار شش ضلعی Hexagonal Plot : در این عصر از داده های بزرگ، داده هایی با حجم زیاد تقریباً در هر صنعت موجود است. و این داده ها در این حجم نیاز به تجزیه و تحلیل دارد که میتوان به روش های مختلف این مشکل را حل کرد. اما روش تجسم تعداد بسیار زیادی از نقاط داده میتواند یک کار خسته کننده باشد. یک مورد استفاده را در نظر بگیرید که برای تجسم روندها و الگوها لازم است، پنجاه هزار نقطه داده ترسیم کند. چالش های اصلی در مورد این نیاز، این است که به راحتی برای چشم انسان قابل تشخیص نیست که بسیاری از نقاط را در یک طرح واحد تشخیص دهد. ثانیا، با فضای صفحه نمایش محدود هر نمودار با بسیاری از نقاط داده ای که روی نمودار رسم میشوند، به دلیل ازدیاد غیرقابل خواندن میشود. در این مطلب، به بررسی نمودار شش ضلعی میپردازیم که گزینه ی مناسبی برای رفع مشکلات و ترسیم نقاط داده ای با حجم زیاد است تا برخی از بینش ها را در مورد روندها یا الگوها یا خوشه ها در یک مجموعه داده با حجم بالا بدست آوریم.
نمودار شش ضلعی Hexagonal Plot
نمودار شش ضلعی تکنیکی است که معمولاً در برنامه های کاربردی علوم داده برای درک پراکندگی مجموعه داده استفاده میشود. این نمودار جایگزین غنی تری برای نمودار پراکندگی است. این روش از تجمع نقاط داده به عنوان روشی برای گروهبندی نقاط داده در یک محدوده یا مقیاس استفاده میکند که با اشکالی مانند مربع و شش ضلعی (به طور معمول) نشان داده میشود و رنگ یا اشباع این اشکال نشان دهنده تراکم نقاط داده در داخل دامنه است. این اشکال کار شناسایی خوشه های داده را آسانتر میکند و میتواند الگوها یا روندها را نیز به تصویر بکشد. اندازه این اشکال را می توان برای تجزیه و تحلیل دادهها در سطح خرد یا کلان تنظیم کرد.
نمودار شش ضلعی یکی از پرکاربردترین ابزارهای گرافیکی برای نمایش داده های دو متغیره، پراکندگی X-Y است که در مکان هر مشاهده در یک مجموعه داده نمادهایی را ترسیم می کند. برای مجموعه های داده ای که به صدها عدد می رسند ، چنین نمودارهایی معمولاً ایده خوبی در مورد هر رابطه ای که بین X و Y وجود دارد را به بیننده ارائه می دهند. با این حال ، برای مجموعه های داده ای که به صدها هزار یا حتی میلیون ها داده میرسد ، چنین طرح هایی چندان مفید نیستند.
شش ضلعی یک روش جدید تجسم برای تجزیه و تحلیل داده ها است. این نمودار یک روش ساده برای تجسم توزیع داده ها در صفحه X-Y است، به ویژه هنگامی که به دنبال الگوها یا خوشه ها هستیم. اما وقتی یک مجموعه داده بزرگ با تعداد زیادی مقادیر داشته باشیم، بسیاری از این نقاط داده میتوانند با هم همپوشانی داشته باشند و در نتیجه یک نمودار نامرتب ایجاد می شود. این اثر پوشاندن بیش از حد میتواند شناسایی الگوها یا خوشه ها را دشوار کند. ارجحیت استفاده از شش ضلعی به جای اشکال دیگر مانند مربع بنا به دلایل خصوصیات شکل هندسی شش ضلعی است. شش ضلعی چند ضلعی است که حداکثر تعداد اضلاع آن را برای تقسیم منظم یک صفحه دو بعدی دارد. این باعث میشود که بن شش ضلعی کارآمدترین و جمع و جورترین تقسیم فضای داده دو بعدی باشد. این به معنی تجمع داده های کارآمدتر در اطراف مرکز است.
در رسم نمودار شش ضلعی داده ها در دو بعد روی محور افقی و عمودی نشان داده میشوند. و هر شش ضلعی نشان دهنده نقاطی است که شامل ویژگیهای یکسان میشوند. تعداد نقاط داخل هر شش ضلعی از رنگ و میزان تیره و روشن بودن شش ضلعی مشخص میشود. هرچه تراکم نقاط بیشتر باشد رنگ شش ضلعی تیره تر است و هر چه تراکم نقاط کمتر باشد رنگ شش ضلعی کمرنگتر است. در نمودار زیر بر اساس راهنمای سمت راست نمودار تعداد نقاط داخل هر شش ضلعی بر اساس میزان تیره و روشنی شش ضلعی مشخص میشود.
در نمودار زیر از یک ستون که در سمت راست نمودار قرار دارد برای مشخص کردن تعداد، استفاده شده است. و این مقادیر در بازههای 50تایی تغییر میکنند.
مثال نمودار شش ضلعی Hexagonal Plot
مثال نمودار شش ضلعی Hexagonal Plot : در مثال اول به بررسی میزان سود و قیمت واحد یک کالا و ارتباط این دو متغییر میپردازیم. مقدار سود در محور افقی (X) و قیمت واحد در محور عمودی (Y) قرار میگیرد. پس از رسم میتوانید نمودار را مانند شکل زیر مشاهده کنید. اگر شش ضلعیها را با دقت مشاهده کنید، میتوانید شش ضلعیهایی رنگی با میزان اشباع مختلف را مشاهده کنید، که غلظت نقاط داده را در شش ضلعیهای مربوطه نشان میدهد و این غلظت رنگ نشان دهنده تجمع داده در این قسمت است. هدف اصلی تجزیه و تحلیل به وسیله ی این نمودار این نیست که هر نقطه از داده مربوطه را تجزیه و تحلیل کند، بلکه به طور کلی، هدف از تجسم نقاط داده با حجم زیاد، یافتن خوشه ها یا الگوهایی در داده ها است که مورد توجه تحلیلگران باشد.
در این قسمت برای تکمیل توضیحات این نمودار از ترکیب نمودار پراکندگی و نمودار شش ضلعی استفاده شده است. همان طور که مشاهده میکنید در نقاطی که رنگ تیره تری دارند تجمع نقاط نیز بیشتر است. تیره ترین رنگها را در محدود 40k تا 60k متغییر profit و در محدود 4k تا 8k متغییر Unit Price قرار دارد.
در ادامه به بررسی یک مثال دیگر در حوزه فروش یک آلیاژ فلزی میپردازیم. در این مثال محور افقی مربوط به متغییر Carat (که هر Carat برابر 0.2 گرم میباشد) و محور عمودی مربوط به متغییر Price میباشد. همانطور که مشاهده میکنید نمودار از یک پراکندگی یکنواخت برخوردار است و در اکثر نقاط تعداد داده های رسم شده بین 0 تا 4000 میباشد.
جمع بندی نمودار شش ضلعی Hexagonal Plot
نمودار شش ضلعی Hexagonal Plot ابزار مهمی برای تجسم داده های بزرگ فراهم میکنند. رسم نمودارها بسیار سریعتر از نمودارهای پراکنده است در زمانی که اندازه نمونه بسیار بزرگ است. این نمودارها هنگامی که پراکندگیهای نرمال، فقط یک رنگ ثابت را نشان میدهند، و در زمان پراکندگی بیشتر رنگهای متنوعتری را شامل میشوند. و اینگونه نمایش کاربران را قادر میسازند تا بیشترین و کمترین چگالی از در کدام محدود قرار دارد را دریابند.
سایر نمودار ها : نمودار حبابی Bubble Chart و نمودار جعبه ای Box Plot را نیز مطالعه کنید.
نویسنده: تیم پژوهش راهبرد
منابع
www.mssqltips.com
www.sthda.com
دیدگاهتان را بنویسید