خوشه بندی در داده کاوی

خوشه بندی در داده کاوی

خوشه بندی در داده کاوی

خوشه بندی در داده کاوی

خوشه بندی در داده کاوی Clustering : یکی از روش­های کاوش در داده­ های انبوه و کشف اطلاعات و دانش از این داده ­ها، داده کاوی می­باشد. برای استخراج الگو از این داده­ ها الگوریتم ­های متعددی مورد استفاده قرار می­گیرند و هرکدام موارد استفاده مخصوص به خود را دارند. یکی از مهم­ترین و پرکاربرد ترین تکنیک­های داده­ کاوی استفاده از الگوریتم­ های خوشه ­بندی است. خوشه­ بندی یا دسته ­بندی داده ­ها با استفاده از شباهت­ های ذاتی آن­ها داده ­های مشابه ­را در یک گروه قرار می­دهد. و بر اساس این دسته­ بندی و شباهت به کشف الگو و استخراج نهفته در ذات داده­ ها می­پردازد. و یافتن این الگوها مدیریت داده­ ها برای کاربرد­های مختلف بسیار آسان می­کند.

روش طبقه بندی در داده کاوی را که یک روش یادگیری با نظارت است را نیز در این خصوص مطالعه فرمایید.

خوشه­ بندی یا دسته ­بندی داده ­ها

خوشه­ بندی یا دسته ­بندی داده ­ها  : خوشه­ بندی یک روش یادگیری بدون نظارت است. یک روش یادگیری بدون نظارت روشی است که در آن دیتاست مورد نظر حاوی داده ­هایی است بدون برچسب هدف یا گروهی که داده ­به آن متعلق است. به طور کلی، از آن به عنوان فرایندی برای یافتن ساختار یا الگویی معنی دار برای دسته ­بندی داده­ ها بکار می­رود.

خوشه بندی وظیفه تقسیم جمعیت یا نقاط داده به تعدادی گروه است به گونه ای كه نقاط داده در گروهی که عضو است بیشترین شباهت را به سایر نقاط داده در همان گروه داشته باشد و با نقاط داده در گروه­های دیگر شباهتی نداشته ­باشد. در اصل مجموعه­ ای از اشیا یا داده ­ها بر اساس شباهت و عدم شباهت تقسیم ­بندی می­شوند؛ این یک وظیفه اصلی برای کاوش داده و یک روش برای تجزیه و تحلیل داده­ های کلان است که در بسیاری از زمینه ­ها از جمله شناخت الگو، تجزیه و تحلیل تصویر، بازیابی اطلاعات، بیوانفورماتیک، فشرده سازی داده ها، گرافیک رایانه و یادگیری ماشین مورد استفاده قرار می­گیرد.

الگوریتم­ های خوشه­ بندی داده ­هایی را که ویژگی­های مشابه به هم و نزدیک  دارند را در دسته‌های جداگانه که به آن خوشه گفته می‌شود قرار می‌دهند. با نگاهی ساده ­تر به مسئله خوشه ­بندی در میابیم که خوشه ­بندی می­تواند همان دسته ­بندی باشد که روزانه بارها بدون توجه به این­که این عمل را انجام می­دهیم از آن برای دسته­بندی وسایل استفاده­ می­کنیم. زمانی­که با تعدادی اشیاء با صفات مختلف ولی محدود رو به رو هستیم به راحتی اشیاء را دسته­ بندی می­کنیم.

 به طور مثال کودکی تعدادی تیله دارد و تیله ­ها را روی زمین می­ریزد. با نگاهی به تیله­ ها متوجه می­شود تعدادی تیله آبی رنگ، تعدادی زرد و تعدادی قرمز رنگ است به راحتی آن­ها را از روی رنگ در سه دسته قرار می­دهد. زمانی که دقیق­تر نگاه می­کند تعدادی تیله بزرگتر و تعدادی کوچکتر است باز هم می­تواند تیله­ ها را به دلخواه بر اساس سایز دسته ­بندی کند. و زمانی که مجدد به تیله­ های دسته بندی شده با دقت بیشتری نگاه می­کند متوجه ترک و ساییدگی روی بعضی از تیله ­ها می­شود و اگر بخواهد همه ­ی این ویژگی­ها اعم از سایز تیله ­ها، رنگ، و سالم بودن را در دسته ­بندی خود دخیل کند کار مشکل می­شود و دچار سردرگمی می­گردد. و به احتمال زیاد دسته­ بندی را رها کرده و به بازی مشغول می­شود!

 

هنگامی که با یک مجموعه کوچک و با ویژگی­های محدودی از این مجموعه رو به­ رو هستیم، دسته ­بندی این مجموعه کاری اسان است و به راحتی می­توانیم آن را انجام دهیم. اکنون فرض کنید در یک مجموعه متشکل از  هزاران داده­ و با تعداد زیادی ویژگی رو به رو هستید و قصد دسته ­بندی این داده­ ها را دارید؛ این کار برای انسان بسیار سخت و طاقت فرسا است. این جاست که کار دسته ­بندی با تعداد ویژگی­ های زیاد از صبر و حوصله­ ی انسان خارج می­شود و الگوریتم­ های خوشه ­بندی بهترین ابزار برای حل این گونه مشکلات است، از این الگوریتم­ها در مجموعه داده‌های بزرگ و در مواردی که تعداد ویژگی‌های داده زیاد باشد استفاده می‌شود.

عمل تجزیه و تحلیلی که توسط الگوریتم ­های خوشه­ بندی انجام­ می­شود تفاوت زیادی با دسته ­بندی داده توسط انسان دارد چون این الگوریتم­­ها  درک دقیقی از داده ­ها  و تشکیل یک خوشه و چگونگی یافتن کارآمد یک خوشه دارند.

ویژگی­هایی که این الگوریتم­ها بر اساس آن، این خوشه ­ها را ایجاد می­کنند شامل خوشه­ هایی با فاصله کم بین اعضای خوشه، خوشه­ هایی با تراکم بالای داده، فاصله­ ها و توزیع­ های اماری خاص است. نقاط داده را در نمودار زیر که بصورت خوشه ­ای در کنار هم جمع شده­ اند را می­توان به عنوان یک خوشه در نظر گرفت. می­توان خوشه ­ها را از هم تفکیک کرد و همچنین می­توان تشخیص داد که در تصویر زیر 3 خوشه وجود دارد.

 

انواع روش­های خوشه بندی در داده کاوی

اگر چه بیشتر الگوریتم‌ها یا روش‌های خوشه‌بندی مبنای یکسانی دارند ولی تفاوت‌هایی در شیوه اندازه‌گیری شباهت یا فاصله و همچنین انتخاب برچسب برای اشیاء هر خوشه در این روش‌ها وجود دارد.

1-روش های مبتنی بر تراکم (Density-Based Methods):

خوشه‌ها در مناطقی با چگالی بیشتر هستند (نقاط داده متراکم‌تر) که با نواحی دارای چگالی کم‌تر (تراکم داده کم) از هم جدا شده‌اند. در این روش‌ها، نقاطی که در یک محدوده معین (یک شعاع همسایگی خاص) از هم قرار دارند در یک خوشه قرار می‌گیرند. در روش‌های مبتنی بر چگالی، معمولا یک حداقل چگالی در نظر گرفته می‌شود و در نواحی که این حداقل رعایت شده، خوشه‌بندی انجام می‌شود. این روش‌ها ذاتا برای فضای پیوسته تعریف شده‌اند. در شکل زیر تعدادی داده داریم در هر منطقه­ای که تراکم داده­ها بیشتر است داده­ها تشکیل یک خوشه داده اند.

 2-روش­های پارتیشن­ بندی (Partition methods):

روش­های پارتیشن­ بندی بدین شرح است که یک زیرمجموعه از مجموعه داده­های مورد نظر را به تعداد K تا مجموعه از پیش تعیین شده از زیرمجموعه های­ دارای داده تقسیم می­کنیم. آنها برای بدست آوردن گروه­هایی با یک شکل کروی یا حداکثر محدب مناسب هستند و می توانند در مجموعه داده ­هایی با اندازه­ ی کوچک یا متوسط ​​استفاده شوند. در این روش، براساس n‌ مشاهده و k گروه، عملیات خوشه‌بندی انجام می‌شود. به این ترتیب تعداد خوشه‌ها یا گروه‌ها از قبل در این الگوریتم مشخص است. با طی مراحل خوشه‌بندی تفکیکی، هر شیء فقط و فقط به یک خوشه تعلق خواهد داشت و هیچ خوشه‌ای بدون عضو باقی نمی‌ماند. از انواع روش­های پارتیشن­بندی می­توان به k-means ,k-median ,Fuzzy C-means اشاره کرد.

خوشه بندی k-means

خوشه بندی k-means : الگوریتم k-means یکی از ساده‌ترین و محبوب‌ترین الگوریتم‌های خوشه ­بندی است که در داده‌کاوی بخصوص در حوزه­ ی یادگیری نظارت نشده به کار می‌رود. معمولا در حالت چند متغیره، باید از ویژگی‌های مختلف اشیا به منظور طبقه‌بندی و خوشه‌ کردن آن‌ها استفاده کرد. به این ترتیب با داده‌های چند بعدی سروکار داریم که معمولا به هر بعد از آن، ویژگی یا خصوصیت گفته می‌شود. با توجه به این موضوع، استفاده از توابع فاصله مختلف در این جا مطرح می‌شود. ممکن است بعضی از ویژگی‌های اشیا کمی و بعضی دیگر کیفی باشند.

3-روش­های سلسله مراتبی (Hierarchical methods):

روش­های سلسله مراتبی، روش درختی داده­ ها را به زیر گروه ­هایی تقسیم می­کند در این الگوریتم­ها نیازی به تعیین تعداد زیر گروه ها نیست. انواع روش­های سلسله مراتبی شامل روش تقسیمی (Divisive hierarchical methods) و روش تجمعی ( Agglomerative hierarchical methods) است. روش تقسیمی یک روش خوشه بندی از بالا به پایین است و از کل داده شروع می­شود و در نهایت به کوچکترین جزء می­رسد. و روش تجمعی دقیقا عکس روش تقسیمی است و یک روش پایین به بالا است از کوچکترین جزء شروع می­کند و در نهایت تمامی داده­ها در یک دسته قرار می­گیرند.

خوشه بندی isodata (ایزودیتا (آیسودیتا)):

الگوریتم isodata (ایزودیتا (آیسودیتا)) یک روش خوشه بندی سلسله مراتبی است که با استفاده از تراکم داده‌ها، گروه‌های مختلف را تشکیل می‌دهد. این روش بر اساس فاصله بین نقاط داده و نقاط تراکم آن‌ها، گروه‌بندی می‌کند. این روش در زمینه‌هایی مانند تجزیه و تحلیل تصویر، شبکه‌سازی و شناسایی الگو استفاده می‌شود. جهت مطالعه بیشتر در مورد الگوریتم isodata (ایزودیتا (آیسودیتا))  کلیک کنید.

4- روش­های شبکه ­ای (Grid methods):  ­

روش­ شبکه ­ای، دسته خاصی از روش‌های مبتنی بر چگالی هستند که در آن‌ها هر منطقه مجزا در فضای داده که جست‌و‌جو می‌شود، در ساختار شبکه مانندی قرار می‌گیرد. به طور مثال نقاط داده شده در صفحه مختصات رسم شده و سپس صفحه به شبکه­ هایی تقسیم می­شود و نقاطی که با هم در یک شبکه قرار بگیرند در یک خوشه قرار دارند این روش به نسبت دیگر روش­ها درصد صحت پایین تری دارد ولی زمان بسیار مناسبی در خوشه­ بندی دارد.


کاربردهای خوشه بندی در داده کاوی

از کاربرد خوشه بندی می توان به موارد زیر اشاره کرد:

  • بازاریابی: خوشه ­بندی می­تواند در زمینه ­های مختلف بازاریابی کاربرد داشته باشد به طور مثال از خوشه­ بندی برای توصیف و کشف رفتار مشتری، توانایی خرید مشتری و برای انجام تبلیغات بهینه از اهداف بازاریابی می­توان استفاده کرد.
  • زیست شناسی: یکی دیگر از توانایی­ های خوشه­ بندی این است که آن را برای طبقه بندی در میان گونه ­های مختلف گیاهان و حیوانات استفاده کرد و این خود به زیست شناسان بسیار کمک می­کند.
  • کتابخانه­ ها: در خوشه بندی کتاب های مختلف بر اساس موضوعات و اطلاعات استفاده می شود و بسیار کار جست و جوی کتاب را راحت تر کرده است.
  • بیمه: برای تأیید مشتریان ، بیمه نامه های آنها و شناسایی کلاهبرداری ها به کار می رود.
  • برنامه ­ریزی شهری: برای ساختن گروه­ هایی از اطلاعات خانه ­ها و بررسی ارزش­ های آنها بر اساس موقعیت جغرافیایی و سایر عوامل موجود استفاده می­شود و از این گروه ها برای قیمت گذاری استفاده می­شود تا نظر اشخاص در تعیین قیمت کمتر تاثیرگذار باشد.
  • مطالعات زلزله: با بررسی مناطق زلزله زده و بررسی وضعیت صفحات زمین می­توان مناطق خطرناک را تعیین کرد.
  • تقسیم بندی بازار: بخش بندي بازار، هدف گيري شرکت ها را به سمت بازارهاي مشخص تري هدايت مي کنند تا ارتباط موثرتري با مشتريان صورت پذيرد. که بدین وسیله بتوانند زمينه تصميم گيري سريع و منطبق با واقعيت را فراهم کند.
  • تحلیل شبکه اجتماعی: تشخیص انجمن­ها و خوشه­ بندی گراف در یک شبکه اجتماعی به ساده سازی و تحلیل بهتر آن کمک می‌کند. انجمنها گروه‌ هایی از نودهای شبکه هستند که ارتباط تنگاتنگی با هم دارند و با نودهای بیرون از شبکه ارتباط نسبتا کمی دارند. بعنوان مثال اگر ارتباطات اجتماعی افراد را در یک شبکه اجتماعی داشته باشیم دوستان هم کلاس در یک دانشکده از یک دانشگاه ممکن است تشکیل یک گروه با ارتباطات تنگاتنگ بدهند و در حقیقت یک انجمن در این شبکه اجتماعی باشند.
  • گروه بندی نتایج جستجو: گروه­ بندی و به نظم درآوردن نتايج جستجو در بازيابي اطلاعات، بخصوص وقتي حجم منابع پیشنهاد شده بسيار زياد است به كاربران در بدست آوردن اطلاعات مورد نظر کمک می­کند. بازآرايي و سازماندهي مدارك همواره بر اساس ويژگي­ هاي هر مدرك صورت مي‌­پذيرد.
  • تصویربرداری پزشکی و پزشکی: در تصویربرداری PET تجزیه­ی خوشه­ای می‌تواند برای تمایز بین انواع مختلف بافت در یک تصویر سه بعدی برای بسیاری از اهداف مختلف مورد استفاده قرار گیرد. کاربرد خوشه­بندی در پزشکی می‌تواند برای تجزیه و تحلیل الگوهای مقاومتی آنتی‌بیوتیکی، طبقه‌بندی ترکیبات ضد میکروبی مطابق با مکانیسم عمل آن‌ها، طبقه‌بندی آنتی‌بیوتیک‌ها بر اساس فعالیت ضد باکتری آن‌ها استفاده شود.
  • سیستم توصیه گر: سیستم‌های توصیه شده به منظور توصیف ایتم جدید بر اساس سلیقه کاربر طراحی شده‌اند. با استفاده از الگوریتم ­های خوشه ­بندی می­توان سیستم­ های پیشنهاد دهنده ­ای طراحی کرد که بر اساس سلیقه و ذائقه مخاطب به او کالای مورد نیاز، فیلم و یا موزیک و غیره پیشنهاد دهند. بر اساس جست و جوهای قبلی یا برای پیش‌بینی ترجیحات کاربر بر اساس ترجیحات دیگر کاربران در خوشه کاربر استفاده می‌کنند.
  • در زمینه رباتیک الگوریتم خوشه بندی برای آگاهی موقعیت رباتیک برای ردیابی اشیاء و تشخیص خروجی‌ها در داده‌های سنسور استفاده می‌شود.
  • بخش بندی تصویر: خوشه بندی می‌تواند برای تقسیم یک تصویر دیجیتال به مناطق مشخص برای تشخیص مرز یا تشخیص شی مورد استفاده قرار گیرد.

 

اهمیت خوشه ­بندی در هوش تجاری

در تحقیقات بازار استفاده از  تجزیه و تحلیل  به روش خوشه­ بندی می­تواند به طور گسترده کاربرد داشته باشد؛ کارشناسان و محققان در زمینه ­ی پژوهش­ های بازار از الگوریتم­ های خوشه­ بندی استفاده­ می­کنند. به طور مثال در تحقیقات حوزه بازاریابی برای تقسیم­ بندی مخاطبانِ تبلیغات مختلف و همچنین در دسته­ بندی نتایج نظرسنجی کاربرد فراوان دارد.
بدین وسیله محققان، مشتریان و مصرف­ کنندگان بخش­های مختلف بازار را به گروه­ هایی مشخص تقسیم کنند تا روابط بین گروه ­های مختلف مصرف­ کنندگان بالقوه، گروه ­بندی اقلام خریداری شده توسط مشتری، برای دسته ­بندی اقلام موجود در فروشگاه­های اینترنتی استفاده می­شود.

 به عنوان مثال، تمام اقلام مشابه موجود در یک فروشگاه اینترنتی را می‌توان با استفاده از روش­های خوشه ­بندی در یک گروه قرار داد و با استفاده از این خوشه ­بندی مشتری راحت تر کالای مورد نیاز خود را جست و جو کند و همچنین با پی­گیری خرید مشتری می­توان پیشنهادهایی نزدیک به سلیقه مشتری به او داد و این خود باعث تشویق خرید از محصولات مورد نظر می­شود و همچنین مصرف­ کننده احساس می­کند از طرف سیستم به خوبی نیازها و سلیقه­ ی او درک شده است و این امر موجب تبدیل شدن مشتری معمولی به یک مشتری وفادار می­شود . با استفاده از دسته ­بندی فرم­های نظرسنجی بخصوص فرم­های انلاین می­توان نظرات مصرف­ کنندگان و مخاطبان را دسته­ بندی کرد و به راحتی میزان رضایت و نارضایتی و همچنین دلایل رضایت و نارضایتی را بدست آورد و در راستای افزایش رضایت مصرف­ کننده تلاش کرد. بنابراین الگوریتم­ های داده ­کاوی جزء جدایی ناپذیر تجزیه و تحلیل داده ­ها در حوزه ­ی کسب و کار است.

جمع ­بندی خوشه بندی در داده کاوی

خوشه بندی در داده کاوی یکی از مهم ­ترین الگوریتم­ های یادگیری بدون ناظر در داده ­کاوی است. ما با داده­ های بسیاری در حوزه ­های مختلف سر و کار داریم که بسیاری از این داده ­ها نیاز به دسته ­بندی دارند. تعدادی از این داده­ ها، بدون برچسب هستند یعنی گروهی که این داده­ها به آن تعلق دارند برخلاف الگوریتم­های یادگیری با ناظر مشخص نیست. بنابراین ما برای تجزیه و تحلیل این داده ­ها نیاز به روش­های خوشه­ بندی داریم و به طور کلی خوشه ­بندی، گروه­بندی ذاتی را در بین داده­ های بدون برچسب تعیین می­کند؛ و این گروه بندی ذاتی داده­ ها در رفع مسائل کنونی برای یافتن الگو در این حجم وسیع داده بسیار می­تواند در همه­­ ی زمینه­ ها مفید باشد.

 

نویسنده: تیم پژوهش راهبرد

مقاله خوبی بود؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *