در رابطه بالا هر چه معیار  بزرگ‌تر باشد پراکندگی بین دو خوشه‌بندی مورد ارزیابی بیشتر خواهد بود. این معیار برای هر دو خوشه‌بندی مساوی برابر با صفر می‌باشد. از طرف دیگر در ساخت یک ترکیب مناسب باید معیار دقت نیز در نظر گرفته شود تا نتایج نامطلوب، کارایی کل سیستم را مورد تأثیر قرار ندهند. از این روی روش پیشنهادی ژیا یک تابع جدید برای ارزیابی هم زمان دقت و پراکندگی مطابق با رابطه زیر با عنوان  پیشنهاد کرده است [۸۶].
مقاله - پروژه
(۲-۵۸)
شکل (۲-۲۸) نشان‌دهنده‌ی منحنی تابع  بر اساس  در بازه بین صفر الی یک می‌باشد. این شکل نشان می‌دهد که هر گاه مقدار  یک و یا صفر باشد مقدار  صفر است. این تحقیق خوشه‌بندی‌هایی با مقدار  صفر را به عنوان نویز در نظر می‌گیرد و در صورت برابر بودن نتایج دو خوشه‌بندی (که مقدار  آن دو برابر یک می‌باشد) در این روش یکی از آن‌ دو نتیجه مورد استفاده قرار می‌گیرد. مطابق تعاریف بالا تنوع نتایج اولیه انتخاب‌شده در این روش در حد متوسط[۱۲۸] می‌باشد [۸۶].
شکل ۲-۲۸. گراف تابع  در بازه بین صفر و یک [۸۶].
۲-۴-۳-۲. انتخاب خوشه‌بندی بر اساس قانون نزدیک‌ترین همسایه در روش ژیا
در خوشه‌بندی مبتنی بر انتخاب پیشنهادی این تحقیق دو فرایند انجام می‌شود. ابتدا افرازبندی یک مجموعه خوشه‌بندی به تعداد زیرمجموعه‌های همگن تقسیم می‌شود و سپس از هر یک از آن‌ها یک خوشه‌بندی نماینده انتخاب می‌شود. افرازبندی خوشه‌بندی‌ها بر اساس مفاهیم نزدیک‌ترین همسایه با بهره گرفتن از معیار پراکندگی (که در بخش قبل شرح داده شده است) انجام می‌شود که در انجام این کار، ابتدا زوج فاصله‌ی میان مؤلفه‌های‌ خوشه‌بندی‌ را محاسبه می‌کنیم و سپس بر اساس تعاریف بخش قبل نزدیک‌ترین همسایه را حذف می‌کنیم. این فرایند آن قدر تکرار می‌شود تا تمام خوشه‌های باقی‌مانده یا انتخاب شوند یا حذف شوند. در این روش تعداد خوشه‌‌‌بندی‌هایی که قرار است در فرایند بالا انتخاب شوند از قبل تعریف می‌شوند. مطابق این تعاریف روش پیشنهادی ژیا را به صورت زیر تعریف می‌کنیم: [۸۶]
فرض کنید که  تعداد خوشه‌بندی‌های اصلی ‌باشد و مجموعه‌ی اصلی خوشه‌بندی‌ به صورت  و فاصله‌ی بین خوشه‌های  و  به صورت  تعریف شوند که در آن برای محاسبه معیار  از تعاریف بخش قبل ‌استفاده می‌کنیم و فاصله‌ی بین خوشه‌بندی  و نزدیک‌ترین همسایه آن در زیرمجموعه کاهش‌یافته  را با  نشان می‌دهیم. شبه‌ کد شکل زیر مراحل اجرای روش پیشنهادی ژیا را نشان می‌دهد: [۸۶]

 

Step 1: Initialize the reduced subset  to the original set O;
Step 2: For each clustering , compute
Step 3: Find clustering  for which  is the minimum.
Retain it in  and discard its nearest neighbors (Note:  denotes the clustering for which removing its nearest neighbors will cause minimum error among all clusterings in  ).
Step 4: Repeat steps 2 and 3 until the predefined number of clusterings is achieved.
Step 5: Return to  as the reduced clustering set.
After the selection process, we apply a consensus function to this subset and get a consensus partition.

شکل ۲-۲۹. الگوریتم خوشه‌بندی ترکیبی طیفی مبتنی بر انتخاب بر اساس شباهت [۸۶]
در شکل بالا ابتدا زیرمجموعه کاهش‌یافته  ایجاد می‌شود. سپس برای هر خوشه‌بندی  مقدار  محاسبه می‌شود. آنگاه خوشه‌بندی  به نحوی انتخاب می‌شود که مقدار  آن کمینه باشد. دو فرایند محاسبه  و پیدا کردن  آن قدر تکرار می‌شود تا مطابق با تعداد از قبل تعریف‌شده نتیجه‌ی خوشه‌بندی به دست آوریم. در انتها با بهره گرفتن از یک تابع توافقی خوشه‌بندی‌ها را باهم ترکیب کرده و نتیجه نهایی را به دست می‌آوریم [۸۶].
۲-۴-۴. خوشه‌بندی ترکیبی انتخابی لی‌مین
این الگوریتم توسط لی‌مین و همکاران ارائه شده است که ما آن را با عنوان خوشه‌بندی ترکیبی انتخابی[۱۲۹] لی‌مین می‌شناسیم. در این الگوریتم ابتدا به این موضوع اشاره می‌شود ‌که چون معمولاً در روش‌های مبتنی بر انتخاب تمامی مقایسه‌ها بر اساس یک افزار مرجع صورت می‌گیرد، کیفیت این افراز بر روی نتایج نهایی تأثیر به سزایی دارد. از این روی در این روش دو رویکرد پیشنهاد می‌شود: ابتدا برای انتخاب بهترین افراز مرجع بر اساس ارزیابی اعتبار خوشه‌بندی راه‌حلی پیشنهاد می‌شود و سپس یک راهکار انتخاب خوشه‌ی جدید با بهره گرفتن از وزن اعضا پیشنهاد می‌شود. در ادامه روش پیشنهادی لی‌مین و همکاران را شرح می‌دهیم: [۸۵]
فرض کنید  مجموعه‌ی  تایی از نقــــاط داده و  مجموعه‌ی  تایی افراز‌های خوشه‌بندی‌ بر روی این مجموعه داده‌ می‌باشد. هر افراز  شامل مجموعه خوشه‌های  می‌باشد که  تعداد خوشه‌های افراز  است و رابطه  همواره برقرار می‌باشد. هدف این روش انتخاب زیرمجموعه‌ی  بر اساس راهکار انتخاب خوشه پیشنهادی آن (که در ادامه بررسی خواهیم کرد) از مجموعه  و ساخت نتیجه نهایی  مطابق با زیرمجموعه‌ی  با بهره گرفتن از تابع توافقی می‌باشد [۸۵].
۲-۴-۴-۱. انتخاب افراز مرجع در روش لی‌مین
همان طور که پیش‌تر ذکر شد انتخاب افزار مرجع در خوشه‌بندی مبتنی بر انتخاب مهم می‌باشد و تأثیر به سزایی در کیفیت نتیجه نهایی دارد. هر چه افراز مرجع باکیفیت‌تر باشد می‌تواند تأثیر کیفیت پایین نتایج تولیدشده را از بین ببرد. از این روی باکیفیت‌ترین افراز باید به عنوان افراز مرجع انتخاب شود. معمولاً بهترین خوشه‌بندی را به صورتی که اعضای داخل خوشه نسبت به هم شبیه‌تر و نسبت به اعضای سایر خوشه‌ها متفاوت‌تر باشند تعریف می‌کنیم. در روش پیشنهادی لی‌مین از غلظت[۱۳۰] و جدایی[۱۳۱] به عنوان معیار کیفیت استفاده شده است که ما آن را شرح می‌دهیم. ابتدا میانگین مجموعه داده‌ی  ‌‌ را به صورت  و وردایی[۱۳۲] مجموعه داده  را به صورت  محاسبه می‌کنیم که در آن  فاصله‌ی دو داده‌ی  و  می‌باشد. مطابق تعاریف بالا غلظت افراز  به صورت رابطه زیر تعریف می‌شود [۸۵].
(۲-۵۹)
این الگوریتم برای بر اساس توزیع گوسی جدایی را مطابق رابطه زیر تعریف می‌کند:
(۲-۶۰)
در رابطه بالا  ثابت گوسی (بر اساس  تنظیم می‌شود) و پارامتر‌های  و  به ترتیب مراکز  و  می‌باشد. برای اعتبارسنجی کیفیت خوشه‌ها روش لی‌مین مطابق رابطه زیر دو معیار غلظت و جدایی را در یک تابع مشترک ادغام می‌کند: [۸۵]
(۲-۶۱)
در این رابطه پارامتر  برای کنترل تأثیرات دو معیار غلظت و جدایی است که در این روش  در نظر گرفته شده است تا تأثیرات دو معیار برابر باشد. در ادامه این روش مقدار  را برای تمامی  محاسبه کرده و افرازی که مقدار  آن کمینه باشد را به عنوان افراز مرجع در نظر می‌گیرد و آن را  نام‌گذاری می‌کند [۸۵].
۲-۴-۴-۲. راهکار انتخاب خوشه در روش‌ لی‌مین
منظور از راهکار انتخاب خوشه، گزینش بهترین افراز‌های خوشه‌بندی از میان تمامی افراز‌های تولیدشده می‌باشد. انتخاب راهکار مناسب موجب می‌شود که در افراز‌های انتخاب‌شده ویژگی‌های ضمنی مجموعه داده منعکس شود و عملکرد خوشه‌بندی را بهبود یابد. روش لی‌مین یک راهکار بر اساس معیار کیفیت و پراکندگی برای انتخاب خوشه پیشنهاد می‌کند که ما آن را در ادامه بررسی خواهیم کرد [۸۵].
در روش‌های بدون ناظر، مسئله خوشه‌بندی بدون برچسب عمل می‌کند. بنابراین تناظر روشنی بین نتایج فراهم‌شده با بهره گرفتن از خوشه‌های مختلف نیست. برای مثال نتایج دو خوشه‌بندی  و  مشابه در نظر گرفته می‌شوند. برای حل این مشکل این روش یک ماتریس اتصال[۱۳۳] را تعریف می‌کند. در این تعریف مجموعه افراز‌های  به صورت رابطه زیر به ماتریس اتصال تبدیل می‌شود: [۸۵]
(۲-۶۲)
مطابق رابطه بالا شکل زیر ماتریس اتصال مثال ذکرشده (برای افراز‌های  و  ) را نشان می‌دهد:

شکل ۲-۳۰. مثالی از ماتریس اتصال [۸۵].
حال فرض کنید برای مجموعه افراز‌های  و افراز مرجع  به ترتیب ماتریس‌های اتصال  و  موجود می‌باشند. شباهت خوشه‌بندی‌ها به صورت رابطه زیر تعریف می‌شود:
(۲-۶۳)
در رابطه بالا  توافق[۱۳۴] (اشاره به معیار توافقی برای ارزیابی) بین دو ماتریس است که رویکرد‌های متنوعی برای محاسبه آن وجود دارد. روش پیشنهادی لی‌مین از معیار  برای محاسبه  استفاده می‌کند. مطابق با رابطه بالا می‌توان نتیجه گرفت که شبیه‌ترین  به  و باکیفیت‌ترین  دارای بالاترین مقدار  می‌باشد. به طور مشابه، پراکندگی خوشه‌بندی به صورت رابطه زیر تعریف می‌شود: [۸۵]
(۲-۶۴)
بدیهی است که  با بیش‌ترین پراکندگی دارای بالاترین مقدار  می‌باشد. در روش لی‌مین استفاده همزمان معیار کیفیت و پراکندگی به عنوان یک راهکار مناسب جهت انتخاب خوشه معرفی می‌شود. از آنجایی که گاهی اوقات این دو عامل متناقض در نظر گرفته می‌شوند، این روش یک تناظر[۱۳۵] بین این دو معیار در افرازبندی‌ها برقرار می‌کند. از این روی رابطه زیر توسط لی‌مین برای ترکیب کیفیت و پراکندگی پیشنهاد می‌شود: [۸۵]
(۲-۶۵)
در رابطه بالا پارامتر  برای متعادل کردن معیار‌های پراکندگی و کیفیت استفاده می‌شود که در این روش پیشنهادی  در نظر گرفته شده است. با محاسبه رابطه (۱-۷) برای تمامی افراز‌ها در خوشه‌بندی‌ها مطابق روش لی‌مین می‌توان یک ارزیابی از خوشه‌ها داشت که بر اساس آن  تا از بهترین افراز‌ها (  ) جهت ساخت کمیته[۱۳۶] ترکیب انتخاب می‌شود. قابل‌ذکر است که اگر  برابر با  باشد تمامی افراز‌ها در ترکیب نهایی شرکت می‌کنند و اگر  برابر با یک باشد فقط یک افزار نتیجه نهایی را می‌سازد و در صورتی که  باشد متناسب با تعادل بین دقت و پراکندگی افراز‌ها انتخاب می‌شوند [۸۵].
۲-۴-۴-۳. چهارچوب الگوریتم خوشه‌بندی انتخابی لی‌مین
از آنجایی که اثر انتخاب افراز‌ها در نتیجه خوشه‌بندی نهایی متفاوت است در این روش یک وزن برای کنترل الگوریتم پیشنهاد می‌شود. برای هر افراز انتخاب‌شده، میانگین مقادیر تابع  مطابق با رابطه ۱-۷ به عنوان وزن آن افزار به صورت زیر انتخاب می‌شود: [۸۵]

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...