مقالات و پایان نامه ها درباره :خوشهبندی مبتنی بر انتخاب بر اساس نظریه خرد جمعی- فایل ... |
![]() |
در رابطه بالا هر چه معیار بزرگتر باشد پراکندگی بین دو خوشهبندی مورد ارزیابی بیشتر خواهد بود. این معیار برای هر دو خوشهبندی مساوی برابر با صفر میباشد. از طرف دیگر در ساخت یک ترکیب مناسب باید معیار دقت نیز در نظر گرفته شود تا نتایج نامطلوب، کارایی کل سیستم را مورد تأثیر قرار ندهند. از این روی روش پیشنهادی ژیا یک تابع جدید برای ارزیابی هم زمان دقت و پراکندگی مطابق با رابطه زیر با عنوان پیشنهاد کرده است [۸۶].
(۲-۵۸)
شکل (۲-۲۸) نشاندهندهی منحنی تابع بر اساس در بازه بین صفر الی یک میباشد. این شکل نشان میدهد که هر گاه مقدار یک و یا صفر باشد مقدار صفر است. این تحقیق خوشهبندیهایی با مقدار صفر را به عنوان نویز در نظر میگیرد و در صورت برابر بودن نتایج دو خوشهبندی (که مقدار آن دو برابر یک میباشد) در این روش یکی از آن دو نتیجه مورد استفاده قرار میگیرد. مطابق تعاریف بالا تنوع نتایج اولیه انتخابشده در این روش در حد متوسط[۱۲۸] میباشد [۸۶].
شکل ۲-۲۸. گراف تابع در بازه بین صفر و یک [۸۶].
۲-۴-۳-۲. انتخاب خوشهبندی بر اساس قانون نزدیکترین همسایه در روش ژیا
در خوشهبندی مبتنی بر انتخاب پیشنهادی این تحقیق دو فرایند انجام میشود. ابتدا افرازبندی یک مجموعه خوشهبندی به تعداد زیرمجموعههای همگن تقسیم میشود و سپس از هر یک از آنها یک خوشهبندی نماینده انتخاب میشود. افرازبندی خوشهبندیها بر اساس مفاهیم نزدیکترین همسایه با بهره گرفتن از معیار پراکندگی (که در بخش قبل شرح داده شده است) انجام میشود که در انجام این کار، ابتدا زوج فاصلهی میان مؤلفههای خوشهبندی را محاسبه میکنیم و سپس بر اساس تعاریف بخش قبل نزدیکترین همسایه را حذف میکنیم. این فرایند آن قدر تکرار میشود تا تمام خوشههای باقیمانده یا انتخاب شوند یا حذف شوند. در این روش تعداد خوشهبندیهایی که قرار است در فرایند بالا انتخاب شوند از قبل تعریف میشوند. مطابق این تعاریف روش پیشنهادی ژیا را به صورت زیر تعریف میکنیم: [۸۶]
فرض کنید که تعداد خوشهبندیهای اصلی باشد و مجموعهی اصلی خوشهبندی به صورت و فاصلهی بین خوشههای و به صورت تعریف شوند که در آن برای محاسبه معیار از تعاریف بخش قبل استفاده میکنیم و فاصلهی بین خوشهبندی و نزدیکترین همسایه آن در زیرمجموعه کاهشیافته را با نشان میدهیم. شبه کد شکل زیر مراحل اجرای روش پیشنهادی ژیا را نشان میدهد: [۸۶]
Step 1: Initialize the reduced subset to the original set O; Step 2: For each clustering , compute Step 3: Find clustering for which is the minimum. Retain it in and discard its nearest neighbors (Note: denotes the clustering for which removing its nearest neighbors will cause minimum error among all clusterings in ). Step 4: Repeat steps 2 and 3 until the predefined number of clusterings is achieved. Step 5: Return to as the reduced clustering set. After the selection process, we apply a consensus function to this subset and get a consensus partition. |
شکل ۲-۲۹. الگوریتم خوشهبندی ترکیبی طیفی مبتنی بر انتخاب بر اساس شباهت [۸۶]
در شکل بالا ابتدا زیرمجموعه کاهشیافته ایجاد میشود. سپس برای هر خوشهبندی مقدار محاسبه میشود. آنگاه خوشهبندی به نحوی انتخاب میشود که مقدار آن کمینه باشد. دو فرایند محاسبه و پیدا کردن آن قدر تکرار میشود تا مطابق با تعداد از قبل تعریفشده نتیجهی خوشهبندی به دست آوریم. در انتها با بهره گرفتن از یک تابع توافقی خوشهبندیها را باهم ترکیب کرده و نتیجه نهایی را به دست میآوریم [۸۶].
۲-۴-۴. خوشهبندی ترکیبی انتخابی لیمین
این الگوریتم توسط لیمین و همکاران ارائه شده است که ما آن را با عنوان خوشهبندی ترکیبی انتخابی[۱۲۹] لیمین میشناسیم. در این الگوریتم ابتدا به این موضوع اشاره میشود که چون معمولاً در روشهای مبتنی بر انتخاب تمامی مقایسهها بر اساس یک افزار مرجع صورت میگیرد، کیفیت این افراز بر روی نتایج نهایی تأثیر به سزایی دارد. از این روی در این روش دو رویکرد پیشنهاد میشود: ابتدا برای انتخاب بهترین افراز مرجع بر اساس ارزیابی اعتبار خوشهبندی راهحلی پیشنهاد میشود و سپس یک راهکار انتخاب خوشهی جدید با بهره گرفتن از وزن اعضا پیشنهاد میشود. در ادامه روش پیشنهادی لیمین و همکاران را شرح میدهیم: [۸۵]
فرض کنید مجموعهی تایی از نقــــاط داده و مجموعهی تایی افرازهای خوشهبندی بر روی این مجموعه داده میباشد. هر افراز شامل مجموعه خوشههای میباشد که تعداد خوشههای افراز است و رابطه همواره برقرار میباشد. هدف این روش انتخاب زیرمجموعهی بر اساس راهکار انتخاب خوشه پیشنهادی آن (که در ادامه بررسی خواهیم کرد) از مجموعه و ساخت نتیجه نهایی مطابق با زیرمجموعهی با بهره گرفتن از تابع توافقی میباشد [۸۵].
۲-۴-۴-۱. انتخاب افراز مرجع در روش لیمین
همان طور که پیشتر ذکر شد انتخاب افزار مرجع در خوشهبندی مبتنی بر انتخاب مهم میباشد و تأثیر به سزایی در کیفیت نتیجه نهایی دارد. هر چه افراز مرجع باکیفیتتر باشد میتواند تأثیر کیفیت پایین نتایج تولیدشده را از بین ببرد. از این روی باکیفیتترین افراز باید به عنوان افراز مرجع انتخاب شود. معمولاً بهترین خوشهبندی را به صورتی که اعضای داخل خوشه نسبت به هم شبیهتر و نسبت به اعضای سایر خوشهها متفاوتتر باشند تعریف میکنیم. در روش پیشنهادی لیمین از غلظت[۱۳۰] و جدایی[۱۳۱] به عنوان معیار کیفیت استفاده شده است که ما آن را شرح میدهیم. ابتدا میانگین مجموعه دادهی را به صورت و وردایی[۱۳۲] مجموعه داده را به صورت محاسبه میکنیم که در آن فاصلهی دو دادهی و میباشد. مطابق تعاریف بالا غلظت افراز به صورت رابطه زیر تعریف میشود [۸۵].
(۲-۵۹)
این الگوریتم برای بر اساس توزیع گوسی جدایی را مطابق رابطه زیر تعریف میکند:
(۲-۶۰)
در رابطه بالا ثابت گوسی (بر اساس تنظیم میشود) و پارامترهای و به ترتیب مراکز و میباشد. برای اعتبارسنجی کیفیت خوشهها روش لیمین مطابق رابطه زیر دو معیار غلظت و جدایی را در یک تابع مشترک ادغام میکند: [۸۵]
(۲-۶۱)
در این رابطه پارامتر برای کنترل تأثیرات دو معیار غلظت و جدایی است که در این روش در نظر گرفته شده است تا تأثیرات دو معیار برابر باشد. در ادامه این روش مقدار را برای تمامی محاسبه کرده و افرازی که مقدار آن کمینه باشد را به عنوان افراز مرجع در نظر میگیرد و آن را نامگذاری میکند [۸۵].
۲-۴-۴-۲. راهکار انتخاب خوشه در روش لیمین
منظور از راهکار انتخاب خوشه، گزینش بهترین افرازهای خوشهبندی از میان تمامی افرازهای تولیدشده میباشد. انتخاب راهکار مناسب موجب میشود که در افرازهای انتخابشده ویژگیهای ضمنی مجموعه داده منعکس شود و عملکرد خوشهبندی را بهبود یابد. روش لیمین یک راهکار بر اساس معیار کیفیت و پراکندگی برای انتخاب خوشه پیشنهاد میکند که ما آن را در ادامه بررسی خواهیم کرد [۸۵].
در روشهای بدون ناظر، مسئله خوشهبندی بدون برچسب عمل میکند. بنابراین تناظر روشنی بین نتایج فراهمشده با بهره گرفتن از خوشههای مختلف نیست. برای مثال نتایج دو خوشهبندی و مشابه در نظر گرفته میشوند. برای حل این مشکل این روش یک ماتریس اتصال[۱۳۳] را تعریف میکند. در این تعریف مجموعه افرازهای به صورت رابطه زیر به ماتریس اتصال تبدیل میشود: [۸۵]
(۲-۶۲)
مطابق رابطه بالا شکل زیر ماتریس اتصال مثال ذکرشده (برای افرازهای و ) را نشان میدهد:
شکل ۲-۳۰. مثالی از ماتریس اتصال [۸۵].
حال فرض کنید برای مجموعه افرازهای و افراز مرجع به ترتیب ماتریسهای اتصال و موجود میباشند. شباهت خوشهبندیها به صورت رابطه زیر تعریف میشود:
(۲-۶۳)
در رابطه بالا توافق[۱۳۴] (اشاره به معیار توافقی برای ارزیابی) بین دو ماتریس است که رویکردهای متنوعی برای محاسبه آن وجود دارد. روش پیشنهادی لیمین از معیار برای محاسبه استفاده میکند. مطابق با رابطه بالا میتوان نتیجه گرفت که شبیهترین به و باکیفیتترین دارای بالاترین مقدار میباشد. به طور مشابه، پراکندگی خوشهبندی به صورت رابطه زیر تعریف میشود: [۸۵]
(۲-۶۴)
بدیهی است که با بیشترین پراکندگی دارای بالاترین مقدار میباشد. در روش لیمین استفاده همزمان معیار کیفیت و پراکندگی به عنوان یک راهکار مناسب جهت انتخاب خوشه معرفی میشود. از آنجایی که گاهی اوقات این دو عامل متناقض در نظر گرفته میشوند، این روش یک تناظر[۱۳۵] بین این دو معیار در افرازبندیها برقرار میکند. از این روی رابطه زیر توسط لیمین برای ترکیب کیفیت و پراکندگی پیشنهاد میشود: [۸۵]
(۲-۶۵)
در رابطه بالا پارامتر برای متعادل کردن معیارهای پراکندگی و کیفیت استفاده میشود که در این روش پیشنهادی در نظر گرفته شده است. با محاسبه رابطه (۱-۷) برای تمامی افرازها در خوشهبندیها مطابق روش لیمین میتوان یک ارزیابی از خوشهها داشت که بر اساس آن تا از بهترین افرازها ( ) جهت ساخت کمیته[۱۳۶] ترکیب انتخاب میشود. قابلذکر است که اگر برابر با باشد تمامی افرازها در ترکیب نهایی شرکت میکنند و اگر برابر با یک باشد فقط یک افزار نتیجه نهایی را میسازد و در صورتی که باشد متناسب با تعادل بین دقت و پراکندگی افرازها انتخاب میشوند [۸۵].
۲-۴-۴-۳. چهارچوب الگوریتم خوشهبندی انتخابی لیمین
از آنجایی که اثر انتخاب افرازها در نتیجه خوشهبندی نهایی متفاوت است در این روش یک وزن برای کنترل الگوریتم پیشنهاد میشود. برای هر افراز انتخابشده، میانگین مقادیر تابع مطابق با رابطه ۱-۷ به عنوان وزن آن افزار به صورت زیر انتخاب میشود: [۸۵]
فرم در حال بارگذاری ...
[چهارشنبه 1400-08-05] [ 12:47:00 ق.ظ ]
|