روش­های عینی خوشه­بندی
روش­های خوشه­بندی بسیار متنوع بوده و تفکیک آن­ها از یکدیگر بسیار مهم است. انتخاب بهترین این روش­ها برای رسیدن به بهترین نتیجه از بحث­های مهم در این زمینه است. متأسفانه روش مناسبی که بتواند بهترین روش را از بین روش­های متنوع خوشه­بندی انتخاب کند وجود ندارد. در اکثر موراد نیز تنها آشنایی محقق و قابل دسترس بودن نرم افزارهای مربوطه است که مبنای استفاده از روش می­ شود. (مک گریگل و همکاران، ۲۰۰۰)، بر اساس چگونگی پراکنش افراد(گونه­ ها) در فضای چندبعدی تا حدودی این خلآ را پر کردند(شکل ۳-۳). در این روش هر کدام از متغیرها یک بعد از این فضا هستند که هر کدام از افراد نیز در این فضای چند بعدی یک مکان را اشغال می­ کنند. جایگذاری افراد در این فضای چند بعدی ابر نقاطی را به وجود می آورد که اشکال متفاوتی را موجب می­ شود(شکل ۳-۳). علت تنوع در شکل ابر نقاط به ماهیت داده ­ها و ارتباط بین متغیرها، ارتباط بین افراد و ارتباط بین متغیرها و افراد بر می­گردد. با بهره گرفتن از ابر نقاط تا حدودی می توان تعداد خوشه­هایی که باید استخراج یابند و ارتباط بین آن­ها را نیز تخمین زد. با افزایش تعداد ابعاد(به سه و چهار و بیشتر) نمایش گرافیکی تعداد خوشه ­ها سخت می­ شود ولی مفهوم خوشه تغییری نمی­کند(افرادی که در فضای چند بعدی در کنار یکدیگر قرار دارند و ابر نقاط حاصل از آن­ها در فضای چند بعدی جدا از ابر نقاط خوشه­های دیگر قرار گرفته است).
پایان نامه - مقاله
روش­های متفاوت خوشه­بندی تنها قادر خواهند بود شکل­های مشخصی از ابر نقاط را پیدا کنند و بر اساس آن خوشه­بندی را انجام دهند و برای خوشه بندی با خوشه­هایی که ابر نقاط آن­ها از شکل دیگری پیروی می­ کنند مناسب نیستند. اکثر روش­های خوشه­بندی مشکلی در ارتباط با استخراج خوشه­هایی که ابر نقاط آنها شبیه به شکل (۳-۳ الف) ندارند. ولی بیشتر رو­ ها با ابر نقاط شبیه به شکل­های دیگر مشکل دارند.

شکل ۲-۳: پراکنش افراد در فضای دو بعدی برای نمایش اشکال متفاوت خوشه
روش­های خوشه­بندی متفاوتی وجود دارد که برای تمایز آن­ها از یکدیگر از پنج خصوصیت استفاده می شود. ابتدا به تعریف این خصوصیات پرداخته سپس روش انتخابی برای خوشه­بندی داده ­های این پژوهش را معرفی می­کنیم (مک گریگل و همکاران، ۲۰۰۰):

 

    1. روش­های انحصاری در مقابل روش­های غیر انحصاری: روش­های انحصاری روش­هایی هستند که هر گونه تنها به یک گروه تعلق می­گیرد در حالی که روش­های غیر انحصاری یک فرد به یک یا چند گروه تعلق می­گیرد. روش­های کلاسیک خوشه­بندی از جمله روش­های انحصاری و روش­های خوشه­بندی فازی از جمله روش­های غیر انحصاری هستند.

 

    1. روش­های تکرار توالی در مقابل روش­های همزمان: در روش­های تکرار توالی عمل خوشه­بندی در دفعات متفاوت بر روی افراد انجام می­گیرد در حالیکه در روش­های همزمان این عمل به طور آنی بر روی همه افراد انجام می­ شود.

 

    1. روش­های سلسله مراتبی در مقابل روش­های غیرسلسله مراتبی: در روش­های سلسله مراتبی خوشه ­ها به شکل سلسله مراتبی از خوشه­های یزرگ تا کوچک و یا برعکس از خوشه­های کوچک تا بزرگ تعیین می­شوند. به عبارت دیگر در این روش­ها افراد در یک خوشه قرار می­گیرند که خود این خوشه نیز به خوشه­های دیگری تقسیم می­ شود. در روش­های غیرسلسله مراتبی افراد به طور مستقیم در خوشه­های متفاوتی قرار می­گیرند.

 

    1. روش­های تجمعی در مقابل روش­های مقسمی: در روش­های تجمعی شبیه­ترین گونه­ ها در یک خوشه قرار گرفته و این خوشه ­ها با خوشه­های دیگر تلفیق شده تا خوشه بزرگتری را به وجود آورند و این عمل تا رسیدن به بزرگترین خوشه که همه گونه­ ها در آن قرار دارند ادامه می­یابد. در روش­های مقسمی ابتدا گونه­ ها به دو خوشه تقسیم شده سپس این خوشه ­ها به خوشه­های ریزتری تقسیم می­شوند و این عمل تا رسیدن به خوشه­هایی که ارزش اکولوژیکی داشته ادامه می­یابد.

 

    1. روش­های چندصفتی در مقابل روش­های تک صفتی: برای قراردادن گونه­ ها در خوشه­های متفاوت در روش­های چندصفتی از تمامی خصوصیات(متغیرها) آن­ها استفاده می­ شود در صورتی که در روش­های تک صفتی تنها از یک ویژگی(متغیر) برای خوشه­بندی استفاده می­ شود.

 

روش­های سلسله مراتبی
در روش­های سلسله مراتبی افراد شبیه به هم در یک خوشه قرار می­گیرند و در هر خوشه نیز زیر طبقاتی استخراج می­ شود. یکی از مزیت­های روش­های سلسله مراتبی این است که در هر سطح از سلسله مراتب می توان اطلاعات مشخصی را استخراج کرد. برای داده-های بزرگ که در خوشه­های حاصل از آن­ها ۵۰ یا تعداد افراد بیشتری قرار می­گیرد این روش کارایی خود را از دست می-دهد ولی روش­های غیر سلسله مراتبی برای داده ­های با حجم زیاد بکار می­روند. در روش­های سلسله مراتبی همه افراد خوشه­بندی می­شوند و امکان تصحیح خوشه­بندی­های ضعیف وجود ندارد و اطلاعات اضافی و افراد پرت نیز خوشه­بندی می­شوند که این موضوع منجر به درک نادرست از روابط بین خوشه ­ها می­ شود. این مشکل در روش­های غیرسلسله مراتبی وجود ندارد. روش­های سلسله مراتبی روابط بین خوشه ­ها را آشکار می­ کنند درحالیکه در روش­های غیرسلسله مراتبی این روابط استخراج نمی­ شود. در انتخاب بین روش­های سلسله مراتبی و غیرسلسله مراتبی به نکات زیر باید توجه شود:

 

    1. برای خوشه­بندی داده ­های با حجم کم از روش­های سلسله مراتبی استفاده کنید.

 

    1. برای خوشه­بندی داده ­های با حجم زیاد ابتدا از روش­های غیرسلسله مراتبی استفاده کنید.

 

و سپس بر روی خوشه­های استخراجی که تعداد افراد آن زیاد است روش­های سلسله مراتبی را انجام دهید. از نظر هدف و روش کار روش­های سلسله مراتبی بسیار متنوع هستند. این روش­ها به دو گروه تجمعی و مقسمی تقسیم می­شوند. روش­های مقسمی به دو گروه تک صفتی و چندصفتی تقسیم شده که در تک صفتی تنها از یک متغیر برای خوشه­بندی و در چندصفتی از همه متغیر­ها برای خوشه­بندی گونه­ ها استفاده می­ شود در حالیکه روش­های تجمعی تنها چند صفتی هستند و از اطلاعات همه متغیرها برای خوشه­بندی گونه­ ها استفاده می­ شود.
روش­های غیر سلسله مراتبی
بوم شناسان در اکثر موارد تعداد زیادی متغیر را بر روی افراد یا گونه­ های مختلف اندازه ­گیری می­ کنند و برای استخراج الگوهای مهم مبادرت به حذف اطلاعات اضافی می­ کنند تا الگوی مورد نظر آن­ها در زیر اطلاعات اضافی و پرت پنهان نماند. روش­های خوشه­بندی غیر سلسله مراتبی راه حل مناسبی برای رسیدن به این هدف است. این روش­ها اساساً هر گونه را در یک خوشه قرار می­ دهند و رابطه بین خوشه­های مختلف در آن­ها مشخص نمی­ شود. در همه این روش­ها همگنی درون خوشه ­ها افزایش می­یابد و این امر امکان استنباط درباره خصوصیات هر گونه بر اساس عضویتش در خوشه را ممکن می­سازد. این خصوصیت باعث می­ شود افراد اضافی و پرت شناخته شوند. در حالیکه در روش­های سلسله مراتبی شناخت افراد و اطلاعات اضافی به طور مشخص امکان­ پذیر نیست. با این وجود در روش­های غیر سلسله مراتبی روابط بین خوشه­های استخراجی مشخص نمی­ شود در حالیکه در روش­های سلسله مراتبی این امر امکان­ پذیر است. این روش­ها به دو گروه مقسمی و تجمعی تقسیم می­شوند که خوشه­بندی ترکیبی از جمله روش­های مقسمی و روش­های مبتنی بر K و روش حداقل واریانس جداسازی از جمله روش­های تجمعی است.

 

    • روش خوشه‌بندی K-Means(C-Means یا C-Centeriod)

 

این روش علی‌­رغم سادگی آن یک روش پایه برای بسیاری از روش‌های خوشه‌­بندی دیگر(مانند خوشه‌بندی فازی) محسوب می‌­شود. این روش روشی انحصاری و مسطح محسوب می‌شود. برای این الگوریتم شکل­های مختلفی بیان شده است. ولی همه آن­ها دارای روالی تکراری هستند که برای تعدادی ثابت از خوشه‌ها سعی در تخمین موارد زیر دارند:

 

    • بدست آوردن نقاطی به عنوان مراکز خوشه‌ها که این نقاط در واقع همان میانگین نقاط متعلق به هر خوشه هستند.

 

    • نسبت دادن هر نمونه داده به یک خوشه که آن داده کمترین فاصله تا مرکز آن خوشه را دارا باشد.

 

در نوع ساده‌ای از این روش ابتدا به تعداد خوشه‌‌های مورد نیاز نقاطی به صورت تصادفی انتخاب می‌شود. سپس در داده‌ها با توجه با میزان نزدیکی(شباهت) به یکی از این خوشه‌ها نسبت داده‌ می‌شوند و بدین ترتیب خوشه‌های جدیدی حاصل می‌شود. با تکرار همین روال می‌توان در هر تکرار با میانگین‌گیری از داده‌ها مراکز جدیدی برای آن­ها محاسبه کرد و مجدادأ داده‌ها را به خوشه‌های جدید نسبت داد. این روند تا زمانی ادامه پیدا می‌کند که دیگر تغییری در داده ­ها حاصل نشود.
نقاط قوت روش K-MEANS

 

    1. این روش در حل مسایل بزرگ کارا است،

 

    1. این روش در برخی از مواقع در بهینه موضعی توقف می­ کند،

 

    1. خوشه­های این روش محدبی شکل هستند.

 

    1. این روش مناسب داده ­های کمی است،

 

    1. عملکرد آن تحت تاثیر مرکز آغازین قرار می­گیرد.

 

نقاط ضعف روش K-MEANS

 

    1. روش K-means تنها هنگامی کاربرد دارد که بتوان مراکز خوشه ­ها را تعریف نمود. مثلاً برای داده­هایی با صفات رده­ای این روش کارا نیست.

 

    1. همچنین در این روش کاربر K را از قبل تعیین می­ کند و راه خاصی برای تعیین آن مشخص نشده است.

 

    1. یکی از مهم­ترین نقاط ضعف این روش این است که در برابر نویزها و داده ­های دور از مرکز حساس است زیرا این داده ­ها به راحتی مراکز را تغییر می­ دهند و ممکن است نتایج مطلوبی حاصل نشود.

 

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...