چاپ آخرین فایل.pdf- فایل ۳ |
![]() |
روشهای عینی خوشهبندی
روشهای خوشهبندی بسیار متنوع بوده و تفکیک آنها از یکدیگر بسیار مهم است. انتخاب بهترین این روشها برای رسیدن به بهترین نتیجه از بحثهای مهم در این زمینه است. متأسفانه روش مناسبی که بتواند بهترین روش را از بین روشهای متنوع خوشهبندی انتخاب کند وجود ندارد. در اکثر موراد نیز تنها آشنایی محقق و قابل دسترس بودن نرم افزارهای مربوطه است که مبنای استفاده از روش می شود. (مک گریگل و همکاران، ۲۰۰۰)، بر اساس چگونگی پراکنش افراد(گونه ها) در فضای چندبعدی تا حدودی این خلآ را پر کردند(شکل ۳-۳). در این روش هر کدام از متغیرها یک بعد از این فضا هستند که هر کدام از افراد نیز در این فضای چند بعدی یک مکان را اشغال می کنند. جایگذاری افراد در این فضای چند بعدی ابر نقاطی را به وجود می آورد که اشکال متفاوتی را موجب می شود(شکل ۳-۳). علت تنوع در شکل ابر نقاط به ماهیت داده ها و ارتباط بین متغیرها، ارتباط بین افراد و ارتباط بین متغیرها و افراد بر میگردد. با بهره گرفتن از ابر نقاط تا حدودی می توان تعداد خوشههایی که باید استخراج یابند و ارتباط بین آنها را نیز تخمین زد. با افزایش تعداد ابعاد(به سه و چهار و بیشتر) نمایش گرافیکی تعداد خوشه ها سخت می شود ولی مفهوم خوشه تغییری نمیکند(افرادی که در فضای چند بعدی در کنار یکدیگر قرار دارند و ابر نقاط حاصل از آنها در فضای چند بعدی جدا از ابر نقاط خوشههای دیگر قرار گرفته است).
روشهای متفاوت خوشهبندی تنها قادر خواهند بود شکلهای مشخصی از ابر نقاط را پیدا کنند و بر اساس آن خوشهبندی را انجام دهند و برای خوشه بندی با خوشههایی که ابر نقاط آنها از شکل دیگری پیروی می کنند مناسب نیستند. اکثر روشهای خوشهبندی مشکلی در ارتباط با استخراج خوشههایی که ابر نقاط آنها شبیه به شکل (۳-۳ الف) ندارند. ولی بیشتر رو ها با ابر نقاط شبیه به شکلهای دیگر مشکل دارند.
شکل ۲-۳: پراکنش افراد در فضای دو بعدی برای نمایش اشکال متفاوت خوشه
روشهای خوشهبندی متفاوتی وجود دارد که برای تمایز آنها از یکدیگر از پنج خصوصیت استفاده می شود. ابتدا به تعریف این خصوصیات پرداخته سپس روش انتخابی برای خوشهبندی داده های این پژوهش را معرفی میکنیم (مک گریگل و همکاران، ۲۰۰۰):
-
- روشهای انحصاری در مقابل روشهای غیر انحصاری: روشهای انحصاری روشهایی هستند که هر گونه تنها به یک گروه تعلق میگیرد در حالی که روشهای غیر انحصاری یک فرد به یک یا چند گروه تعلق میگیرد. روشهای کلاسیک خوشهبندی از جمله روشهای انحصاری و روشهای خوشهبندی فازی از جمله روشهای غیر انحصاری هستند.
-
- روشهای تکرار توالی در مقابل روشهای همزمان: در روشهای تکرار توالی عمل خوشهبندی در دفعات متفاوت بر روی افراد انجام میگیرد در حالیکه در روشهای همزمان این عمل به طور آنی بر روی همه افراد انجام می شود.
-
- روشهای سلسله مراتبی در مقابل روشهای غیرسلسله مراتبی: در روشهای سلسله مراتبی خوشه ها به شکل سلسله مراتبی از خوشههای یزرگ تا کوچک و یا برعکس از خوشههای کوچک تا بزرگ تعیین میشوند. به عبارت دیگر در این روشها افراد در یک خوشه قرار میگیرند که خود این خوشه نیز به خوشههای دیگری تقسیم می شود. در روشهای غیرسلسله مراتبی افراد به طور مستقیم در خوشههای متفاوتی قرار میگیرند.
-
- روشهای تجمعی در مقابل روشهای مقسمی: در روشهای تجمعی شبیهترین گونه ها در یک خوشه قرار گرفته و این خوشه ها با خوشههای دیگر تلفیق شده تا خوشه بزرگتری را به وجود آورند و این عمل تا رسیدن به بزرگترین خوشه که همه گونه ها در آن قرار دارند ادامه مییابد. در روشهای مقسمی ابتدا گونه ها به دو خوشه تقسیم شده سپس این خوشه ها به خوشههای ریزتری تقسیم میشوند و این عمل تا رسیدن به خوشههایی که ارزش اکولوژیکی داشته ادامه مییابد.
-
- روشهای چندصفتی در مقابل روشهای تک صفتی: برای قراردادن گونه ها در خوشههای متفاوت در روشهای چندصفتی از تمامی خصوصیات(متغیرها) آنها استفاده می شود در صورتی که در روشهای تک صفتی تنها از یک ویژگی(متغیر) برای خوشهبندی استفاده می شود.
روشهای سلسله مراتبی
در روشهای سلسله مراتبی افراد شبیه به هم در یک خوشه قرار میگیرند و در هر خوشه نیز زیر طبقاتی استخراج می شود. یکی از مزیتهای روشهای سلسله مراتبی این است که در هر سطح از سلسله مراتب می توان اطلاعات مشخصی را استخراج کرد. برای داده-های بزرگ که در خوشههای حاصل از آنها ۵۰ یا تعداد افراد بیشتری قرار میگیرد این روش کارایی خود را از دست می-دهد ولی روشهای غیر سلسله مراتبی برای داده های با حجم زیاد بکار میروند. در روشهای سلسله مراتبی همه افراد خوشهبندی میشوند و امکان تصحیح خوشهبندیهای ضعیف وجود ندارد و اطلاعات اضافی و افراد پرت نیز خوشهبندی میشوند که این موضوع منجر به درک نادرست از روابط بین خوشه ها می شود. این مشکل در روشهای غیرسلسله مراتبی وجود ندارد. روشهای سلسله مراتبی روابط بین خوشه ها را آشکار می کنند درحالیکه در روشهای غیرسلسله مراتبی این روابط استخراج نمی شود. در انتخاب بین روشهای سلسله مراتبی و غیرسلسله مراتبی به نکات زیر باید توجه شود:
-
- برای خوشهبندی داده های با حجم کم از روشهای سلسله مراتبی استفاده کنید.
-
- برای خوشهبندی داده های با حجم زیاد ابتدا از روشهای غیرسلسله مراتبی استفاده کنید.
و سپس بر روی خوشههای استخراجی که تعداد افراد آن زیاد است روشهای سلسله مراتبی را انجام دهید. از نظر هدف و روش کار روشهای سلسله مراتبی بسیار متنوع هستند. این روشها به دو گروه تجمعی و مقسمی تقسیم میشوند. روشهای مقسمی به دو گروه تک صفتی و چندصفتی تقسیم شده که در تک صفتی تنها از یک متغیر برای خوشهبندی و در چندصفتی از همه متغیرها برای خوشهبندی گونه ها استفاده می شود در حالیکه روشهای تجمعی تنها چند صفتی هستند و از اطلاعات همه متغیرها برای خوشهبندی گونه ها استفاده می شود.
روشهای غیر سلسله مراتبی
بوم شناسان در اکثر موارد تعداد زیادی متغیر را بر روی افراد یا گونه های مختلف اندازه گیری می کنند و برای استخراج الگوهای مهم مبادرت به حذف اطلاعات اضافی می کنند تا الگوی مورد نظر آنها در زیر اطلاعات اضافی و پرت پنهان نماند. روشهای خوشهبندی غیر سلسله مراتبی راه حل مناسبی برای رسیدن به این هدف است. این روشها اساساً هر گونه را در یک خوشه قرار می دهند و رابطه بین خوشههای مختلف در آنها مشخص نمی شود. در همه این روشها همگنی درون خوشه ها افزایش مییابد و این امر امکان استنباط درباره خصوصیات هر گونه بر اساس عضویتش در خوشه را ممکن میسازد. این خصوصیت باعث می شود افراد اضافی و پرت شناخته شوند. در حالیکه در روشهای سلسله مراتبی شناخت افراد و اطلاعات اضافی به طور مشخص امکان پذیر نیست. با این وجود در روشهای غیر سلسله مراتبی روابط بین خوشههای استخراجی مشخص نمی شود در حالیکه در روشهای سلسله مراتبی این امر امکان پذیر است. این روشها به دو گروه مقسمی و تجمعی تقسیم میشوند که خوشهبندی ترکیبی از جمله روشهای مقسمی و روشهای مبتنی بر K و روش حداقل واریانس جداسازی از جمله روشهای تجمعی است.
-
- روش خوشهبندی K-Means(C-Means یا C-Centeriod)
این روش علیرغم سادگی آن یک روش پایه برای بسیاری از روشهای خوشهبندی دیگر(مانند خوشهبندی فازی) محسوب میشود. این روش روشی انحصاری و مسطح محسوب میشود. برای این الگوریتم شکلهای مختلفی بیان شده است. ولی همه آنها دارای روالی تکراری هستند که برای تعدادی ثابت از خوشهها سعی در تخمین موارد زیر دارند:
-
- بدست آوردن نقاطی به عنوان مراکز خوشهها که این نقاط در واقع همان میانگین نقاط متعلق به هر خوشه هستند.
-
- نسبت دادن هر نمونه داده به یک خوشه که آن داده کمترین فاصله تا مرکز آن خوشه را دارا باشد.
در نوع سادهای از این روش ابتدا به تعداد خوشههای مورد نیاز نقاطی به صورت تصادفی انتخاب میشود. سپس در دادهها با توجه با میزان نزدیکی(شباهت) به یکی از این خوشهها نسبت داده میشوند و بدین ترتیب خوشههای جدیدی حاصل میشود. با تکرار همین روال میتوان در هر تکرار با میانگینگیری از دادهها مراکز جدیدی برای آنها محاسبه کرد و مجدادأ دادهها را به خوشههای جدید نسبت داد. این روند تا زمانی ادامه پیدا میکند که دیگر تغییری در داده ها حاصل نشود.
نقاط قوت روش K-MEANS
-
- این روش در حل مسایل بزرگ کارا است،
-
- این روش در برخی از مواقع در بهینه موضعی توقف می کند،
-
- خوشههای این روش محدبی شکل هستند.
-
- این روش مناسب داده های کمی است،
-
- عملکرد آن تحت تاثیر مرکز آغازین قرار میگیرد.
نقاط ضعف روش K-MEANS
-
- روش K-means تنها هنگامی کاربرد دارد که بتوان مراکز خوشه ها را تعریف نمود. مثلاً برای دادههایی با صفات ردهای این روش کارا نیست.
-
- همچنین در این روش کاربر K را از قبل تعیین می کند و راه خاصی برای تعیین آن مشخص نشده است.
-
- یکی از مهمترین نقاط ضعف این روش این است که در برابر نویزها و داده های دور از مرکز حساس است زیرا این داده ها به راحتی مراکز را تغییر می دهند و ممکن است نتایج مطلوبی حاصل نشود.
فرم در حال بارگذاری ...
[سه شنبه 1400-08-04] [ 09:46:00 ب.ظ ]
|