غیرقابل طبقه بندی

 

 

 

۳-۱-۲UK2007 -:
این مجموعه داده یک مجموعه بزرگ از میزبانهای هرزنامه و غیرهرزنامه است که مبتنی بر کاوش روی دامنه های uk می باشد که در می ۲۰۰۷ انجام گرفته است. مجموعه Web Spam UK2007 ، ۴۷۷۵ میزبان دارد که ۴۵۹۳ تا به عنوان عادی و ۱۸۲ تا به عنوان هرزنامه برچسب گذاری شده اند.
یکسری از ویژگی های از پیش محاسبه شده روی این میزبانها وجود دارد، بطورکلی UK2007، ۳۰۵ ویژگی را در برمی گیرد که به سه دسته متفاوت تقسیم می شوند ازجمله:
ویژگی های مستقیم:
این ویژگی ها فایل گراف محاسبه شده است و دو ویژگی را شامل می شود:
تعداد صفحات در میزبان
تعداد کاراکترها در نام میزبان
ویژگی های مبتنی بر لینک:
Feature set 2a: این مجموعه ویژگی های مبتنی بر لینک برای میزبانها را در بر می گیرد و در هر دو مورد صفحه خانگی و صفحه با بیشینه رتبه صفحه در هر میزبان اندازه گیری شده است. درجه ورودی، درجه خروجی، رتبه صفحه، لبه های متقابل،Trust rank ،truncated pagerank ، تخمین پشتیبان ها[۴۱] و غیره،آنها ۵۸ ویژگی هستند.
پایان نامه - مقاله - پروژه
Feature set 2b: ویژگی های مبتنی بر لینک تحول یافته که تحولات عددی ساده ویژگی های مبتنی بر لینک برای میزبانها هستند. این تحولات در عمل باعث بهتر شدن طبقه بندی شده اند نسبت به ویژگی های مبتنی بر لینک خام. اغلب نسبتهایی مابین ویژگی ها هستند، درجه ورودی/رتبه صفحه یا Trustrank/pagerank و لگاریتم ویژگی های متفاوت. این ویژگی ها ۱۴۹ مورد می باشند.
ویژگی های مبتنی بر محتوا:
که تعداد کلمات در صفحه اصلی، میانگین طول کلمات، میانگین طول عنوان و غیره را برای یک نمونه از صفحه روی هاست در بر می گیرد. آنها ۹۶ ویژگی هستند ]۴۶[.
۳-۱-۳- مجموعه­ داده جمع­آوری­ شده با بهره گرفتن از جستجویMSN:
یک مجموعه از ۱۰۵۴۸۴۴۴۶ صفحات وب که از جستجویMSNجمع­آوری شده ­اند که به­عنوان یک پروکسی برای وب ارائه می­ شود. این صفحات، در طول آگوست ۲۰۰۴ جمع­آوری شده ­اند و به طور اختیاری از کاوش جستجوی کامل MSN حاصل شده ­اند.
کاوش جستجوگر MSN، صفحات جدید را با بهره گرفتن از یک سیاست بررسی اول-عرض[۴۲] تشخیص می­دهد و از تخمین­های مختلف مهمی برای زمانبندی پیمایش مجدد صفحاتی که تاکنون تشخیص داده شده ­اند، استفاده می­ کند.
بنابراین صفحاتی که با بهره گرفتن از چنین سیاستی پیمایش شده ­اند، ممکن است یک توزیع تصادفی یکنواخت را دنبال نکنند؛ کاوش جستجوی MSN، به سمت صفحات با اتصال خوب، مهم و با کیفیت بالا، گرایش دارد. به­علاوه، کاوش جستجوی MSN، از هیوریستیک­های زیادی جهت تشخیص هرزنامه­ی استفاده می­ کند.
در ابتدا، گرچه این پیمایشگر بر صفحات با اتصال خوب و مهم تمرکز دارد، این صفحات به­ طور معمول، توسط موتورهای جستجو، رتبه ­بندی بالایی دارند. بنابراین، تعداد هرزنامه ای که گزارش می­ شود به­ طور تقریبی به چیزی که در نهایت توسط کاربران موتورهای جستجو درک می­ شود، نزدیک می­شوند] ۴۹[.
۳-۱-۴- [۴۳]DC2010: DC2010 یک مجموعه بزرگ از میزبان های وب برچسب گذاری شده به وسیله آکادمی علوم مجارستان (اسناد انگلیسی)، بنیاد حافظه اینترنت[۴۴] (به زبان فرانسوی) و L3S هانوفر به زبان آلمانی است، پایه و اساس آن یک مجموعه ۲۳M از صفحات است در ۱۹۰ میزبان در دامنه های .eu که اوایل سال ۲۰۱۰ به وسیله بنیاد حافظه اینترنت پیمایش شده است. برچسب ها حوزه مجموعه داده های قبلی روی هرزنامه وب را گسترش داده اند. به علاوه برای سایت هایی دارای برچسب هرزنامه، طبقه بندی دستی برای نوع و کیفیت قرار داده اند.
انگیزه پشت این روش برچسب گذاری نیاز به یک آرشیو اینترنتی ساختگی است که ممکن است بخواهیم و یا نخواهیم کاملاً هرزنامه را حذف کنیم اما نوع خاصی از محتوا نظیر اخبار یا آموزشی را ماورای سایتهای تجاری ترجیح می دهیم.
هم چنین آنها ممکن است یک اولویت بالاتر به محتوای قابل اعتماد، واقعی و بی طرفانه بدهند که با یک نمره سودمندی[۴۵] ترکیب می شود.
DC2010 میزبان های برچسب گذاری شده با ویژگیهای متفاوت را دربرمی گیرد، اعتماد، واقعی و بی طرفانه بودن، ۵ نوع برای استفاده در طبقه بندی انتخاب شدند. از آنجایی که هیچ برچسب دیگری برای میزبان های هرزنامه ساخته نشده، ویژگیهای دیگر و به ویژه ۵ نوع تحریریه، تجاری، آموزشی، بحث و گفتگو و شخصی غیرمنحصر به فرد هستند و بنابراین مسئله دسته بندی باینری را مطرح کرده اند.
ارزیاب ها نخست به بررسی این مورد می پردازند که چرا میزبان ها نمونه را اصلاً در بر نمی گیرد از جمله بزرگسالان، آمیخته[۴۶] و سایت های طبقه بندی نشده زبانی. سپس هرزنامه وب براساس تعریف کلی “هر عملی که منجر به رتبه بندی نابجا شود، با توجه به ارزش درست صفحه” مورد شناسایی قرار گرفت. ارزیاب ها با مطالعه راهنمای Web Spam UK آموزش داده شدند. در DC2010 سه زبان انگلیسی، آلمانی و فرانسوی برچسب گذاری شده اند، اگرچه که زبان لهستانی و هلندی کسر بزرگتری از زبان فرانسه را در بر می گیرد ]۴۸[.
در جدول ۳-۲ مقدار هرزنامه DC2010 را در مقایسه با Web Spam UK2006 و Web Spam UK2007 خلاصه شده است.
جدول ۳-۲: کسری از هرزنامه ها در DC2010 و Web-spam –UK2006 ]48[

 

 

DC2010

 

UK2007

 

UK2006

 

 

 

 

 

All

 

fr

 

de

 

en

 

 

 

۱۹۰۰۰۰

 

۷۸۸۸

 

۲۹۷۵۸

 

۶۱۷۰۳

 

۱۱۴۵۲۹

 

۱۰۶۶۰

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...