طرح های پژوهشی دانشگاه ها با موضوع تشخیص هرزنامه وب به کمک تکنیک های داده کاوی- فایل ۱۰ |
![]() |
غیرقابل طبقه بندی
۳-۱-۲UK2007 -:
این مجموعه داده یک مجموعه بزرگ از میزبانهای هرزنامه و غیرهرزنامه است که مبتنی بر کاوش روی دامنه های uk می باشد که در می ۲۰۰۷ انجام گرفته است. مجموعه Web Spam UK2007 ، ۴۷۷۵ میزبان دارد که ۴۵۹۳ تا به عنوان عادی و ۱۸۲ تا به عنوان هرزنامه برچسب گذاری شده اند.
یکسری از ویژگی های از پیش محاسبه شده روی این میزبانها وجود دارد، بطورکلی UK2007، ۳۰۵ ویژگی را در برمی گیرد که به سه دسته متفاوت تقسیم می شوند ازجمله:
ویژگی های مستقیم:
این ویژگی ها فایل گراف محاسبه شده است و دو ویژگی را شامل می شود:
تعداد صفحات در میزبان
تعداد کاراکترها در نام میزبان
ویژگی های مبتنی بر لینک:
Feature set 2a: این مجموعه ویژگی های مبتنی بر لینک برای میزبانها را در بر می گیرد و در هر دو مورد صفحه خانگی و صفحه با بیشینه رتبه صفحه در هر میزبان اندازه گیری شده است. درجه ورودی، درجه خروجی، رتبه صفحه، لبه های متقابل،Trust rank ،truncated pagerank ، تخمین پشتیبان ها[۴۱] و غیره،آنها ۵۸ ویژگی هستند.
Feature set 2b: ویژگی های مبتنی بر لینک تحول یافته که تحولات عددی ساده ویژگی های مبتنی بر لینک برای میزبانها هستند. این تحولات در عمل باعث بهتر شدن طبقه بندی شده اند نسبت به ویژگی های مبتنی بر لینک خام. اغلب نسبتهایی مابین ویژگی ها هستند، درجه ورودی/رتبه صفحه یا Trustrank/pagerank و لگاریتم ویژگی های متفاوت. این ویژگی ها ۱۴۹ مورد می باشند.
ویژگی های مبتنی بر محتوا:
که تعداد کلمات در صفحه اصلی، میانگین طول کلمات، میانگین طول عنوان و غیره را برای یک نمونه از صفحه روی هاست در بر می گیرد. آنها ۹۶ ویژگی هستند ]۴۶[.
۳-۱-۳- مجموعه داده جمعآوری شده با بهره گرفتن از جستجویMSN:
یک مجموعه از ۱۰۵۴۸۴۴۴۶ صفحات وب که از جستجویMSNجمعآوری شده اند که بهعنوان یک پروکسی برای وب ارائه می شود. این صفحات، در طول آگوست ۲۰۰۴ جمعآوری شده اند و به طور اختیاری از کاوش جستجوی کامل MSN حاصل شده اند.
کاوش جستجوگر MSN، صفحات جدید را با بهره گرفتن از یک سیاست بررسی اول-عرض[۴۲] تشخیص میدهد و از تخمینهای مختلف مهمی برای زمانبندی پیمایش مجدد صفحاتی که تاکنون تشخیص داده شده اند، استفاده می کند.
بنابراین صفحاتی که با بهره گرفتن از چنین سیاستی پیمایش شده اند، ممکن است یک توزیع تصادفی یکنواخت را دنبال نکنند؛ کاوش جستجوی MSN، به سمت صفحات با اتصال خوب، مهم و با کیفیت بالا، گرایش دارد. بهعلاوه، کاوش جستجوی MSN، از هیوریستیکهای زیادی جهت تشخیص هرزنامهی استفاده می کند.
در ابتدا، گرچه این پیمایشگر بر صفحات با اتصال خوب و مهم تمرکز دارد، این صفحات به طور معمول، توسط موتورهای جستجو، رتبه بندی بالایی دارند. بنابراین، تعداد هرزنامه ای که گزارش می شود به طور تقریبی به چیزی که در نهایت توسط کاربران موتورهای جستجو درک می شود، نزدیک میشوند] ۴۹[.
۳-۱-۴- [۴۳]DC2010: DC2010 یک مجموعه بزرگ از میزبان های وب برچسب گذاری شده به وسیله آکادمی علوم مجارستان (اسناد انگلیسی)، بنیاد حافظه اینترنت[۴۴] (به زبان فرانسوی) و L3S هانوفر به زبان آلمانی است، پایه و اساس آن یک مجموعه ۲۳M از صفحات است در ۱۹۰ میزبان در دامنه های .eu که اوایل سال ۲۰۱۰ به وسیله بنیاد حافظه اینترنت پیمایش شده است. برچسب ها حوزه مجموعه داده های قبلی روی هرزنامه وب را گسترش داده اند. به علاوه برای سایت هایی دارای برچسب هرزنامه، طبقه بندی دستی برای نوع و کیفیت قرار داده اند.
انگیزه پشت این روش برچسب گذاری نیاز به یک آرشیو اینترنتی ساختگی است که ممکن است بخواهیم و یا نخواهیم کاملاً هرزنامه را حذف کنیم اما نوع خاصی از محتوا نظیر اخبار یا آموزشی را ماورای سایتهای تجاری ترجیح می دهیم.
هم چنین آنها ممکن است یک اولویت بالاتر به محتوای قابل اعتماد، واقعی و بی طرفانه بدهند که با یک نمره سودمندی[۴۵] ترکیب می شود.
DC2010 میزبان های برچسب گذاری شده با ویژگیهای متفاوت را دربرمی گیرد، اعتماد، واقعی و بی طرفانه بودن، ۵ نوع برای استفاده در طبقه بندی انتخاب شدند. از آنجایی که هیچ برچسب دیگری برای میزبان های هرزنامه ساخته نشده، ویژگیهای دیگر و به ویژه ۵ نوع تحریریه، تجاری، آموزشی، بحث و گفتگو و شخصی غیرمنحصر به فرد هستند و بنابراین مسئله دسته بندی باینری را مطرح کرده اند.
ارزیاب ها نخست به بررسی این مورد می پردازند که چرا میزبان ها نمونه را اصلاً در بر نمی گیرد از جمله بزرگسالان، آمیخته[۴۶] و سایت های طبقه بندی نشده زبانی. سپس هرزنامه وب براساس تعریف کلی “هر عملی که منجر به رتبه بندی نابجا شود، با توجه به ارزش درست صفحه” مورد شناسایی قرار گرفت. ارزیاب ها با مطالعه راهنمای Web Spam UK آموزش داده شدند. در DC2010 سه زبان انگلیسی، آلمانی و فرانسوی برچسب گذاری شده اند، اگرچه که زبان لهستانی و هلندی کسر بزرگتری از زبان فرانسه را در بر می گیرد ]۴۸[.
در جدول ۳-۲ مقدار هرزنامه DC2010 را در مقایسه با Web Spam UK2006 و Web Spam UK2007 خلاصه شده است.
جدول ۳-۲: کسری از هرزنامه ها در DC2010 و Web-spam –UK2006 ]48[
DC2010
UK2007
UK2006
All
fr
de
en
۱۹۰۰۰۰
۷۸۸۸
۲۹۷۵۸
۶۱۷۰۳
۱۱۴۵۲۹
۱۰۶۶۰
فرم در حال بارگذاری ...
[سه شنبه 1400-08-04] [ 11:25:00 ب.ظ ]
|