تشخیص پلاگاریسم به کمک گراف در متون فارسی۹۳- فایل ۴ |
![]() |
در [۹] متون را به دنبالههایی با طول کلمه آن کد کرده و از معیار فاصلهی nگرام مبتنی بر بردار برای انتخابهای کاندیداها استفاده کردند.
۲-۲-۴ روش تشخیص پلاگاریسم خارجی
تشخیص پلاگاریسم خارجی مبتنی بر مجموعه نوشته های خارجی است که متون آنها ممکن است پلاگاریسم شده باشند. یک متن می تواند شامل پاراگراف، یک بلاک از کلمات با سایز ثابت، یک بلاک از جملات و غیره باشد. پلاگاریسم در یک داکیومنت مشکوک با جستجوی متنهایی که تکراری یا نزدیک به تکراری با متن مجموعه هستند صورت میگیرد. یک سیستم پلاگاریسم خارجی، این یافته ها را به کنترل کننده های انسانی گزارش میدهد و آنها هستند که تصمیم میگیرند که آیا متنهای یافته شده دزدی هستند یا نه. این قبیل سیستمها در مرجع [۱۰] برای پیدا کردن داکیومنتهای تکراری یا نزدیک به تکراری استفاده شده است.
روش دیگر برای پیدا کردن تکرارها براساس درهمسازی شاخص ها است. چنین روشهایی یک یا چند شاخص را ایجاد می کنند، که محتوای داکیومنت یا متن را در خود حمل می کنند. اولین سیستم تولید کننده شاخص که از این روش استفاده می کند در مرجع [۲] آمده است. تشخیص پلاگاریسم خارجی، می تواند به عنوان مسئله نزدیکترین همسایه در فضای برداری نیز در نظر گرفته شود.
۲-۳ روشهای محاسبه میزان شباهت گرافها
از آنجایی که در ادامه این پایان نامه هدف ما ارائه و پیادهسازی راهکاری در زمینه تشخیص متن با بهره گرفتن از گراف است، بنابراین همانطور که در بخش “توضیح مسئله” گفته شد، مقایسه متون در قالب گراف از اهمیت ویژهای برخوردار است. مفاهیم شباهت گراف، فاصلهی گراف و تطبیق گراف پایه های اصلی روشهای تشخیص پلاگاریسم مبتنی بر گراف هستند. ما در این بخش به ارائه روشهای موجود در زمینه مشخص کردن شباهتها، فاصلهها و انطباق گرافها میپردازیم.
۲-۳-۱ روش بزرگترین زیرگراف مشترک - کوچکترین سوپرگراف مشترک
در [۱۲] نشان داده شده است که یک رابطه مستقیم بین فاصلهی ویرایش گراف و بزرگترین زیرگراف مشترک دو گراف وجود دارد. به طور ویژه، هر دو تحت محدودیتهای خاصی روی تابع هزینه معادل هم هستند. یک گراف g ، یک بزرگترین زیرگراف مشترک (mcs) گرافهای و است و توسط عبارت مشخص می شود، اگر:
-
- هیچ زیرگراف با شرایط g وجود نداشته باشد به طوری که .
به طور مشابه، بخش دوم کامل کننده این ایده یعنی کوچکترین سوپرگراف مشترک که توسط عبارت مشخص می شود، باید در شرایط زیر صدق کند:
-
- هیچ سوپرگراف دیگری وجود ندارد که در شرایط ۱ و ۲ صدق کند اما .
راهبرد کلی شامل ایجاد یک گراف تطبیقی برای دو گراف مورد مقایسه و پیدا کردن بزرگترین دسته در آن است. آنچه [۱۲] نشان داده این است که زمانی که تابع تطبیق ویرایش را بر اساس فاصله ویرایش گراف محاسبه میکنیم، تحت شرایط خاصی روی ضرایب هزینه، تابع با کمترین هزینه معادل بزرگترین زیرگراف مشترک بین دو گراف است. این اثبات بسیار خوشایند است، زیرا بزرگترین زیرگراف مشترک بخشی از دو گراف است که تحت عملیات ویرایشی حذف و اضافه نودها و لبهها بدون تغییر مانده است. برای ویرایش گراف برای تبدیل آن به گراف تنها باید مراحل زیر طی شوند:
-
- حذف نودها و لبههایی از که در ظاهر نمیشوند.
-
- انجام هرگونه جایگزینی نود یا لبه.
-
- اضافه کردن نودها و لبههایی از که در ظاهر نمیشوند.
با در نظر گرفتن این نکته که سایز بزرگترین زیرگراف مشترک متناظر شباهت بین دو گراف است، در [۱۳] یک معیار فاصله براساس mcs معرفی شده است. این معیار در فرمول زیر نشان داده شده است:
که max(x,y) ماکزیمم دو عدد x و y، و نشان دهنده سایز یک گراف است. هر چه زیرگراف مشترک بزرگتر باشد، کوچکتر می شود و نشاندهنده شباهت بیشتر و فاصلهی کمتر است. اگر دو گراف یکی باشند اندازه زیرگراف مشترک برابر با سایز گرافها خواهد بود و در نتیجه کمترین مقدار ممکن خود را خواهد داشت و برابر صفر خواهد بود. در مقابل اگر دو گراف هیچ وجه اشتراکی نداشته باشند برابر صفر و یک خواهد بود. این معیار فاصله دارای چهار مزیت مهم است:
-
- محدود به تولید عدد در بازه [۰,۱] است.
-
- تنها زمانی که دو گراف یکی باشند فاصله صفر خواهد بود.
-
- فاصلهی بین دو گراف متقارن است.
-
- از نامساوی مثلثی تبعیت کرده و تضمین می کند که معیار فاصله از لحاظ مفهومی درست عمل می کند.
مزیت این روش در حیطهی فاصلهی ویرایش گراف این است که این روش نیاز به مشخص کردن هیچ ضریب هزینهای و پارامتر دیگری ندارد. با این حال، این معیار در همه کاربردها مناسب نخواهد بود.
۲-۳-۲ روش مبتنی بر جستجوی فضای حالت
برای پیدا کردن فاصله در روش فاصله ویرایش گراف ما نیاز به یک تابع تطبیق ویرایش داریم که دارای کمترین هزینه بر اساس ضرایب هزینه موجود باشد. بسته به اندازه گرافها و هزینه های مرتبط با عملیات ویرایش، پیدا کردن کمترین هزینه نگاشت ممکن است نیاز به محاسبه تعداد بسیار زیادی از تمام تطبیقهای ممکن داشته باشد. اگر مجبور نباشیم که فاصلهی دقیق ویرایش بین دو گراف را محاسبه کنیم، میتوانیم از روشهای جستجوی نیمه بهینه با فضای جستجوی کمتر استفاده کنیم. این جستجوها مینیمم سراسری تابع هزینه را پیدا نمیکنند، ولی خیلی سریعتر عمل کرده و پاس
خهای قابل قبولی ارائه می دهند.
هر عمل تطبیق یک حالت در فضای جستجو است. هزینه آن حالت M مقداری در فضای جستجو است که ما میخواهیم آن را کمینه کنیم. در حقیقت M یک همریختی گراف بین زیرگرافهای دو گرافی است که با هم تطبیق میشوند و بیانگر عملیات مورد نیاز برای ویرایش یک گراف برای تبدیل آن به گراف دیگر است. روشهای متعددی برای انجام جستجو در این فضا وجود دارند، از قبیل تپهنوردی، الگوریتمهای ژنتیک و خنکسازی شبیهسازی شده و بسیاری دیگر.
این جستجوها بهترین پاسخ را پیدا نخواهند کرد، اما برای بعضی کاربردها (از قبیل تطبیق گراف برای بازیابی تصاویر یا متون) مشکلساز نخواهند بود. این تکنیکها همچنین نسبت به وضعیت اولیه و مقادیر پارامترها حساس هستند[۱۴].
۲-۳-۳ روشهای احتمالی
در این بخش روش معرفی شده در [۱۵] را که بر پایه تئوری احتمال است، به طور خلاصه بیان میکنیم. در روش احتمالی، سعی بر تطبیق گراف داده GD و گراف مدل ذخیره شده GM است. این گرافها، گرافهای ویژگی معین هستند. یک گراف ویژگی معین، یک گـراف است که A یک مجموعه از ویژگیهای متناظر هر نود است، .
ویژگیها در یک گراف معین باید با همان ویژگیها در گراف مدل منطبق شود، به طوری که نودهای منطبق شده یکسان یا دارای ویژگیهای مشابه باشند. لبهها نیز همچنین دارای ویژگیهای متناظر در گراف مدل هستند ولی در این روش در نظر گرفته نمیشوند. سپس با مفهوم سوپرگروه یک نود مواجه میشویم. یک سوپرگروه یک نود i در گراف G=(V,E) به صورت زیر تعریف می شود:
به عبارت دیگر، سوپرگروه یک نود i مجموعه نودهایی است که i و همه نودهای متصل شده به آن توسط لبهها را در بر دارد. ما سعی داریم که همه سوپرگروهها در گراف داده را با سوپرگروهها در گراف مدل تطبیق دهیم.
مجموعه همه تطبیقهای ممکن بین سوپرگروه Ci در گراف داده GD و سوپرگروه Sj در گراف مدل GM ، دیکشنری نامیده می شود و توسط مشخص می شود. برای حل مسئله اختلاف سایز بین سوپرگروههای داده و مدل، امکان وجود نودهای خالی نیز هست که میتوانند به Sj اضافه شوند تا دو گراف دارای تعداد نودهای برابر شوند. تابعی که نود در Ci را با نودی در Sj منطبق می کند به صورت زیر تعریف می شود:
احتمال خطاهای تطبیق توسط و احتمال خطاهای ساختاری توسط مشخص می شود. با این تعاریف و در نظر گرفتن تعدادی فرض و با بهره گرفتن از قانون بیز و ساختارهای احتمالی دیگر در [۱۵] یک توصیف ریاضی برای احتمال انطباق یک سوپرگروه بین دو گراف ارائه نمودند:
که
فاصله همینگ بین سوپرگروه گراف داده تحت نگاشت f و سوپرگروه گراف مدل، ، و تعداد نودها در است به طوری که به نودهای خالی در نگاشته شده اند.
بعد از ارائه و تشریح این توصیف ریاضی به بیان قوانینی که میتوانند برای به روز کردن تابع انطباق استفاده شوند، پرداخته شده است. روشها شامل قوانین به روز رسانی به فرم زیر هستند:
P(u,v) احتمال اولیه متناظر بودن نود u در گراف داده با نود v در گراف مدل است، درحالی که سایر احتمالها در صورت کسر احتمال شرطی هستند که متناظر با ویژگیهای مرتبط با نود هستند. روشهای تعیین این احتمالها وابسته به کاربرد هستند.
این روش می تواند به عنوان تابع انرژی تطبیق گراف استفاده شود. روش دیگری از این فرمول برای جستجوی ژنتیک تطبیق گرافها استفاده کرده است. در [۱۶] این روش را اصلاح نموده و فاصله ویرایش گراف را به آن اضافه کرده است، روش جدید با رفع نیاز به اضافه کردن نود خالی باعث سادهتر شدن مدل و ایجاد مدل بهتر شده است.
فصل سوم
تئوری پلاگاریسم
این فصل به بیان تئوری پلاگاریسم می پردازد. در مسئله تشخیص پلاگاریسم دو مرحله حائز اهمیت هستند:
فرم در حال بارگذاری ...
[چهارشنبه 1400-08-05] [ 12:28:00 ق.ظ ]
|