این مشکل به خصوص در پایگاه داده های تجاری حاد است.اگر پایگاه داده از ابتدا با هدف کشف دانش طراحی نشده باشد ممکن است فاقد برخی ویژگی های مهم باشد.

 

    • روابط پیچیده بین فیلدها

 

ویژگی ها یا مقادیر با ساختار سلسله مراتبی، روابط میان ویژگی­ها و نیز انواع روش­های پیچیده نمایش دانش، نیاز به الگوریتم هایی دارند که به طور موثر از این اطلاعات استفاده کنند.

 

    • قابل درک بودن الگوها

 

در بسیاری از کاربردهای داده کاوی، اینکه کشفیات برای انسان قابل فهم تر شوند، بسیار مهم است]1[.
پایان نامه

2-5 پیش پردازش و آماده سازی داده ها :

آماده سازی داده ها برای داده کاوی هنر چلاندن و فشردن داده های موجود و بیرون کشیدن داده های با ارزش است.آماده سازی نیز به عنوان جزئی از داده کاوی بستگی به نوع مسئله و نیز روش­ها و ابزارهایی دارد که می­خواهیم بر روی داده به کار ببندیم.
آماده سازی داده ها حدود 60 تا 90 درصد زمان مورد نیاز برای کاوش داده را صرف کرده و 75 تا 90 درصد موفقیت پروژه های داده کاوی به آن مربوط می­ شود.ممکن است داده مفقوده یا تکراری باعث گمراهی شوند.می­توان گفت داده ها در عالم واقع دارای آلودگی[14] های زیر هستند :
ناقص[15] : مانند نمونه های ناکافی، کمبود مقادیر برخی مشخصه ها
مغشوش[16] : داده ها دارای خطا یا مقادیر پرت هستند.
ناسازگار[17] : دارای تناقض در کدها و یا نام ها هستند.

2-5-1اجزای اصلی پیش پردازش داده ها

از دیدگاه آمار در بررسی مسائل مرتبط با پیش پردازش داده ها می­توان گفت مشکلات به دو دسته تقسیم می­شوند :

 

    • مسائل مربوط به نمونه مانند نمونه های مفقوده و داده های پرت

 

    • مسائل مربوط به توزیع مانند نرمالیتی و خطی بودن]1[.

 

در ارتباط با دسته نخست می­توان به تفصیل موارد زیر پرداخت.

 

    1. پاکسازی داده

 

اغلب به جهت خطاهای عملیاتی و پیاده سازی سیستم ها، داده های برآمده از منابع دنیای واقعی پرغلط، ناقص و ناسازگار هستند.لذا لازم است در ابتدا چنین داده های کم کیفیتی تمیز شوند.این کار شامل برخی عملیات پایه مانند نرمال سازی، حذف نویز یا اغتشاش، مواجهه با داده ­های مفقوده، کاهش افزونگی، برطرف کردن ناسازگاری و از اینگونه کارها است.

 

    1. یکپارچه سازی داده

 

یکپارچه سازی داده نقش مهمی در KDD ایفا می­ کند.این عملیات شامل یکپارچه سازی چندین پایگاه داده ناهمگن بوده که قبلا به وسیله چندین منبع ایجاد شده است.

 

    1. تبدیل داده

 

این کار شامل عملیاتی همچون هموار سازی، تجمیع و نرمال سازی است.

 

    1. کاهش داده

 

این کار شامل یافتن ویژگی­های مفید برای بازنمایی داده و استفاده از روش­های کاهش بعد، گسسته سازی و استخراج(تبدیل) ویژگی ها است.

 

    1. تصویر کردن برای کاهش بعد

 

تصویر کردن برای کاهش بعد نوعی کاهش ستونی داده است با این فرق که در آن مشخصه­های تغییر یافته جدیدی از روی مشخصه های اولیه ساخته می­شوند.
شکل(2-4)-عملیات مختلف در پاکسازی داده]1[

2-5-1-1 پاکسازی داده ها

پاکسازی داده در واقع مرحله کنترل کیفی قبل از تحلیل داده است. به طور کلی می­توان گفت در این مرحله بررسی های زیر انجام می­ شود:

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...