DAta-mining-data-analysis داده کاوی
DAta-mining-data-analysis داده کاوی

با توجه به دیدگاه های متفاوتی که نویسندگان در مورد داده کاوی، بیان می‌کنند توافق جهانی بر روی توصیف واحدی از داده کاوی و یا حتی آنچه داده کاوی ارائه می‌دهد، وجود ندارد. آیا داده کاوی شکلی از آمار است که با تئوری یادگیری همراه شده است و یا یک پدیده جدید و انقلاب علمی در این مباحث می‌باشد؟ به نظر می‌رسد اکثر مسائل داده کاوی و راه حل‌های متناظر با آن، ریشه در تحلیل داده‌های کلاسیک دارند. داده کاوی ریشه در آموزه‌های متنوعی از دو موضوع، آمار و یادگیری ماشین دارد. آمار، ریشه در ریاضیات دارد و بنابراین، تأکید بر روی دقت ریاضی بوده‌ است. گرایش برای ایجاد و تثبیت مسئله‌ای که قبل از تست عملی آن در زمینه‌های تئوری محسوس و نمایان است. در مقابل سیستم یادگیری ماشین ریشه در کاربرد کامپیوتر دارد. این موضوع منجر به گرایش کاربردی جهت تست مسئله و چگونگی اجرای آن بدون در نظر گرفتن علت کارایی آن می‌شود.

تفاوت در شیوه های داده کاوی

اگر یکی از تفاوت‌های اساسی بین شیوه‌های یادگیری ماشین و آماری در مبحث داده کاوی اهمیتی باشد که به ریاضیات و فرمول‌نویسی می‌دهند، تفاوت دیگر، تأکید متناسبی است که به مدل‌ها و الگوریتم‌ها داده می‌شود. علوم آماری جدید تقریباً به طور کامل، از ایده یک مدل نشأت می‌گیرد. این یک ساختار درخواستی یا یک ساختار تقریبی می‌باشد که می‌تواند منجر به داده‌ها شود. یادگیری ماشین برخلاف تأکیدات آماری بر روی نمونه‌ها، تأکید بر روی الگوریتم دارد. پس جای تعجب است که در خیلی از مواقع کلمه “یادگیری” شامل مفهوم یک فرآیند با یک الگوریتم ضمنی می‌باشد.

داده کاوی و شناخت سیستم

اصول اساسی مدل‌سازی در داده کاوی همچنین ریشه در تئوری کنترل دارد که در ابتدا برای سیستم‌های مهندسی و فرآیندهای صنعتی به کار می‌رفت. موضوع ایجاد یک مدل ریاضی برای یک سیستم ناشناخته و مجهول (که در واقع به همان سیستم هدف اشاره دارد) از طریق مشاهده دقیق زوج‌های داده‌ای ورودی- خروجی عموماً منجر به همان شناسایی سیستم می‌گردد. اهداف شناسایی سیستم متعدد هستند و از نقطه‌نظر داده کاوی مهمترین هدف سیستم، پیش‌بینی عملکرد آن و توضیح تقابل و ارتباط بین متغیرهای یک سیستم می‌باشد.

شناخت سیستم عموماً دو مرحله از بالا به پایین را در بر می‌گیرد:

۱- شناخت ساختار. در این مرحله، ما نیاز داریم تا دانش اولیه‌ای درباره سیستم هدف برای تعیین یک کلاس یا گروه از مدل‌هایی که طی جست‌وجو برای مناسب‌ترین مدل جمع‌آوری شده‌اند را فراهم کنیم. معمولاً این کلاس یا گروه از مدل‌ها به وسیله یک عنصر پارامتری y=f(u,t) نشان داده می‌شوند به نحوی که y خروجی مدل، u بردار ورودی و بالاخره t بردار پارامتر می‌باشد. تشخیص کاربرد f، بر مبنای مسئله بوده (مسئله‌گرا می‌باشد) و عملکرد آن به تجربه طراح، به‌علاوه قوانین طبیعی حاکم بر سیستم هدف بستگی دارد.

۲-شناخت پارامتر. در مرحله دوم زمانی که ساختار مدل شناخته می‌شود، تمام آنچه که لازم است انجام گیرد، به‌کارگیری تکنیک‌های بهینه‌سازی برای تشخیص بردار پارامتر y*=f(u,f*) می‌باشد تا اینکه مدل بدست‌آمده بتواند سیستم را به طور مناسب توصیف کند.

به طور کلی، شناخت سیستم یک فرآیند یک مرحله‌ای نیست، لازم است که شناخت ساختار و شناخت پارامتر به طور مکرر و تکراری انجام شود تا این‌که یک مدل رضایت‌بخش ایجاد گردد. مراحل نمونه در هر تکرار عبارتند از:

  1. تعیین و پارامتربندی یک کلاس یا گروه از مدل‌های فرموله شده (ریاضی)، y*=f(u,t) که نشان‌دهنده سیستمی خواهد بود که باید مورد شناسایی قرار گیرد.
  2. انجام شناخت پارامتر به منظور انتخاب پارامترهایی که بهترین و مناسب‌ترین انتخاب برای مجموعه داده‌های موجود هستند (تفاوت y-y* حداقل و جزئی است).
  3. اجرای آزمون‌های ارزیابی اعتبارسنجی برای تعیین اینکه آیا مدل شناخته شده به درستی به یک مجموعه داده ناپیدا و مشاهده نشده پاسخ می‌دهد (این موضوع اغلب به عنوان تست، اعتبارسنجی یا بررسی مجموعه داده‌ها معرفی می‌شود).
  4. خاتمه فرآیند در زمانی که نتایج تست‌های ارزیابی رضایت‌بخش باشند.

اگر ما هیچ شناخت قبلی و مقدماتی درباره سیستم هدف نداشته باشیم، آنگاه شناسایی ساختار کاری بس دشوار خواهد بود و ما مجبور خواهیم شد تا ساختار را از طریق روش آزمون و خطا انتخاب کنیم. در حالی که ما اطلاعات زیادی درباره ساختار اکثر سیستم‌های مهندسی و فرآیندهای صنعتی داریم، در اکثر سیستم‌های هدف که داده کاوی در آنها استفاده می‌شود، این ساختارها به طور کلی ناشناخته بوده و یا آن قدر پیچیده هستند که به دست آوردن یک مدل ریاضی برای آنها غیرممکن است. بنابراین، تکنیک‌های جدید برای شناخت پارامترها توسعه یافته و امروزه آنها قسمتی از طیف تکنیک‌های داده کاوی هستند.

مدل و الگو در داده کاوی

سرانجام، ما می‌توانیم بین دو اصطلاح “مدل” و “الگو” که در داده کاوی تعریف شده‌اند، تفاوت قائل شویم. در حقیقت، مدل یک ساختار “در مقیاس بزرگ” می باشد و شاید برای خلاصه کردن رابطه‌های بسیاری از مدل‌ها (گاهی همه مدل‌ها) در حالی که الگو یک ساختار محلی می‌باشد و در موارد و حالات معدودی یا در یک منطقه کوچک از فضای داده رضایت‌بخش خواهد بود. همچنین باید در اینجا دقت شود که کلمه الگو زمانی که در مبحث شناسایی الگو به کار می‌رود، معنای متفاوتی نسبت به مبحث داده کاوی دارد. در مبحث شناسایی الگو، اصطلاح “الگو”  به بردار اندازه‌گیری یک شیء خاص که در واقع نقطه‌ای در فضای داده‌ها می‌باشد، اطلاق می‌گردد. بر عکس در داده کاوی، الگو صرفاً یک مدل محلی است. در این کتاب ما به بردارهای n بعدی داده‌ها به عنوان نمونه‌ها اشاره خواهیم نمود.

 

Rating: 5.0/5. From 1 vote.
Please wait...