آموزش داده کاوی: چه نوع داده هایی کاوش می شوند؟

مادامیکه داده ها برا­­ی برنامه ی کاربردی معنادار باشند، داده کاوی به عنوان یک تکنولوژی عمومی قادر است با هر نوعی از داده ها کار کند. شکل های اساسی داده ها جهت کاوش، برنامه های کاربردی پایگاه داده ها ، انبار داده ها و داده های تراکنشی هستند. روش های داده کاوی همچنین می توانند برای شکل ها و گونه های دیگری از داده ها مانند متن، داده های فضایی، داده های چند رسانه ای و… نیز استفاده شوند.

داده های پایگاه داده ها

یک سیستم پایگاه داده ها که با نام سیستم مدیریت پایگاه داده نیز شناخته می شود، شامل مجموعه ای از داده های مرتبط به نام پایگاه داده و مجموعه ای از برنامه های نرم افزاری جهت مدیریت و دستیابی به داده هاست. برنامه های نرم افزاری مکانیزم هایی را مهیا می کنند که با کمک آن ساختار پایگاه داده ها تعریف می شوند و همچنین موضوعاتی مانند اجرای همروند تراکنش ها، حفظ سازگاری و ترمیم پایگاه داده ها هنگام خرابی، کنترل توزیع داده ها و حفظ امنیت داده ها از دسترسی های غیرمجاز را در دستور کار خود دارد.

یک پایگاه داده ی رابطه ای شامل مجموعه ای از جداول است که هر یک دارای نام یکتایی می باشد. هر یک از این جداول حاوی مجموعه ای از صفات خاصه (ستون یا فیلد) است و معمولاً تعداد زیادی از تاپل ها (سطر و رکورد) را در خود جای می دهد. هر تاپل در یک جدول رابطه ای شیء یا نمونه ای را نشان می دهد که با یک کلید یکتا معرفی و با مجموعه ای از مقادیر صفات خاصه توصیف می شود. اغلب برای پایگاه داده رابطه ای یک مدل داده ایی معنایی مانند ER ساخته می شود. در یک ER پایگاه داده ها با مجموعه ای از موجودیت ها و روابط بین آنها مشخص می شود.

کوئری (Query)

QUERY کوئری در داده کاوی

برای دسترسی به داده های یک پایگاه داده رابطه ای می توان از پرسش های پایگاه داده ها استفاده کرد که با یک زبان پرس وجوی رابطه ای مانند SQL نوشته می شوند و یا می توانید از رابط گرافیکی کاربر نیز برای انجام این کار کمک بگیرد. یک پرسش به مجموعه ای از عملیات رابطه ای مانند پیوند، گزینش و پرتو تبدیل می شود و پس از آن جهت پردازش مؤثر به شکل بهینه ای در می آید. پرسش مجاز است که زیرمجموعه ای از داده ها را بازیابی کند. فرض کنید که شغل شما تحلیل داده های مربوط به فروشگاه لوازم الکترونیکی است. پرسشی نظیر اینکه فهرست کلیه ی اقلام فروخته شده در فصل زمستان را نشان بده می تواند از طرف شما پرسیده شود.

زبان های رابطه ای همچنین به شما اجازه می دهند تا در پرسش خود از توابع تجمعی مانند مجموع، میانگین، حداقل و حداکثر استفاده کنید. بنابراین پرسش  هایی نظیر مجموع فروش آخرین ماه که براساس شعبه ها گروه بندی شده اند یا تعداد تراکنش های فروش در ماه دسامبر و اسامی فروشندگانی که بیشترین فروش را داشته اند را می توانید بیان کنید.

کشف الگوها

داده کاوی کشف الگو

با کاوش در پایگاه داده رابطه ای می توان یک گام فراتر رفت و به دنبال الگوهای مفیدی در میان داده ها بود. برای مثال سیستم های داده کاوی قادرند به تحلیل داده های مشتریان بپردازند به نحوی که با کمک اطلاعاتی نظیر درآمد، سن و… اعتبار یک مشتری جدید پیش بینی شود. این سیستم ها ممکن است به تشخیص انحرافات نیز کمک کنند. برای مثال اقلامی که فروش آنها در مقایسه با سال گذشته در حد انتظار نیستند. چنین انحرافاتی کم نیستند. برای نمونه ممکن است سیستم های داده کاوی افزایش چشمگیر قیمت برخی از کالاها را متوجه و یا تخمین بزنند.

پایگاه داده های رابطه ای یکی از در دسترس ترین و غنی ترین مخازن اطلاعاتی به شمار می روند و به همین دلیل شکل اساسی داده ها در مطالعه ی داده کاوی محسوب می شوند.

داده کاوی انبارهای داده

فرض کنید فروشگاه لوازم الکترونیکی ساختگی ما یک شرکت بین المللی موفق با تعدادی شعبه در سرتاسر دنیا است. هر شعبه مجموعه پایگاه داده ی مربوط به خود را دارد. مدیر این فروشگاه از شما می خواهد تا فروش اقلام و کالاهای هر شعبه را در فصل پاییز تحلیل کنید. این وظیفه ی مشکلی است، به خصوص اگر داده های خواسته شده میان چندین پایگاه داده ها و در سایت های مختلف قرار داشته باشند.

چنانچه این فروشگاه دارای یک انبار داده ها باشد، انجام این کار ساده خواهد شد. یک انبار داده ها مخزنی از اطلاعاتی است که از چندین منبع جمع آوری شده اند و تحت شِمای یکدستی و معمولاً بر روی یک سایت نگهداری و ذخیره می شود. انبارهای داده ها از طریق فرایندی که شامل پالایش داده ها، یکپارچه سازی آن، تبدیل داده ها و بارگذاری آن می شود، ساخته می شوند. محتویات این انبار در بازه های زانی تعیین شده ای بهنگام سازی می شود.

داده ها در انبار داده ها حول یک موضوع محوری سازمان دهی شده اند تا فرایند تصمیم گیری را آسان-تر کنند. این موضوع می تواند مشتری، فروش، کالاها و… باشد. این داده ها می توانند داده های تاریخمند باشند، برای مثال اطلاعات فروش ۶ تا ۱۲ ماه گذشته، و همچنین داده ها معمولاً خلاصه شده هستند. این بدین معنی است که به جای ذخیره جزییات تراکنش های فروش، انبار داده ها خلاصه ای از تراکنش های مربوط به یک کالا را ذخیره می کند. حتی می توان سطح بالاتری از تلخیص را نیز اِعمال نمود.

یک انبار داده ها معمولاً با کمک یک ساختار داده ای چند بُعدی با نام مکعب داده ها مدل سازی می-شود. در این ساختار هر یک از ابعاد به یک یا چند صفت خاصه در شِما اشاره می کند و هر سلول حاوی مقدار تلخیص یا تجمیع شده ای است. در واقع یک مکعب داده ها، یک دید چند بُعدی را به کاربر ارائه می کند و با پیش محاسبه ی آن می توان دسترسی سریعی به داده های خلاصه شده داشت.

انبار داده

با تهیه ی یک ساختار چند بُعدی از داده ها و پیش محاسبه ی داده های تلخیص شده، سیستم های انبار داده ها می توانند پشتیبان خوبی برای پردازش تحلیلی برخط باشند. عملیات پردازش تحلیلی بر خط این اجازه را به شما می دهد تا داده ها را در سطوح متفاوتی از تجرید (انتزاع) نمایش دهید. در واقع چنین عملیاتی دیدگاه های متفاوت کاربران را پوشش می دهد.

اگر چه ابزارهای انبار داده ها برای تحلیل داده ها مناسب هستند، اما اغلب برای تحلیل عمیقتر به ابزارهای اضافی دیگری برای داده کاوی نیاز هست. داده کاوی چند بُعدی (که همچنین داده کاوی چند بُعدی اکتشافی نامیده می شود) در واقع اجرای داده کاوی در فضای چند بُعدی در یک شکل OLAP  است. به عبارت دیگر این اجرا به شما اجازه می دهد تا با ترکیب چندین بُعد در سطوح متفاوتی از دانه بندی به اکتشاف دانش و الگوهای جالب در میان داده ها بپردازید.

داده کاوی داده های تراکنشی

به طور کلی هر رکورد در یک پایگاه داده ی تراکنشی حاوی اطلاعاتی در مورد یک تراکنش است. برای مثال می توان به تراکنش های خرید مشتریان، رزرو بلیط و یا دنباله ای از کلیکهای کاربران بر روی صفحات وِب اشاره کرد. معمولاً یک تراکنش دارای یک مشخصه ی یکتا و فهرستی از اقلامی است که تراکنش را توصیف می کنند. برای مثال در تراکنش های خرید مشتریان هر تراکنش می تواند شامل یک عدد منحصربه فرد برای شناسایی تراکنش و مجموعه ای از اقلام خریداری شده توسط مشتری باشد. یک پایگاه داده ی تراکنشی می تواند دارای جدول های دیگری نیز باشد که اطلاعات بیشتری را در خود نگه می دارد. در مثال ما این اطلاعات می تواند مواردی چون مشخصات فروشنده یا شعبه ها و نظیر آن باشد.

داده کاوی تراکنش بانکی

به عنوان مثال پایگاه داده ی تراکنشی برای فروشگاه لوازم الکترونیکی را در نظر بگیرید. تراکنش ها به نحوی در یک جدول ذخیره می شوند که هر رکورد نشان  دهنده ی یک تراکنش باشد.

شما به عنوان یک تحلیل گر ممکن است مایل باشید بدانید که کدامیک از اقلام با یکدیگر به فروش می رسند. با کمک پاسخ این گونه از پرسش ها که معمولاً با نام تحلیل داده های سبد خرید شناخته می شود، شما قادر خواهید بود بسته های مناسبی از اقلام را تهیه و در راستای بهبود فروش حرکت کنید. برای مثال چنانچه بدانید اغلب چاپ گر و کامپیوترها با یکدیگر در سبد خرید مشتریان قرار دارد، می توانید برای مشتریان خود که برخی از کامپیوترها را خریداری می کنند، چاپگرهایی را با تخفیف ویژه (و یا حتی رایگان) در نظر بگیرید، به امید اینکه کامپیوترهای بیشتری را که اغلب گران تر از چاپ گرها هستند به فروش برسانید. یک سیستم پایگاه داده سنتی نمی تواند تحلیل داده-های سبد خرید را انجام دهد. خوشبختانه با داده کاوی بر روی داده های تراکنشی می توانیم مجموعه اقلام مکرر را نیز کاوش کنیم. مجموعه اقلام مکرر به آنهایی اطلاق می شود که شما خرید آنها را با یکدیگر بسیار زیاد مشاهده می کنید.

 

Rating: 5.0/5. From 1 vote.
Please wait...