کتاب داده کاوی برای برنامه نویسان
در این بخش کتاب داده کاوی برای برنامه نویسان را به صورت فایل PDF فارسی به همراه سورس کدهای تمرینی برای دانلود رایگان قرار داده ایم که در قالب ۸ فصل توسط مسعود کاویانی از کتاب اصلی با نام A Programmer’s Guide to Data Mining: The Ancient Art of the Numerati ترجمه شده است. در ادامه به معرفی محتوای فصل های این کتاب آموزشی داده کاوی (Data Mining) پرداخته و فهرست سرفصل های آن به همراه لینک دانلود رایگان کتاب و کدهای تمرینی قرار داده شده است.
بررسی محتوایی کتاب داده کاوی
کتاب داده کاوی پیش رو در قالب ۸ فصل نگارش شده که فصل اول آن به بررسی مقدماتی در رابطه با داده کاوی (Data Mining) و جنبه های کاربردی آن می پردازد. در فصل دوم به سیستم های توصیه گر (Recommender Systems) پرداخته شده که در آن ساخت و پیاده سازی یک سیستم توصیه گر از ابتدا، با زبان برنامه نویسی پایتون (Python) به همراه مفاهیم و پیش زمینه های آن آموزش داده شده است. فصل سوم این کتاب در ادامه فصل دوم تنظیم شده که در آن به دسته دیگری از سیستم های توصیه گر مبتنی بر اقلام و پیاده سازی آنها پرداخته می شود.
فصل چهارم به طبقه بندی و چگونگی پیاده سازی الگوریتم های مختلف طبقه بندی اختصاص دارد. فصل پنجم هم در ادامه فصل چهارم تنظیم شده که محتوای آن شامل توضیحات بیشتری از الگوریتم های طبقه بندی می باشد که در واقع بهبود الگوریتم های معرفی شده در فصل چهارم است. فصل ششم به صورت اختصاصی بر روی روش بیز ساده (Naive Bayes Classifiers) تمرکز دارد، به طوری که کاربر می تواند مفاهیم و پیاده سازی بیز و بیز ساده را در این فصل مشاهده نماید. فصل هفتم نیز به بررسی داده های غیر ساختار یافته متنی (Unstructured Data) اختصاص یافته و کار با این سبک از داده ها، به عنوان داده هایی که ساختار مشخصی ندارند را پوشش داده است. در نهایت در فصل هشتم هم به خوشه بندی پرداخته شده و الگوریتم های مختلف خوشه بندی (Clustering) به همراه پیاده سازی با زبان Python بررسی می شود.
فهرست سرفصل های کتاب داده کاوی برای برنامه نویسان
فصل اول – مقدمه
- به قرن ۲۱ خوش آمدید
- پیدا کردن چیزهای مرتبط
- ولی چگونه این چیزها را پیدا کنیم؟
- فقط این چیزها نیست
- تراماینینگ چیز خیلی عجیبی نیست
- ساختار این کتاب
- با خواندن و تمام کردن این کتاب چه چیزی یاد خواهید گرفت
- اصلا چرا؟ چرا چیزهای موجود در این کتاب مهم هستند؟
- منظور از هنر باستانی شمارش در عنوان این کتاب چیست؟
فصل دوم – سیستم های توصیه گر (Recommender Systems)
- فاصله مَنهَتَن (Manhattan Distance)
- فاصله اقلیدسی (Euclidean Distance)
- تئوری فیثاغورث
- تفکر چند بُعدی (N-Dimensional Thinking)
- یک عیب اساسی
- یک لمومی سازی (Generalization)
- نمایش داده ها در زبان پایتون
- کد پایتون برای محاسبه فاصله منهتن
- یک شرمساری برای کاربران
- ضریب همبستگی پیرسون (Pearson Correlation Coefficient)
- آخرین فرمول – شباهت کسینوسی (Cosine Similarity)
- از کدام معیار شباهت استفاده کنیم؟
- الگوریتم K نزدیکترین همسایه (K-Nearest Neighbor)
- یک کلاس (Class) توصیه گر با زبان پایتون
- یک مجموعه داده جدید
فصل سوم – پایش بر اساس اقلام
- امتیازدهی صریح (Explicit Rating)
- امتیازدهی ضمنی (Implicit Rating)
- مشکلات امتیازدهی صریح
- مشکل موفقیت
- پایش مبتنی بر کاربر (User-based Filtering)
- پایش مبتنی بر اقلام (Item-Based Filtering)
- شباهت کسینوسی تعدیل شده (Adjusted Cosine Similarity)
- الگوریتم شیب یک (Slope One)
- حالا نوبت کد پایتون است
- الگوریتم شیب یک وزن دارد (Weighted Slope 1): قسمت توصیه گر
- مجموعه داده MovieLens
فصل چهارم – طبقه بندی
- اهمیت انتخاب مقادیر مناسب
- یک مثال ساده
- برویم به سراغ کدهای پایتون
- پاسخ به سوال چرا؟
- مشکل در مقیاس های متفاوت
- نرمال سازی
- مشکل استفاده از امتیاز استاندارد
- امتیاز استاندارد اصلاح شده (Modified Standard Score)
- نرمال سازی را انجام بدهیم یا نه؟
- برگردیم به مثال پاندورا (Pandora – سایت پخش آنلاین موسیقی)
- کد پایتون برای طبقه بندی نزدیک ترین همسایه
- مسئله چه ورزشی؟
- داده های آزمون (Test Data)
- کد پایتون
- خطاهای Assertion و تابع Assert در پایتون
- مجموله داده ی گل های زنبق (Iris Dataset)
- مسئله مایل به ازای هر گالن
- ته مانده فصل
فصل پنجم – کمی بیشتر در مورد طبقه بندی
- مجموعه آموزشی (Training Set) و مجموعه آزمون (Test Set)
- اعتبار سنجی متقابل ۱۰ تکه ای (۱۰-Fold Cross Validation)
- مثال اعتبار سنجی متقابل ۱۰ تکه ای (۱۰-Fold Cross Validation)
- روش کنار گذاشتن یکی (Leave-One-Out)
- معایب روش کنار گذاشتن یکی (Leave-One-Out)
- لایه بندی (Stratification)
- ماتریس اغتشاش (Confusion Matrices)
- یک مثال برنامه نویسی
- فرآیند اعتبار سنجی متقابل ۱۰ تکه ای (۱۰-Fold Cross Validation)
- آمار کاپا (Kappa Statistic)
- بهبود الگوریتم نزدیک ترین همسایه (Nearest Neighbor)
- الگوریتم K نزدیک ترین همسایه (KNN)
- یک مجموله ی داده جدید و یک چالش
- داده های بیشتر، الگوریتم های بهتر و یک اتوبوس خراب
فصل ششم – بیز ساده
- احتمالات
- یادگیری چند عبارت
- کارت خرید ماکروسافت
- تئوری بیز (Bayes Theorem)
- چرا به تئوری بیزین احتیاج داریم؟
- بیزین ساده
- مثال محصولات i100 و i500
- حالا این کارها را در پایتون انجام می دهیم
- جمهوری خواهان در مقابل دموکرات ها
- تخمین احتمالات
- حل مشکل
- رفع یک ابهام
- اعداد
- روش ۱: ساخت طبقه ها و دسته بندی
- روش ۲: توزیع های گاوسی (Gussian)
- انحراف استاندارد جمعیت و انحراف استاندارد نمونه
- یک سری نکات برای پیاده سازی
- پیاده سازی پایتون
- فاز یادگیری
فصل هفتم – پردازش متون بدون ساختار
- یک سیستم خودکار برای تشخیص مثبت یا منفی بودن متون
- فاز آموزش
- فاز طبقه بندی بیز ساده (Naïve Bayes)
- مجموعه داده متون خبری (Newsgroup Corpus)
- کد بزنید استایل پایتونی
- بیز ساده (Naïve Bayes) و تحلیل احساسات (Sentiment Analysis)
فصل هشتم – خوشه بندی (Clustering)
- الگوریتم خوشه بندی k-means
- الگوریتم خوشه بندی سلسله مراتبی (Hierarchical)
- الگوریتم خوشه بندی Single-linkage
- الگوریتم خوشه بندی Complete-linkage
- الگوریتم خوشه بندی Average-linkage
- الگوریتم
- کد پایتون برای یک الگوریتم خوشه بندی سلسله مراتبی (Hierarchical)
- خواندن داده ها از فایل
- ایجاد صف اولویت اولیه
- مشکل مسافت های یکسان و این که با این داده ها چه کار کنیم؟
- یک نکته دیگر در مورد فاصله های یکسان
- الگوریتم خوشه بندی کامینز (K-Means)
- الگوریتم تپه نوردی (Hill Climbing)
- معیار SSE و پراکندگی
- وقت کد زدنه!
- الگوریتم k-means++
- خلاصه
- انرون (Enron)
- تحلیل لینک (Link Analysis)
مشاهده ویدئو در این باره