خوشه بندی و بهینه سازی انتخاب رشته دانش آموزان با نرم افزار R
در این بخش پروژه خوشه بندی و بهینه سازی انتخاب رشته دانش آموزان با نرم افزار R به همراه داکیومنت و فیلم آموزشی فارسی آماده کرده ایم که در ادامه توضیحاتی از معرفی پروژه ارائه شده و قسمتی از فیلم آموزشی قرار داده شده است.
معرفی پروژه
در این پروژه دیتاست ما نمرات دانش آموزان است که با توجه به ترازها برای هر درس در 6 رشته موجود انتخاب رشته می شوند. به عوان مثال مجموع امتیاز برای رشته ریاضی، تراز رشته ریاضی می شود که با امتیاز مشاوره برای این رشته جمع و به عنوان تراز نهایی اعمال می گردد. خوشه های ما در این دیتاست 6 رشته کاردانش، فنی حرفه ای، ادبیات و معارف، ریاضی و تجربی می باشند. قابل ذکر است که 80 درصد دیتا به عنوان آموزشی و 20 درصد نیز به عنوان تست مورد استفاده قرار می گیرد. در این پروژه برای خوشه بندی دیتا ها الگوریتم K نزدیک ترین همسایه (KNN) و برای بهینه سازی آن نیز از ادغام الگوریتم PSO و همچنین از الگوریتم درخت پوشای کمینه (MST) برای خوشه بندی دانش آموزان با توجه به ترازها استفاده می شود.
مرحله کار پیاده سازی
مرحله اول آماده سازی داده ها جهت ورود به محیط R و آنالیز می باشد. برای این منظور علوم تجربی به عنوان گروه 1، ریاضی به عنوام گروه 2، معارف به عنوان گروه 3، ادبیات به عنوان گروه 4، کاردانش گروه 5 و فنی و حرفه ای به عنوان گروه 6 نامگذاری شده اند. از طرف دیگر برخی داوطلبان که انتخاب رشته نکرده بودند و یا در انتظار انتخاب رشته مجدد بودند از داده حذف شدند. با اعمال این تغییرات داده حاوی 67 سطر (دانش آموز) و 13 ستون می باشد که 12 ستون اول به عنوان متغیر های پیشگو و ستون آخر که مقادیر 1 تا 6 را دارد عناوین رشته های انتخابی دانش آموزان می باشد که قرار است پیشگویی آن انجام شود.
در مرحله بعد داده ها وارد برنامه می شوند. برای ورود داده ها از فایل ارسالی به نام mdat.csv که با فرمت .csv می باشد و حاوی داده اصلاح شده است استفاده می شود. پس از بارگذاری داده ها، آنها را از نظر تعادل (یعنی تعداد دانش آموزان در هر رشته باید مساوی و یا نزدیک به هم باشند) مورد ارزیابی قرار می دهیم. مرحله بعدی شامل تقسیم کردن داده ها به دو مجموعه آموزش (training) و آزمون (test) می باشد که به صورت 80 به 20 درصد انجام شده است. در مرحله بعدی از روش یادگیری ماشینی k nearest neighbor (knn) استفاده شد. این روش یادگیری ماشینی بر اساس گروه های موجود در داده و بر اساس متغیر های پیشگو به گونه های داده ها را دسته بندی می کند که بر اساس متغیر های پیشگو کمترین فاصله را بین نمونه ها در داخل گروه ایجاد کند و بیشترین فاصله را بین نمونه های موجود در گروه های مختلف ایجاد کند. برای این روش یادگیری از پکیج caret در نرم افزار R استفاده شده است. توضیحات بیشتر و جزئی تر در داکیومنت به همراه پروژه ارائه خواهد شد.
هیچ نظری ثبت نشده است