ارزیابی رفتار کارشناسان امور رایانه در یک اداره با R به همراه داکیومنت

یکشنبه ۲۴ تیر ۱۳۹۷
بازدید ۱۱۷ نفر
آرتین سیفی زاده
(40 امتیاز از 8 رای)
Loading...

ارزیابی رفتار کارشناسان امور رایانه

در این بخش پروژه ارزیابی رفتار کارشناسان امور رایانه در یک اداره را به کمک الگوریتم خوشه بندی k-means با نرم افزار R همراه با داکیومنت آماده کرده ایم که در ادامه به تعریف مسئله و معرفی پروژه انجام شده به همراه فیلم و تصاویر خروجی قرار داده شده است.

تعریف مسئله

تعدادی کارشناس در یک نرم افزار عملیاتی را انجام می دهند که هر یک از رفتارها با یک متغیر نمایش داده می شود مثل درج یا عدم درج توضیحات در یک تب نرم افزار، درصد فایل های دانلود شده یا مدت زمان صرف شده در انجام هر یک و غیره. در این پروژه قصد داریم تا رفتار این کارشناسان را مورد بررسی قرار داده و میزان شباهت آنها با یک رفتار معیار را بدست آوریم.

رفتار معیار: تعدادی کارشناس نمونه شناسایی شده و ماتریس رفتار آنها را بدست می آوریم که به عنوان الگوی مبنا می شناسیم. اطلاعات یک کارشناس در قالب فایل اکسل جمع آوری شده و با استفاده از تکنیک های یادگیری ماشین، مقایسه ای بین رفتار کارشناس مدنظر و الگوی مبنا انجام می دهیم و درصد شباهت رفتار آن را بدست می آوریم. در داده ها، ستون های 1 تا 3 در واقع شناسه های هر رکورد است، یعنی رفتار هر کارشناس به این صورت بررسی می شود که ارزیابی شونده اول در شاخص شماره 5 از محور شماره 2 ، در هر یک از متغیر های 11 گانه چگونه است.

هدف پروژه

میزان شباهت به صورت یک مقدار عددی (درصد) برگردانده می شود. هم میزان شباهت کلی کارشناس مدنظر با الگوی مبنا را می خواهیم و هم میزان شباهت سطر به سطر (یا همان در هر شاخص). نکته: ممکن است کارشناس نمونه نسبت به الگوی مبنا تنها در برخی از شاخص ها رفتاری را نشان دهد مثلا اگر الگوی مبنا دارای 100 رگورد می باشد و ممکن است کارشناس مدنظر دارای 30 رکورد باشد که این موضوع باید در فرایند یادگیری و محاسبه شباهت مورد توجه قرار گیرد.

معرفی پروژه انجام شده

مرحله اول یادگیری خوشه بندی با استفاده از داده Base و روش k-means می باشد. خوشه بندی بر اساس فایل Base (که Base1 نامگذاری شده است). برای خوشه بندی از روش K-means استفاده شده که یک روش یادگیری ماشین است. در حقیقت از داده های Base برای آموزش روش خوشه بندی استفاده کرده ایم. چالش اصلی برای خوشه بندی به روش k-means تعداد خوشه ها است که باید تعیین شود. برای تعیین تعداد خوشه ها از روش elbow استفاده می شود. در این روش فاصله اقلیدوسی داخل گروه ها برای تعداد خوشه های مختلف محاسبه می شود. تعداد خوشه ای که از آن به بعد فاصله اقلیدسی داخل گروه تغییر پیدا نکند به عنوان تعداد خوشه بهینه انتخاب می شود.

چالش های پروژه

چالشی که در این روش وجود دارد تعیین تعداد گروه ها می باشد. با توجه به عدم وجود روشی برای تعیین تعداد دسته ها می توان این الگوریتم را برای تعداد متفاوت گروه ها اجرا نمود و سپس بر اساس نتایج دسته بندی مورد نظر را انتخاب نمود. هر چند یک راه حل برای تعداد بهینه خوشه ها وجود دارد که به روش Elbow معروف است که شامل مشاهده مجموعه ای از تعداد خوشه ها برای داده ها در برابر مجموع مربعات within-cluster می باشد. به بیان دیگر، این روش عدم تشابه within-cluster به عنوان تابعی از تعداد خوشه ها می باشد.

بر اساس این روش 5 خوشه تعداد بهینه خوشه ها می باشند. خوشه بندی بر اساس این تعدا انجام میشود و خوشه مربوط به هر رکورد در فایل Base در ستون 16 در فایل processed Base با نام clustering قابل مشاهده است. مرحله بعدی تعیین گروه بندی رکورد ها در سه فایل test است که شامل test1, test2 و test3 می باشد.

خوشه های مربوط به این سه فایل در ستون 16 در فایل های با پیشوند processed با نام clustering مشخص است. سپس در مرحله بعد به منظور تعیین شباهت میان هر خوشه با خوشه مربوط به هر رکورد در سه فایل test میانه هر خوشه در فایل Base مشخص می گردد. بر همین اساس 5 بردار که میانه هر خوشه در base را مشخص می کند را به دست می آوریم. سپس به منظور اندازه گیری مشابهت میان هر رکورد در سه فایل test با میانه خوشه مربوطه از دو روش ضریب کسینوسی و ضریب همبستگی استفاده می شود.

ضریب کسینوسی و ضریب همبستگی بردار میانه مربوط به خوشه مورد نظر و بردار مربوط به رکورد اندازه گیری شده و در وزن مربوط به خوشه (درصد تعداد اعضای خوشه به نسبت تمام رکوردها در فایل base) ضرب شده و مشابهت میان هر رکورد در سه فایل test با خوشه در فایل base به دست می آید که در ستون های 17 و 18 به ترتیب برای ضریب کسینوسی (نام ستون cosine) و ضریب همبستگی (نام ستون correlation) ثبت می گردد. این اطلاعات در 3 فایل test با پیشوند processed ارائه شده است.