دقت[۷۳] : بعد از انتخاب دسته ها بر اساس معیارها و یا مدلهای مورد نظر، این پارامتر نشان میدهد که چند درصد از رکوردهای انتخاب شده، به درستی انتخاب شدهاند.
فراخوانی[۷۴] : همانطور که پیش از این هم توضیح داده شد، Recall یا فراخوانی نشان دهنده انتخاب درست گرههای خطادار، از میان کلیه گرههای خطا دار است.
(۳).
در فرمول بالا، fn نشان دهنده گرههای خطا داری هستند که به اشتباه به عنوان گره خطادار شناخته نشده اند.
معیار F[75]: با در نظر گرفتن دو معیار معرفی شده قبلی، یعنی Precision و Recall و بر اساس یک فرمول ساده، امتیازی را محاسبه می کند. این امتیاز در واقع میانگین وزنی بین این دو معیار را در قالب عددی بین صفر و یک نشان میدهد به گونهای که ۰ نشان دهنده بدترین پاسخ و ۱ نشان دهنده بهترین پاسخ است.
(۴).
منحنی مشخصه عملکرد سیستم[۷۶] : که وسیلهایست که برای مقایسه اهداف پیشبینی شده و اهداف واقعی به کار میرود. مقدار ROC میتواند عددی بین ۰ تا ۱ باشد. اگر عدد حاصل برابر. یا بیشتر از ۰٫۵ باشد، به این معناست که مدل ما قادر به پیشبینی کلاسهای هدف میباشد، و اگر کمتر از ۰٫۵ باشد، به این معناست که عمل پیشبینی موفقیت آمیز نیست.
ناحیه زیر منحنی[۷۷] : که مساحت ناحیه زیر منحنی ROC را نشان میدهد. ناحیه زیر منحنی در واقع قابلیت تمیز دادن دادهها در یک دستهبندی دودویی[۷۸] را نشان میدهد. هرچه ناحیه زیر منحنی گستردهتر باشد به این معناست که احتمال یافتن گرههای هدف بیشتر، و احتمال حذف گرههای غیر هدف هم بیشتر است.
صحت[۷۹] : به معنای صحت و دقت میباشد. همانطور که میدانیم، Precision و Recall با مورد توجه قرار دادن تنها گرههای هدف سعی در نشان دادن عملکرد دستهبندی دارند اما معیار دیگری که با دقت بیشتری میتواند نتیجه کار را انجام دهد Accuracy است که با در نظر گرفتن گرههایی که به صورت صحیح مورد هدف قرار نگرفتهاند عمل میکند.
(۵).
همانطور که گفته شد، الگوریتم مختلفی برای عمل دستهبندی وجود دارد که در ادامه به آنالیز ویژگیهای تعریف شده در این پایان نامه به واسطه برخی از این دستهبندی کنندهها میپردازیم.
برای مشخص کردن میزان موفقیت در عملکرد درخت وابستگی در پیشبینی خطاها آن را با سه دسته از متریکهای معروف که پیش از این مورد استفاده قرار گرفتهاند و در تحقیقات و مقالات بسیاری از آنها استفاده شده، مقایسه خواهیم نمود.
انحراف معیار[۸۰] : انحراف معیار نوعی سنجش پراکندگی برای یک توزیع احتمال یا متغیر تصادفی بوده، و نشان دهنده پخش شدگی مقادیر آن حول مقدار میانگین است. انحراف معیار را معمولاً با σ (حرف کوچک سیگما) نشان میدهند. انحراف معیار برابر با ریشه دوم واریانس تعریف میشود.
کاپا[۸۱]:
شکل ۹: متغیر تصادفی، انحراف معیار σ حول محور μ
دسته بندی:
آنالیز و مقایسه عملکرد بر روی اکلیپس:
در این بخش آزمایش دستهبندی را توسط الگوریتم دستهبندی ClassificationViaClustering انجام میدهیم. ابتدا به بررسی آنالیزهای حاصل از کار بر روی پروژههای اکلیپس که پیش از این توضیح داده شد میپردازیم. همانطور که پیش از این هم توضیح دادیم، نتایج حاصل از درخت وابستگی را که شامل درخت وابستگی با عمق ۱، درخت وابستگی با عمق ۲ و درخت وابستگی با عمق ۳ میشود را با گروهی از متریکهای خروجی برنامه Prest با عنوان معیارهای پیچیدگی[۸۲] و همچنین مجموعهای شامل ۱۹۸ متریک که توسط زیمرمن در سال ۲۰۰۷ در کنفرانس ICSE مطرح شد با عنوان Z&Z مقایسه میکنیم.
۱-۱- دقت:
نمودار ۵: مقایسه نتیجه «دقت» در دسته بندی سه نسخه اکلیپس.
۱-۲- فراخوانی:
نمودار ۶: مقایسه نتیجه «فراخوانی» در دسته بندی سه نسخه اکلیپس.
۱-۳- صحت:
نمودار ۷: مقایسه نتیجه «صحت» در دسته بندی سه نسخه اکلیپس.
۱-۴- معیار F:
نمودار ۸: مقایسه نتیجه «معیار F» در دسته بندی سه نسخه اکلیپس.
۱-۵- منحنی مشخصه عملکرد:
نمودار ۹: مقایسه نتیجه «منحنی مشخصه عملکرد» در دسته بندی سه نسخه اکلیپس.
۱-۶- کاپا:
نمودار ۱۰: مقایسه نتیجه «کاپا» در دسته بندی سه نسخه اکلیپس.
۱-۷- انحراف معیار:
نمودار ۱۱: مقایسه نتیجه «انحراف معیار» در دسته بندی سه نسخه اکلیپس.
همانطور که در تمامی نمودارهای بالا مشاهده مینمایید میانگین مقادیر در همه ۷ پارامتر ارائه شده، به نوعی برتری درخت وابستگی را نسبت به دو دسته متریک دیگر نشان میدهد. از طرفی میزان انحراف از معیار کمتر و میزان بیشتر Kappa Statistic به نوعی نشان دهنده این است که پیشبینیهای انجام شده کمتر دارای حالت تصادفی هستند به عبارتی میزان توفیق تصادفی کلاسهای پیشبینی کننده کمتر از میزان توفیق تصادفی در دو دسته متریک دیگر هستند.
آنالیز و مقایسه دسته بندی بر روی تامکت:
از آنجایی که متریکهای Z&Z مربوط به تامکت برای مقایسه با درخت وابستگی در اختیار نبود، تنها درخت وابستگیها را در تامکت با معیارهای پیچیدگی مقایسه مینماییم که نتایج از قرار زیر است:
۲-۱- دقت:
نمودار ۱۲: مقایسه نتیجه «دقت» در دسته بندی آپاچی بر روی متریکهای کد و درخت وابستگی.
۲-۲- فراخوانی:
نمودار ۱۳: مقایسه نتیجه «فراخوانی» در دسته بندی آپاچی بر روی متریکهای کد و درخت وابستگی.
۲-۳- صحت:
نمودار ۱۴: مقایسه نتیجه «صحت» در دسته بندی آپاچی بر روی متریکهای کد و درخت وابستگی.
۲-۴- معیار F:
نمودار ۱۵: مقایسه نتیجه «معیار F» در دسته بندی آپاچی بر روی متریکهای کد و درخت وابستگی.
۲-۵- منحنی مشخصه عملکرد:
نمودار ۱۶: مقایسه نتیجه «منحنی مشخصه عملکرد» در دسته بندی آپاچی بر روی متریکهای کد و درخت وابستگی.
۲-۶- کاپا:
نمودار ۱۷: مقایسه نتیجه «کاپا» در دسته بندی آپاچی بر روی متریکهای کد و درخت وابستگی.
۲-۷- انحراف معیار:
استفاده از داده کاوی در پیشبینی خطای نرمافزار بر اساس متریکهای کد و وابستگی- فایل ۵