تعداد شاخه ها =
تعداد باسا.=
(۳-۸) وضعیت امنیت در m حالت جور واجور
شکل (۳-۳) چگونگی آموزش درخت اراده کردن
همونجوری که مشاهده می کنین حجم این اطلاعات در شبکه های قدرت بزرگ بسیار بالا میره و منطقی نیس از همه این اطلاعات واسه آموزش درخت اراده کردن استفاده شه. هم اینکه دربسیاری از نرم افزارهای آموزش درخت اراده کردن محدودیتهایی در تعداد ورودی به درختا هست. پس برآنیم تا با به کار گیری یه سری روشای سیستماتیک حجم این داده ها رو تا حد امکان کاهش بدیم تا بشه درختای بهینه و به درد بخور بودن رو طراحی کرد.
۳-۳ بررسی روشای کاهش حجم داده
پیشرفتای به وجود اومده در جمع آوری داده ها و توانایی ذخیره اطلاعات با حجم بالا در چند دهه گذشته باعث شده با حجم بزرگی از اطلاعات در بیشتر علوم مواجه شیم. محققان در زمینه های جور واجور مثل ستاره شناسی، زیست شناسی، اقتصاد و علوم مهندسی هر روز با مشاهدات و حجم بیشتری از داده ها روبرو هستن. در مقایسه با داده های با حجم کوچکتر این داده ها با چالشهای تحلیلی جدیدی روبرو هستن، بنابرین روشای آماری گذشته به دو دلیل افزایش تعداد مشاهدات[۲۷] و افزایش تعداد متغیرهای[۲۸] مربوط به یه مشاهده کارایی خود رو از دست دادن. پس بستر داده هایی با حجم زیاد در کنار اینکه اطلاعات بزرگی از سیستم رو در اختیار میدن و فرصت مطالعاتی دقیقی که به وجود میارن، چالشهای محاسباتی زیادی رو ایجاد می کنن. در بیشتر مواقع میشه تموم یا تعداد خیلی از اطلاعات رو در حجم کوچیکتری از این داده های با ابعاد بزرگ گرفت طوریکه داده های جدید تولید شده از داده های قبل، خوب ویژگیای سیستم رو بگن و هم به حجم کوچیکتری از داده ها واسه تحلیلای ثانویه برسیم. به خاطر همین روشای کاهش حجم داده در دنیای امروز به عنوان یه مبحث قابل توجه و غیر قابل رد باقی مونده.
کلا روشای تقسیم داده به دو بخش کلی تقسیم می شن:
روشای براساس استخراج ویژگی
این روش ها یه داده با ابعاد بزرگ رو به فضای با ابعاد کوچکتر نگاشت می کنه. در واقع با ترکیب خطی و یا غیر خطی داده ها، تعداد کمتری ویژگی به وجود می آورد که تموم یا بخش اعظمی از اطلاعات رو در خود نهفته داره. از جمله این روش ها، بررسی اجزای اصلی[۲۹] رو میشه نام برد.
روشای براساس انتخاب ویژگی
در این روش تلاش می خواد تا با انتخاب زیر یه سری از ویژگیای اولیه، ابعاد داده ها کم بشن. در بعضی موارد تحلیلای داده ای مانند دسته بندی[۳۰] نسبت به داده های اصلی بهتر عمل میکنن.
۳-۳-۱روشای براساس استخراج ویژگی
همونطور که در بخش قبل گفته شد در این روش ویژگیای برجسته تر سیستم انتخاب نمی شن، بلکه این ویژگیا به صورت خطی و غیر خطی با هم ترکیب می شن و به فضای با ابعاد کوچکتر نگاشت می گردن. در روشای خطی که ساده تر و قابل فهم تر هستن، به دنبال پیدا کردن یه زیر فضای تخت عمومی[۳۱] هستیم. در حالیکه در روشای غیر خطی هدف پیدا کردن یه زیر فضای تخت محلی[۳۲] است که پیچیده تره و تحلیل اونم سخت تر میشه.
از روشای خطی میشه به روش PCA، DFT، DWT، FA و چیزای دیگه ای به جز اینا میشه اشاره کرد که در ادامه روش PCA به صورت جداگونه توضیح داده شده.
از جمله روشای غیر خطی عادی میشه به روشای Self Organizing Maps، Vector Quantization، Genetic and Evolutionary Algorithms و Regressionاشاره کرد]۵۱[.
مسئله کاهش ابعاد داده کلا به بیان ریاضی به این صورته که یه متغیر -بعدی
هست. هدف پیدا کردن متغیر -بعدی به گونه ایه که اول اینکه و دوم اینکه S محتویات X رو تا حد امکان و براساس ملاک خاص لازم دارا باشه.
در روشای خطی تلاش بر اینه که این عامل از ترکیب خطی عامل به دست آیند.
(۳-۹)
(۳-۱۰)
که ماتریس وزن نگاشت خطیه. در بخش ۳-۳-۱ روش PCA معرفی می شه.
۳-۳-۱روش Principal Component analysis یا PCA
PCA یه فوت وفن خطی کاهش بعده که یه سری داده محتملا یکی رو به یه سری داده تصویر شده ناهمبسته به نام principal component یا اجزای اصلی، بدون از دست رفتن اطلاعات مهم تبدیل می کنه. فوت وفن PCA بهترین تبدیل خطی واسه کاهش ابعاد داده، چون با حذف داده های کم اهمیت، اطلاعات از دست رفته در این روش نسبت به بقیه روش ها کمتره و به سرعت قابل پیاده سازیه]۵۱-۵۵[. به کار گیری PCA تنها منحصر به کاهش ابعاد داده نمی شه و در خیلی از زمینه ها مانند تشخیص الگوی چهره و شناسایی الگو و دسته بندی داده ها و چیزای دیگه ای به جز اینا مورد استفاده س. در این روش محورهای مختصات جدیدی واسه داده ها تعریف شده و داده ها براساس این محور مختصات جدید بیان می شه. اولین محور باید در جهتی باشه که واریانس داده ها ماکسیمم شه یعنی در همون جهت پراکندگی داده ها. محورهای بعدی عمود بر محور اول به همین ترتیب قرار می گیرن]۵۶[. شکل ۱ چگونگی انتخاب محورهای جدید رو تو یه فضای دو بعدی خوب نشون میده.
شکل (۳-۴) انتخاب محورهای جدید واسه داده های دو بعدی[۵۶]
روش PCA به اسمای دیگری هم معروفه که از بین اونا به موارد زیر میشه اشاره کرد]۵۶[:
Singular value decomposition (SVD)
Karhunen Loeve Transform (KLT)
Hotelling Transform
Empirical Orthogonal Function (EOF)
واسه درک بهتر اصول PCA بهتره اول مرور کوتاهی بر مفاهیم لازم این روش انجام بشه. این مفاهیم شامل میانگین، واریانس، کواریانس، بردارهای خاص و مقادیر خاصه.
مفاهیم لازم واسه PCA
میانگین
فرض کنین X رشته ای از داده باشه. میانگین این داده ها به صورت (۳-۱۱) محاسبه می شه
(۳-۱۱)
انحراف ملاک
انحراف ملاک به صورت (۳-۱۲) تعریف می شه:
(۳-۱۲)
دلیل اینکه در مخرج رابطه (۳-۱۲) قرار گرفته نه اینه که فرض براینه که شامل همه اعضای مجموعه نیس و مجموعه نمونه س با این فرض اگه در مخرج داده ها از استفاده شه انحراف ملاک بدست اومده به انحراف ملاک داده های واقعی نزدیک تره. همونطور که میدونید توان دوم انحراف ملاک، واریانس میشه.
کواریانس
معیارای بیان شده پراکندگی داده ها رو تو یه بعد به دست میده و از رابطه بعدای جور واجور با هم اطلاعاتی در اختیار نمی ذاره. با به کار گیری کواریانس میشه این رابطه رو گرفت. فرض کنین رشته دیگری از اعداد در دست باشه و نامیده شه. کواریانس بین به صورت (۳-۱۳) تعریف می شه:
(۳-۱۳)
مقادیری که از رابطه (۳-۱۳) بدست میاد در بازه [-۱, ۱] قرار میگیره که دارای سه حالت ممکن زیر میشه:
اگه مقادیر بدست اومده مثبت باشن، با هم افزایش یا کاهش پیدا میکنن.
اگه مقادیر بدست اومده منفی باشن، در خلاف هم افزایش یا کاهش پیدا میکنن.یعنی با افزایش ، کم میشه و برعکس.
اگه مقدار بدست اومده صفر باشه، از هم مستقلند.
کوراریانس ابعاد داده ها رو میشه دو به دو بین همه ابعاد محاسبه کرد وآن رو تو یه ماتریس ریخت. این ماتریس یه ماتریس مربعی متقارنه، چون کواریانس X وY با کواریانس Y وX با هم مساوی هستن.
مقادیر خاص و بردارهای خاص
همونطور که میدونید واسه ضرب دو ماتریس در هم این دو ماتریس باید از نظر ابعاد با هم موافق باشن. بردارهای خاص نوع خاصی از این ضرب رو ارائه میده. در میان تموم بردارهایی که میشه ماتریس تبدیل رو در اون ضرب کرد ورداری هست که پس از تبدیل رابطه با اونا تغییر نمی کنه و فقط اندازه اون ممکنه عوض شه. این بردارها رو بردار خاص می گن. ویژگی مهم این بردارها اینه که بر هم عمودند.
الگوریتم PCA
در این بخش الگوریتم PCA با ذکر یه مثال در فضای دو بعدی آورده شده:
انتخاب و جمع آوری داده
مثلا داده های یه فضای دو بعدی در شکل (۳-۵) آورده شده.