علیرغم توانایی های بالقوه پس انتشار، این روش معایب متعددی دارد که می تواند منجر به بروز مشکلاتی در طول یادگیری گردد. رایج ترین مشکلات پیش رو عبارتند از فرایند آموزش طولانی و مبهم، فلج شدن شبکه، و حداقل داخلی.
برای مسائل پیچیده، جهت یا مسیر کاهش خطا با تعداد دوره ها، چندان مشخص و شفاف نبوده و می تواند منجر به آشفتگیهایی در خصوص پیوستگی فرایند آموزش گردد. فرایند آموزش می تواند بسیار طولانی و گاهی اوقات برای فضای وزنی اولیه، بی ثمر باشد. دو دلیل اصلی در فرایند یادگیری کُند عبارتند از اندازه گام و هدف حرکت. در حین جستجو بدنبال یک فضای وزنی بهینه، خطا بطور پیوسته بواسطه کاهش اندازه گام کاهش میابد تا زمانیکه حداقل بهینه بدست آید. در اکثر سناریو های عملی، این حداقل داخلی می تواند نتایج خوبی به دست آورد، یا خود می تواند حداقل سراسری نیز باشد. با این وجود، هیچ راهنمای ثابتی در مورد اینکه این نرخ در طول آموزش شبکه تا چه اندازه گامی، باید کاهش داده شود وجود ندارد. کاهش اندازه گام به میزان بینهایت کوچک نمی تواند امکان پذیر باشد. یک اندازه گام بزرگ، می تواند جستجو را به ناحیه فضای وزنی بسیار متفاوتی سوق داده و راه حل ضعیفی را ارائه نماید. مشکل هدف متحرک در حالی ناشی می شود که وزن ها باید بطور پیوسته مقادیر خود را از یک خروجی به خروجی دیگر برای الگوهای پی در پی تنظیم نمایند. بدلیل الگوهای متفاوت آموزشی، تغییر در یک وزن در طول یک عبور آموزشی، در عبور بعدی می تواند لغو یا بی اثرگردد. بنابراین، تضعیف وترقیق تغییرات وزنی نیزمی تواندبه نوبه خود منجر به کُندشدن فرایند آموزش گردد.
مشکل فلج شدگی شبکه ناشی از تنظیم بسیار زیاد وزن ها در دوره اولیه می باشد. وقتیکه تمامی گره ها خروجی های زیادی را تولید می کنند، مشتق تابع فعال سازی می تواند بسیار کوچک شود. از آنجائیکه خطای ارسالی به عقب از لایه خروجی در عبور رو به عقب (یا همان تنظیم وزن) متناسب با مشتق تابع فعال سازی است، فرایند آموزش کند شده و تنظیمات وزن ها ممکن است ناچیز باشد. معمولاً از این مشکل بواسطه کاهش
۳۲
اندازه گام یا نرخ یادگیری اجتناب می نمایند. بسیاری از روش های قبلی با مشکل حداقل داخلی روبرو می شوند و این مورد درباره شبکه های عصبی نیز صدق می کند. این مشکل ناشی از جستجوی روبه پایین در یک فضای پیچیده، با ابعاد بزرگ و پر از توده، شیار و نقطه های تحمیلی۱ زیاد باشد. با تغییر نرخ آموزش یا اندازه گام، این مشکل تا حدودی مرتفع می گردد.
۳-۷ الگوریتم های در هم آمیختن ِ درجه بندی شده۲
روش در هم آمیختن ِ درجه بندی شده نخستین بار توسط فلچز و ریوز۳ در سال ۱۹۹۴ بر روی مسائل بهینه سازی غیر تحمیلی اجرا شد. بر خلاف پس انتشار ، روش در هم آمیختن ِ درجه بندی شده در مسیر درجه بندی شده خطا به پیش نمی رود، بلکه در مسیری قائم بر مسیر مرحله پیشین عمل می کند. این امر از تأثیرگذاری مراحل آتی بر حداقل سازی بدست آمده در مرحله فعلی جلوگیری می کند. فلچر و ریوز نشان داده اند که هر روش حداقل سازی که توسط الگوریتم در هم آمیختن ِ درجه بندی شده ایجاد شود، بصورت معادله درجه دومی همگراست. چنانچه از این روش در مورد مسئله تکراری غیر درجه دومی استفاده شود، مانند معادله خطا (۳-۳) ، یک شرط همگرایی لازم خواهد بود. چنانچه P(n) برای نشان دادن بردار جهت در n اُمین تکرار از پس انتشار بکار رود، معادله (۳-۴) می تواند بصورت زیر بازنویسی شود:
(۳-۱۹)
که در آن و بردار وزن گره ای در (n+1) و n اُمین تکرار بوده، و نرخ یادگیری می باشد.
saddle point
Conjugate Gradient
Reeves & Fletcher
۳۳
بردار جهت اولیه در نقطه آغازین n=0 برابر با منفی ِ بردار درجه بندی g(n) ، که عبارتست از P(0) = - g(0) تنظیم می شود. هر بردار جهت متوالی بواسطه یک ترکیب خطی از بردار درجه بندی فعلی و بردار جهت قبلی بصورت زیر محاسبه می شود:
(۳-۲۰)
در اینجا یک پارامتر وابسته به زمان می باشد که فلچر و ریوز بصورت زیر آنرا تعریف می کنند:
(۳-۲۱)
در بسیاری از موارد، الگوریتم در هم آمیختن ِ درجه بندی شده سرعت یادگیری را افزایش می دهد.
۳-۸ تابع شعاع مبنا۱
یک شبکه تابع شعاع مبنا (RBF )، می تواند بعنوان یک شبکه سه لایه ای در نظر گرفته شود که لایه مخفی در آن یک تغییر شکل غیرخطی ثابت را بدون هیچ پارامتر قابل تنظیمی اجرا می نماید. این لایه متشکل از تعدادی گره و یک بردار پارامتر به نام “مرکز” است که می تواند بعنوان بردار وزن لایه مخفی در نظر گرفته شود. فاصله استاندارد اقلیدوسی به منظور اندازه گیری دوری بردار ورودی از مرکز مورد استفاده قرار می گیرد. به ازاء هر گره، فاصله اقلیدوسی بین مرکز و بردار ورودی ِ ورودیِ شبکه، توسط یک تابع غیر خطی که خروجی گره ها در لایه مخفی را تعیین می کنند محاسبه شده و تغییر شکل داده می شود. آنگاه، لایه خروجی این نتایج را به روشی خطی با یکدیگر ترکیب می کند.
Radial Basis
۳۴
خروجی y از یک شبکه RBF توسط معادله زیر محاسبه می گردد:
(۳-۲۲)
که در آن وزن ارتباط میان نورون مخفی و نورون خروجی ، تمایل ، و Xبردار ورودی می باشد. توابع توابع شعاع مبنا هستند که شکل عمومی زیر را دارند:
(۳-۲۳)
در آغاز دارای حداکثر مقدار بوده و همچنانکه آرگومان آن به سمت بی نهایت میل می کند، نیز بسرعت کاهش میابد. از آنجائیکه فاصله بین بردار ورودی و مرکز افزایش میابد، تابع لازم است که به صفر برسد. در حالیکه انتخاب های متعددی برای وجود دارد، یک کلاس عمومی از توابع شعاع مبنا بواسطه تابع گائوسین زیر تعریف می گردد:
(۳-۲۴)
که در آن مرکز فیلد دریافت کننده، و عرض تابع گائوسین می باشد. وظیفه عمده در طراحی شبکه شعاع مبنا تعیین مرکز c می باشد. روش دوم، عبارتست از بکارگیری تکنیک میانگین های k به منظور دسته بندی مجموعه ورودی یادگیری در قالب یکسری گروه ها، و انتخاب مرکز هر گروه به عنوان مرکز. همچنین، با c می توان بعنوان یک پارامتر شبکه همراه با رفتار نموده و بواسطه یادگیری تصحیح خطا آنرا تنظیم نمود. پس از آنکه مرکز تعیین گردید، وزنهای ارتباط بین لایه مخفی و لایه خروجی می تواند به سادگی از طریق یادگیری معمولی پس انتشار تعیین گردد.
۳۵
تفاوت اولیه میان شبکه شعاع مبنا و پس انتشار در ذات غیر خطی آن و گره های مخفی نهفته است. غیر خطی بودن در پس انتشار بواسطه یک تابع ثابت مانند سیگموئید۱ پیاده شده است. از سوی دیگر، در روش شعاع مبنا غیرخطی بودن خود را بر مبنای داده ها در مجموعه ورودی قرار می دهد. زمانیکه کلیه توابع اولیه در لایه مخفی پیدا شدند، شبکه صرفاً نیاز دارد تا به یک روش مجموع یابی خطی، در لایه خروجی یادگیری را به انجام رساند.
۳-۹ الگوریتم همبستگی آبشاری۲
فالمن و لیبیر۳ الگوریتم همبستگی آبشاری را ساختند. تفاوت این الگوریتم با روش های دیگر در این است که با یک شبکه مینیمال (کمین) و بدون هیچ گره مخفی کار خود را آغاز کرده، و در طول فرایند یادگیری با یکی یکی اضافه کردن واحد های جدید رشد می نماید، تأثیر گره جدید بر خطای شبکه را به حداقل رسانیده و یک ساختار چند لایه ای را می سازد. زمانیکه یک گره مخفی جدید به شبکه اضافه شد، وزنهای سمت ورودی آن ثابت می مانند. گره های مخفی به منظور به حداکثر رساندن رابطه بین خروجی گره ها و خطای خروجی، تحت یادگیری قرار می گیرند. یک چرخه یادگیری به دو فاز تقسیم می شود:
الف ) گره های خروجی به منظور به حداقل رساندن مجموع خطای خروجی تحت یادگیری قرار می گیرند.
ب ) یک گره جدید درج شده و به تمام گره های خروجی و گره های مخفی قبلی متصل می شود. به گره جدید یاد داده می شود که با خطای خروجی مرتبط باشد.
Sigmoid
Cascade Correlation
Fahlman & Lebiere (1990)
۳۶
افزودن یک گره مخفی جدید آنقدر ادامه میابد تا حداکثر ارتباط بین گره های خروجی و خطای خروجی بدست آید. یکتاییِ الگوریتم همبستگی آبشاری در این است که معماری آن به عنوان بخشی از فرایند یادگیری مطرح می شود. مراحل این الگوریتم می تواند بصورت زیر خلاصه گردد:
فقط با گره های ورودی و گره خروجی شروع کن.
شبکه را با مجموعه داده آموزشی توسط قانون دلتا آموزش بده.
یک گره مخفی جدید اضافه کن. آنرا به تمام گره های ورودی و دیگر گره های مخفی موجود متصل کن. آموزش این گره بر اساس به حداکثر رسانی رابطه کلی S بین خروجی آن و خطای شبکه می باشد:
(۳-۲۵)
که در آن خروجی گره مخفی جدید برای الگوی p ؛ میانگین خروجی به ازاء تمام الگوها؛ خطای خروجی شبکه برای گره خروجی o و الگوی p، و میانگین خطای شبکه به ازاء تمام الگوهاست. یک به یک، مجموعه داده آموزشی را عبور بده و تا زمانیکه S تغییر محسوسی نکرده است، پس از هر مجموعه یادگیری وزن های ورودی گره جدید را تنظیم کن.
زمانیکه فرایند آموزش گره جدید به اتمام رسید، آن گره به عنوان یک گره مخفی در شبکه قرار می گیرد. وزن های سمت ورودی ثابت مانده و وزنهای سمت خروجی دوباره آموزش داده می شوند.
به مرحله ۳ برو، و زیر روال را تکرار کن تا شبکه به میزانی از پیش تعین شده حداقلی از خطا با تعداد ثابتی از دوره های یادگیری یا آموزش برسد.
۳۷
۳-۱۰ شبکه های عصبی مصنوعی بازگشت کننده یا بازرخدادگر۱
این قبیل شبکه ها، عمدتاً نوع دیگری از پس انتشار را برای فراگیری استفاده می نمایند. تغییر پذیری وضعی- فیزیکی بسیاری از فرآیندهای هیدرولوژیک مستلزم پویا بودن فرایند تخمین زنی می باشد. چنین رابطه پویایی می تواند با شبکه های عصبی مصنوعی که با دقت انتخاب شده باشند مدل سازی گردد. در ساده ترین حالت، یک گره مجموع وزن دار ورودی هایش که به یک تابع فعال سازی غیرخطی وارد می شود را محاسبه می نماید. در حالیکه شبکه های عصبی Feed-Forward پس انتشار محبوب تر هستند، اما در عین حال در آنها فقدان ارتباطات بازخوردی لازم برای یک حالت پویا مشاهده می گردد. با این وجود، بررسی های اخیر از شبکه های عصبی وجود دارد که دارای ارتباطات بازخوردی بوده و لذا در ذات خود و بطور موروثی پویا می باشند.
مدل پیش بینی مکانی ظرفیت باربری خاک با استفاده از شبکه های عصبی مصنوعی، مطالعه موردی شهرآذرشهر۹۳- فایل ۷