طراحی و کاربرد الگوهای تهیه‌ی خزانه‌ی‌ سؤال در بهینه سازی کارکرد سنجش انطباقی کامپیوتری در آزمونهای سرنوشت ساز- فایل ۸

ارسال شده در 14 آبان 1400 توسط نجفی زهرا در بدون موضوع

در سطح سؤال (item level)

تابع هدف در تست انطباقی متفاوت از تست‌های ثابت است، ولی بقیه قیود آن مانند تست ثابت می‌باشد. بنابراین، این واقعیت نشان می‌دهد که یک تست انطباقی می‌تواند همانند یک تست ثابت، شامل هر نوع ویژگی باشد. تفاوت دیگری که تست انطباقی از ثابت در این نوع مدل یابی دارد، پویایی آن است، که در تابع هدف و قیدی که در سطح خرده آزمون قرار داده شده، خود را نشان می‌دهد. برآورد جدید تابع هدف، انتخاب سؤالات انطباقی را با توجه به برآورد موقتی توانایی، امکان‌پذیر می‌کند. با انجام این نوع مدل یابی، آزمون ویژگی‌های مطلوب خود را برای برآورد ارائه می‌کند (وندرلیندن، b 2005).

محدودیت‌های رویکرد برنامه‌نویسی ریاضی در طراحی خزانه‌ی سؤال بهینه
طراحی خزانه‌ی سؤال با روش برنامه‌نویسی ریاضی به روش تست سایه در انتخاب سؤال وابسته است و به دانش نرم‌افزار بهینه‌سازی ویژه‌ای نیاز دارد. بسته به روشی که صفات سؤال تقسیم‌بندی می‌شوند، فضای طراحی می‌تواند بسیار بزرگ شود و فرایند شبیه‌سازی از لحاظ محاسباتی دشوار شود. یک محدودیت بالقوه‌ این رویکرد آن است که به نرم افزارهای جبر خطی از قبیل CPLEX و LINDO برای به‌دست آوردن راه‌حل بهینه نیاز دارد، که کاربرد این روش را کمی دشوار می‌کند و ممکن است، کدها و معادلات آن برای اکثریت کاربران دردسترس نباشد، که در این صورت اگر برنامه نیاز به اصلاح و یا تغییر داشته باشد، کنترلی بر آن نداشته باشند و چه بسا این احتمال وجود دارد که همیشه راه‌حل قابل اجرا و عملی^[۱۶۳] دردسترس نباشد (چانگ^[۱۶۴]، ۲۰۰۷؛ روبین^[۱۶۵] و همکارانش، ۲۰۰۵). همچنین در این رویکرد فرض بر این است که، سؤالات از قبل در خزانه موجود هستند و از روی آنها یک خزانه کوچک‌تر سرهم می‌شود (گو و ریکیسی، ۲۰۰۷). در این رویکرد از ویژگی‌های یک خزانه‌ی سؤال موجود به عنوان نقطه شروع استفاده می‌شود (ریکیسی، ۲۰۱۰).
مدل یابی روش انتخاب سؤال مدل انحرافات وزن‌دار^[۱۶۶] (WDM)
از آنجا که اجرای روش تست سایه (STA)، در مقیاس بزرگ، به مسئله‌ای بسیار بزرگ تبدیل می‌شود که حلّ مسائل سرهم کردن تست را با مشکل روبرو می‌کند، از روش برنامه‌نویسی خطی (WDM) به عنوان جایگزین استفاده می‌شود. این روش برای سرهم کردن تست‌های چندگانه و تست‌های سنجش انطباقی به روش مؤثرتری عمل می‌کند. در این روش، ابتدا پیش‌بینی جستجوی راه حلّ برای تست کامل صورت می‌گیرد و همزمان هم قابل حلّ بودن و هم بهینه بودن تست را در نظر می‌گیرد. این روش جزء روش‌های شهودی^[۱۶۷] حلّ مسائل سرهم کردن تست می‌باشد (وندرلیندن، ۲۰۰۵). این روش در اصل توسط استوکینگ و سوانسون، ۱۹۹۳ به دلیل علاقه و نگرانی آنها در مورد کیفیت ضعیف خزانه‌های سؤال در سرهم کردن تست‌های متوالی در مقیاس بزرگ ایجاد شد. روش WDM به صراحت ویژگی‎های آماری و غیر آماری سؤال را با تعادل مطلوبی بین ویژگی‌های اندازه‌گیری و ساختاری در نظر می‌گیرد. این ویژگی‌ها به‌وسیله‌ی وزن‌هایی که توسط طراحان تست انتخاب می‌شود، در مدل وارد می‌شود. این روش برخلاف روش تست سایه، ویژگی‌های محتوایی را به عنوان اهداف به جای قیود فرمول‌بندی می‌کند. انحراف از اهداف محتوایی وزن داده می‌شود و در تابع هدف به همراه فاصله‌ی آگاهی سؤال از مقدار هدف^[۱۶۸] قرار می‌گیرد (استوکینگ، سوانسون و پیرمن^[۱۶۹] ، ۱۹۹۳). البته این ابزاری بوده است که در بسیاری از روش‌های برنامه‌نویسی ریاضی استفاده ‌شده است و مدل‌های غیرقابل حلّ را قابل اجرا می‌کرده است (بروک، کندریک و مروس^[۱۷۰]، ۱۹۹۸). در CAT، رویکرد WDM سؤالاتی را انتخاب می‌کند که به‌طور متوالی کوچکترین مجموع انحرافات وزن‌دار را دارد.
انتخاب یک سؤال از سه گام تشکیل شده است:
درصورتی‌که سؤالی که قبلاً در تست نبوده به تست اضافه شود، انحراف برای هر یک از قیود محاسبه می‌شود.
انحرافات وزن‌دار در میان همه‌ی قیود جمع می‌شود.
در پایان، سؤالی با کوچکترین مجموع وزن‌دار انحرافات انتخاب می‌شود (استوکینگ و سوانسون، ۱۹۹۳).
در این روش مدل یابی، سؤالات به صورت نشان داده می‌شود، متغیر تصمیم‌گیری را نشان می‌دهد. اگر سؤال در تست وارد شود، و اگر سؤال از تست خارج شود . در این مدل صفات تست همراه قیود غیر روان‌سنجی را نشان می‌دهد. حدود پایین و بالای تعداد سؤالاتی که در آزمون دارای چنین ویژگی‌هایی هستند را به ترتیب با و نشان می‌دهد، البته ممکن است گاهی با یکدیگر برابر باشد. همچنین، اگر سؤال دارای ویژگی باشد، . و اگر سؤال دارای ویژگی نباشد، . تعداد سؤالات در خزانه را نشان می‌دهد، وزن اختصاص داده شده به هر قید را نشان می‌دهد، و به ترتیب کسری حد پایین و مازاد حد بالا را نشان می‌دهند. و ، به ترتیب، اضافی حد پایین و کسری حد بالا را نشان می‌دهد. انحراف از آگاهی هدف را برای یک آزمودنی نشان می‌دهد (استوکینگ، سوانسون و پیرمن ، ۱۹۹۳).
بنابراین، مدل به صورت معادله‌ی (۲-۱۵) نوشته می‌شود (سوانسون و استوکینگ، ۱۹۹۳):
(۲-۱۵)

در ارتباط با قیود ممکن در سطوح زیر می‌باشد:

بنابراین، مشاهده شد که روش WDM با بهره گرفتن از الگوریتم‌های برنامه‌نویسی خطی اعداد صحیح استاندارد حلّ می‌شود. این روش تا حدودی مشکلات روش تست سایه را حلّ می‌کند ولی همانند دیگر روش‌های برنامه‌نویسی خطی دارای مشکلات کد نویسی می‌باشد.
رویکرد دوم: رویکرد اکتشافی
ریکسی (۲۰۰۳، ۲۰۰۴)، به منظور طراحی خزانه‌ی سؤال بهینه رویکرد اندکی متفاوت را مطالعه کرد، و استفاده از برنامه‌ریزی اعداد صحیح را کنار گذاشت. همچنین، در مطالعات گوناگون در مورد طراحی خزانه‌های سؤال بهینه برای CAT استفاده شده است (ریکیسی، ۲۰۰۳، ۲۰۰۴، ۲۰۰۵؛ ریکیسی و هی؛ ۲۰۰۴، ۲۰۰۹) و گو (۲۰۰۷). در این رویکرد فرض نمی‌شود که سؤالات از قبل وجود دارد. درعوض، در این رویکرد سؤالات برحسب پارامترهای IRT شبیه‌سازی می‌شود تا با برآوردهای اخیر توانایی مطابقت داشته باشد و میزان آگاهی به ‌اندازه کافی بهینه‌ای را ایجاد کند. در روش ریکیسی (۲۰۰۳) ابتدا، خزانه‌ی سؤال هدف را بر اساس صفات غیر آماری از قبیل محتوا به خزانه‌های کوچکتری تقسیم‌بندی می‌شوند. سپس فرایند CAT شبیه‌سازی می‌شود، به‌طوری‌که خزانه‌های سؤال کوچکتر به‌طور همزمان ساخته‌شوند. شبیه‌سازی با یک آزمودنی که به‌طور تصادفی از توزیع مورد انتظار استخراج می‌شود، آغاز می‌شود، تا CAT ایجاد شود. هر سؤال شبیه‌سازی می‌شود تا سؤال بهینه‌ای براساس برآورد توانایی اخیر آزمودنی ایجاد شود. فرایند مشابهی برای آزمودنی بعدی نیز تکرار می‌شود. به همین ترتیب سؤالات برای نمونه‌ی بزرگی از آزمودنی‌ها شبیه‌سازی می‌شود و به خزانه‌ی سؤال اضافه می‌شود، و به همین صورت خزانه‌ی سؤال بهینه ساخته می‌شود. در این روش برای تصمیم گیری در مورد اینکه چند مرتبه یک سؤال می‌تواند دوباره استفاده شود، این قابلیت وجود دارد که قواعد کنترل مواجهه در شبیه‌سازی وارد شود. این روش به‌طور موفقیت‌آمیزی با نرم‌افزار‌های برنامه‌نویسی قابل انجام است (گو و ریکیسی، ۲۰۰۷).
روش شبیه‌سازی خزانه‌ی سؤال در رویکرد اکتشافی (ریکیسی)
مفاهیم پایه
همان‌طور که قبلاً بیان شد، خزانه‌ی سؤال لیستی از پارامترهای سؤال برای هر یک از سؤالات خزانه توصیف می‌کند. براین اساس، ایده‌ی اصلی روش ریکیسی، تعیین پارامترهای سؤال براساس آزمودنی‌هایی است که به طور تصادفی از توزیع مورد انتظار آزمودنی‌ها نمونه‌گیری شدند. در این روش CAT های شبیه‌سازی شده‌ای برای آزمودنی‌ها اجرا می‌شوند، در این روش فرض بر این است که هر سؤالی که برای آزمودنی اجرا می‌شود با برآورد موقتی توانایی بهترین برازش را دارد. پس از اینکه از تعداد مشخصی از آزمودنی‌ها آزمون گرفته شد، اجتماع سؤالات ساختگی، خزانه‌ی سؤال بهینه برای برنامه‌ی CAT می‌باشد (ریکیسی، ۲۰۰۳).
از لحاظ نظری، برآورد هر  منحصربه‌فرد می‌باشد، و سؤالاتی که به‌طور بهینه‌ای برای برآورد مناسب هستند، پارامترهای سؤال منحصربه‌فردی دارند. فرایند شبیه‌سازی که در بالا توصیف شد، تعداد زیادی سؤال در خزانه به تعداد کل سؤالاتی که برای آزمودنی‌ها اجرا می‌شود، ایجاد می‌کند یعنی، طول آزمون ضرب در تعداد آزمودنی‌ها. با این‌وجود، در عمل، عملکرد سؤالات با سؤالات دیگری که پارامترهایی با مقادیر کمی متفاوت دارند، بسیار مشابه است. این سؤالات در خزانه اضافی هستند، زیرا یکی از آنها می‌تواند برای برآورد سطح توانایی آزمودنی با کاهش بسیار کمی در دقت اندازه‌گیری، استفاده شود (گو و ریکیسی، ۲۰۰۷).
به همین منظور در این رویکرد مفهوم “bin” ، به‌منظور محاسبه‌ی فراوانی سؤالاتی با پارامترهای مشابه مطرح شد. یک “bin”، یک مخزن سؤال است، که حدود آن براساس صفات کمّی یا عددی سؤالات مشخص می‌شود، و تعداد سؤالاتی که درون یک “bin” هستند، صفات مشابهی دارند و می‌توانند به جای یکدیگر استفاده شوند. اگر سؤالات بر اساس مدل تک پارامتری لوجستیک (۱PLM) مدرج شوند، در انتخاب سؤالات تنها پارامتر دشواری (پارامتر b) اثر دارد. به عبارت دیگر، “bin” ها به صورت دامنه‌هایی روی مقیاس  ، تعریف می‌شود. برای مثال، دو “bin” متوالی با پهنای ۲/۰ روی مقیاس  به صورت روبرو؛ (۲/۰: ۰) و (۴/۰: ۲/۰) نوشته‌ می‌شود. سؤالاتی با پارامترهای b برابر با ۱۱/۰ و ۱۳/۰ در انتخاب سؤال در برنامه‌ی CAT می‌توانند به جای یکدیگر انتخاب شوند، زیرا آنها به  متعلق می‌باشند. بنابراین، الگوی طرح خزانه‌ی سؤال به لیستی از “bin” هایی با سؤالاتی با ویژگی‌های مشابه، تبدیل می‌شود(هی و ریکیسی، ۲۰۱۰؛ گو و ریکیسی، ۲۰۰۷).
پهنای “bin” هایی که یک خزانه‌ی سؤال را تعریف می‌کنند، باید به‌اندازه‌ی کافی کوچک باشند، تا جایی که همه‌ی سؤالات به یک اندازه برای برآورد سطح توانایی آزمودنی مناسب باشند. حال اگر پهنای “bin” خیلی بزرگ باشد، سؤالاتی که در یک “bin” قرار می‌گیرند، ممکن است از میزان متفاوتی سودمندی در برآورد سطح توانایی برخوردار باشند. دیدگاهی که برای تعیین پهنای “bin” در این روش وجود دارد، عبارت است از، تعیین دامنه‌ای روی مقیاس  برای سؤالی که تابع آگاهی‌اش بیشینه است و دامنه‌ی اطراف نقطه بیشینه خیلی پایین نباشد. “خیلی پایین نبودن^[۱۷۱]” اغلب به‌طور اختیاری به‌عنوان %۹۸ بیشینگی تعریف می‌شود. به‌طور یقین، در این استدلال مقدار %۹۶ یا %۹۷ هم می‌تواند مناسب باشد( ریکیسی، ۲۰۰۷؛ گو و ریکیسی، ۲۰۰۷).
محصول نهایی طراحی خزانه‌ی سؤال بهینه، آرایه‌ای از اعداد صحیح  می‌باشد، که نشان می‌دهد چه تعداد سؤال در هر “bin” برای سرهم کردن همه‌ی آزمون‌ها در برنامه‌ی CAT مورد نیاز است. اگر کنترل مواجهه در شبیه‌سازی به‌کار نرود، اعداد صحیح بین صفر و طول آزمون L محدود می‌شود، زیرا، سؤالات در هر “bin” دوباره می‌توانند استفاده‌شوند و یک آزمون به بیشتر از L سؤال در هر “bin” نیاز ندارد. امّا زمانی‌که کنترل مواجهه‌ سؤال در شبیه سازی به‌کار می‌رود، تعدادی از “bin” ها ممکن است شامل سؤالات بیشتری باشند، تا آنجاکه، نرخ‌های مواجهه‌ توزیع شده سؤالات در “bin” هایی که مواجهه‌ زیادی داشتند، از نرخ مواجهه‌ هدف کمتر باشد(گو و ریکیسی، ۲۰۰۷).
کاربرد روش ریکیسی برای مدل تک پارامتری لوجستیک ۱PLM
زمانی‌که سؤالات با مدل تک پارامتری مدرج می‌شود، تنها عامل روان‌سنجی که تعیین می‌کند یک سؤال بیشترین آگاهی در برآورد  ایجاد می‌کند، پارامتر دشواری سؤال است. بنابراین زمانی‌که خزانه‌های سؤال بهینه‌ی طراحی ‌شده با مدل تک پارامتری مدرج می‌شود، روش ریکیسی (۲۰۰۳)، روی تطابق پارامترهای b سؤال و برآوردهای موقتی  تمرکز دارد. در این مدل روش ریکیسی شامل چهار گام می‌باشد:
درک دقیق و روشن از ویژگی‌های برنامه‌ی CAT، زیرا، طراحی خزانه‌ی سؤال باید شیوه‌ی آزمون را به‌دقیق‌ترین حالت ممکن طراحی کند.
تعیین صفات طبقه‌ای مورد نیاز برای سؤالات، از قبیل حوزه‌های محتوایی و تقسیم‌بندی خزانه‌ی سؤال به خزانه‌ی کوچکتر بر اساس این صفات. اگر آزمون بیش از یک صفت طبقه‌ای داشته ‌باشد، هر صفت جداگانه، یک بخش از خزانه‌ی سؤال را گزارش می‌کند. البته این گام شیوه‌ی شبیه‌سازی را با تعیین صفات کمّی از قبیل ویژگی‌های روان‌سنجی سؤال بهینه، آسان می‌کند.
اجرای شبیه‌سازی CAT روی آزمودنی‌هایی که به‌طور‌تصادفی از توزیع توانایی مورد انتظار نمونه‌گیری شدند. اگر توزیع توانایی‌ها از توزیع نرمال استاندارد پیروی کند، سطح اولیه‌ی توانایی در مقیاس  برای آزمودنی‌ها برابر با صفر می‌باشد. سؤال اول برای همه‌ی آزمودنی‌ها یکسان است. این سؤال، سؤالی با بیشینه‌ی آگاهی در  برابر با صفر می‌باشد. سؤال بهینه‌ی بعدی به پاسخ آزمودنی‌ به سؤال اول و برآورد  او بستگی دارد. سؤالات بعدی طوری انتخاب می‌شوند تا بیشینه‌ی آگاهی در جدیدترین برآورد  داشته‌باشند. اگر سؤالات با مدل یک پارامتری مدرج شوند، سؤال بهینه سؤالی است که مقدار b مساوی با برآورد اخیر  داشته‌باشد. همچنان‌که سؤالات آزمون انتخاب می‌شوند و اجرا می‌شوند، به همین منوال به “bin” هایی که مساوی با مقادیر b شان است، اضافه می‌شوند.
سؤالات اضافه‌شده به “bin” ها، توزیع سؤالات را برای یک آزمودنی نشان می‌دهند. برای ساخت خزانه‌ی سؤال برای کل آزمون، اجتماع توزیع‌ها برای نمونه‌ای از آزمودنی‌ها محاسبه می‌شود. نتایج عملیات اجتماع، خزانه‌ی سؤال برای این طرح CAT و نمونه‌ی مشخصی از آزمودنی‌ها، می‌باشد.
این روش برای خزانه‌هایی که با مدل تک پارامتری مدرج می‌شود و زمانی‌که پارامتر دشواری سؤال تنها عامل تعیین میزان آگاهی یک سؤال می‌باشد، به‌خوبی کار می‌کند. در این مورد، سؤالاتی که مقدار b آنها برابر با برآورد اخیر  است، همیشه بیشینه آگاهی در برآورد  ایجاد می‌کنند. بنابراین، این سؤالات همیشه در مقایسه با سؤالاتی که پارامترهای b متفاوتی با  دارند، سؤالات بهینه‌ای در برآورد  محسوب می‌شوند. زمانی‌که سؤالات با مدل دو و سه پارامتری مدرج می‌شوند، میزان آگاهی سؤالات، حتی زمانی‌که پارامترهای b برابری دارند، متفاوت است، زیرا، پارامترهای a و c متفاوتی دارند (گو و ریکیسی، ۲۰۰۷).
کاربرد روش ریکیسی برای مدل سه پارامتری لوجستیک ۳PLM
در مدل سه پارامتری، آگاهی سؤال با ترکیب سه پارامتر تعیین می‌شود: پارامتر ضریب تشخیص a ، پارامتر دشواری سؤال b و پارامتر عامل حدس c. با فرض اینکه، پارامتر b به سطح  نزدیک شود، و پارمتر a خیلی بزرگ باشد، یک سؤال مقدار بی نهایتی آگاهی در هر سطح  می‌تواند ایجاد کند. اگرچه، غیر ممکن است که سؤالاتی با پارامترهای a بسیار بزرگ داشته ‌باشیم، امّا این مورد معمول است که سؤالات نسبت به یکدیگر پارامترهای a متفاوتی داشته‌ باشند. این موضوع نشان می‌دهد، که در یک سطح  معین، سؤالی که به بیشینه‌ی آگاهی می‌رسد، ممکن است لزوماً حداکثر آگاهی در آن سطح  ایجاد نکند. به‌عبارت دیگر، سؤالی که بیشترین میزان آگاهی‌اش در یک سطح  است، ممکن است، آگاهی بیشتری نسبت به سؤالات دیگر در خزانه‌ی سؤال، برای بیش از یک دامنه از سطوح  ایجاد کند. همچنان‌که در نمودار ۲-۶ نشان داده ‌شده است، یک سؤال با پارامترهای  آگاهی بیشتری در سطح  برابر با  ، نسبت به سؤالی با پارامترهای  ایجاد می‌کند، با این که، سؤال دوم، در همین سطح  به نقطه‌ی اوج آگاهی خود می‌رسد.
نمودار ۲-۶: میزان آگاهی سؤال فراهم شده بوسیله‌ی دو سؤال متفاوت
بنابراین، سؤالی که بیشترین میزان آگاهی در یک سطح  ایجاد می‌کند، لزوماً سؤال بهینه‌ای برای آن سطح  محسوب نمی‌شود. به‌علاوه، عملی نیست که خزانه‌ی سؤال بهینه را به عنوان خزانه‌ای در نظر بگیریم که شامل سؤالاتی است که پارامترهای a بسیار بزرگ دارند. در عوض، خزانه‌ی سؤال بهینه باید شامل سؤالاتی با دامنه‌ای از پارامترهای ضریب تشخیص باشد، به‌طوری‌که، آزمون‌هایی که از این خزانه سرهم می‌شوند، میزان دقت کافی که برنامه‌ی CAT نیاز دارد را فراهم کنند (گو و ریکیسی، ۲۰۰۷).
تعریف یک طرح bin

نوین گرایان فردا - مجله علمی و آموزشی

نوین گرایان فردا - مجله علمی و آموزشی

جستجو

فیدهای XML

آخرین مطالب