در سطح سؤال (item level)
تابع هدف در تست انطباقی متفاوت از تستهای ثابت است، ولی بقیه قیود آن مانند تست ثابت میباشد. بنابراین، این واقعیت نشان میدهد که یک تست انطباقی میتواند همانند یک تست ثابت، شامل هر نوع ویژگی باشد. تفاوت دیگری که تست انطباقی از ثابت در این نوع مدل یابی دارد، پویایی آن است، که در تابع هدف و قیدی که در سطح خرده آزمون قرار داده شده، خود را نشان میدهد. برآورد جدید تابع هدف، انتخاب سؤالات انطباقی را با توجه به برآورد موقتی توانایی، امکانپذیر میکند. با انجام این نوع مدل یابی، آزمون ویژگیهای مطلوب خود را برای برآورد ارائه میکند (وندرلیندن، b 2005).
محدودیتهای رویکرد برنامهنویسی ریاضی در طراحی خزانهی سؤال بهینه
طراحی خزانهی سؤال با روش برنامهنویسی ریاضی به روش تست سایه در انتخاب سؤال وابسته است و به دانش نرمافزار بهینهسازی ویژهای نیاز دارد. بسته به روشی که صفات سؤال تقسیمبندی میشوند، فضای طراحی میتواند بسیار بزرگ شود و فرایند شبیهسازی از لحاظ محاسباتی دشوار شود. یک محدودیت بالقوه این رویکرد آن است که به نرم افزارهای جبر خطی از قبیل CPLEX و LINDO برای بهدست آوردن راهحل بهینه نیاز دارد، که کاربرد این روش را کمی دشوار میکند و ممکن است، کدها و معادلات آن برای اکثریت کاربران دردسترس نباشد، که در این صورت اگر برنامه نیاز به اصلاح و یا تغییر داشته باشد، کنترلی بر آن نداشته باشند و چه بسا این احتمال وجود دارد که همیشه راهحل قابل اجرا و عملی[۱۶۳] دردسترس نباشد (چانگ[۱۶۴]، ۲۰۰۷؛ روبین[۱۶۵] و همکارانش، ۲۰۰۵). همچنین در این رویکرد فرض بر این است که، سؤالات از قبل در خزانه موجود هستند و از روی آنها یک خزانه کوچکتر سرهم میشود (گو و ریکیسی، ۲۰۰۷). در این رویکرد از ویژگیهای یک خزانهی سؤال موجود به عنوان نقطه شروع استفاده میشود (ریکیسی، ۲۰۱۰).
مدل یابی روش انتخاب سؤال مدل انحرافات وزندار[۱۶۶] (WDM)
از آنجا که اجرای روش تست سایه (STA)، در مقیاس بزرگ، به مسئلهای بسیار بزرگ تبدیل میشود که حلّ مسائل سرهم کردن تست را با مشکل روبرو میکند، از روش برنامهنویسی خطی (WDM) به عنوان جایگزین استفاده میشود. این روش برای سرهم کردن تستهای چندگانه و تستهای سنجش انطباقی به روش مؤثرتری عمل میکند. در این روش، ابتدا پیشبینی جستجوی راه حلّ برای تست کامل صورت میگیرد و همزمان هم قابل حلّ بودن و هم بهینه بودن تست را در نظر میگیرد. این روش جزء روشهای شهودی[۱۶۷] حلّ مسائل سرهم کردن تست میباشد (وندرلیندن، ۲۰۰۵). این روش در اصل توسط استوکینگ و سوانسون، ۱۹۹۳ به دلیل علاقه و نگرانی آنها در مورد کیفیت ضعیف خزانههای سؤال در سرهم کردن تستهای متوالی در مقیاس بزرگ ایجاد شد. روش WDM به صراحت ویژگیهای آماری و غیر آماری سؤال را با تعادل مطلوبی بین ویژگیهای اندازهگیری و ساختاری در نظر میگیرد. این ویژگیها بهوسیلهی وزنهایی که توسط طراحان تست انتخاب میشود، در مدل وارد میشود. این روش برخلاف روش تست سایه، ویژگیهای محتوایی را به عنوان اهداف به جای قیود فرمولبندی میکند. انحراف از اهداف محتوایی وزن داده میشود و در تابع هدف به همراه فاصلهی آگاهی سؤال از مقدار هدف[۱۶۸] قرار میگیرد (استوکینگ، سوانسون و پیرمن[۱۶۹] ، ۱۹۹۳). البته این ابزاری بوده است که در بسیاری از روشهای برنامهنویسی ریاضی استفاده شده است و مدلهای غیرقابل حلّ را قابل اجرا میکرده است (بروک، کندریک و مروس[۱۷۰]، ۱۹۹۸). در CAT، رویکرد WDM سؤالاتی را انتخاب میکند که بهطور متوالی کوچکترین مجموع انحرافات وزندار را دارد.
انتخاب یک سؤال از سه گام تشکیل شده است:
درصورتیکه سؤالی که قبلاً در تست نبوده به تست اضافه شود، انحراف برای هر یک از قیود محاسبه میشود.
انحرافات وزندار در میان همهی قیود جمع میشود.
در پایان، سؤالی با کوچکترین مجموع وزندار انحرافات انتخاب میشود (استوکینگ و سوانسون، ۱۹۹۳).
در این روش مدل یابی، سؤالات به صورت نشان داده میشود، متغیر تصمیمگیری را نشان میدهد. اگر سؤال در تست وارد شود، و اگر سؤال از تست خارج شود . در این مدل صفات تست همراه قیود غیر روانسنجی را نشان میدهد. حدود پایین و بالای تعداد سؤالاتی که در آزمون دارای چنین ویژگیهایی هستند را به ترتیب با و نشان میدهد، البته ممکن است گاهی با یکدیگر برابر باشد. همچنین، اگر سؤال دارای ویژگی باشد، . و اگر سؤال دارای ویژگی نباشد، . تعداد سؤالات در خزانه را نشان میدهد، وزن اختصاص داده شده به هر قید را نشان میدهد، و به ترتیب کسری حد پایین و مازاد حد بالا را نشان میدهند. و ، به ترتیب، اضافی حد پایین و کسری حد بالا را نشان میدهد. انحراف از آگاهی هدف را برای یک آزمودنی نشان میدهد (استوکینگ، سوانسون و پیرمن ، ۱۹۹۳).
بنابراین، مدل به صورت معادلهی (۲-۱۵) نوشته میشود (سوانسون و استوکینگ، ۱۹۹۳):
(۲-۱۵)
در ارتباط با قیود ممکن در سطوح زیر میباشد:
و
بنابراین، مشاهده شد که روش WDM با بهره گرفتن از الگوریتمهای برنامهنویسی خطی اعداد صحیح استاندارد حلّ میشود. این روش تا حدودی مشکلات روش تست سایه را حلّ میکند ولی همانند دیگر روشهای برنامهنویسی خطی دارای مشکلات کد نویسی میباشد.
رویکرد دوم: رویکرد اکتشافی
ریکسی (۲۰۰۳، ۲۰۰۴)، به منظور طراحی خزانهی سؤال بهینه رویکرد اندکی متفاوت را مطالعه کرد، و استفاده از برنامهریزی اعداد صحیح را کنار گذاشت. همچنین، در مطالعات گوناگون در مورد طراحی خزانههای سؤال بهینه برای CAT استفاده شده است (ریکیسی، ۲۰۰۳، ۲۰۰۴، ۲۰۰۵؛ ریکیسی و هی؛ ۲۰۰۴، ۲۰۰۹) و گو (۲۰۰۷). در این رویکرد فرض نمیشود که سؤالات از قبل وجود دارد. درعوض، در این رویکرد سؤالات برحسب پارامترهای IRT شبیهسازی میشود تا با برآوردهای اخیر توانایی مطابقت داشته باشد و میزان آگاهی به اندازه کافی بهینهای را ایجاد کند. در روش ریکیسی (۲۰۰۳) ابتدا، خزانهی سؤال هدف را بر اساس صفات غیر آماری از قبیل محتوا به خزانههای کوچکتری تقسیمبندی میشوند. سپس فرایند CAT شبیهسازی میشود، بهطوریکه خزانههای سؤال کوچکتر بهطور همزمان ساختهشوند. شبیهسازی با یک آزمودنی که بهطور تصادفی از توزیع مورد انتظار استخراج میشود، آغاز میشود، تا CAT ایجاد شود. هر سؤال شبیهسازی میشود تا سؤال بهینهای براساس برآورد توانایی اخیر آزمودنی ایجاد شود. فرایند مشابهی برای آزمودنی بعدی نیز تکرار میشود. به همین ترتیب سؤالات برای نمونهی بزرگی از آزمودنیها شبیهسازی میشود و به خزانهی سؤال اضافه میشود، و به همین صورت خزانهی سؤال بهینه ساخته میشود. در این روش برای تصمیم گیری در مورد اینکه چند مرتبه یک سؤال میتواند دوباره استفاده شود، این قابلیت وجود دارد که قواعد کنترل مواجهه در شبیهسازی وارد شود. این روش بهطور موفقیتآمیزی با نرمافزارهای برنامهنویسی قابل انجام است (گو و ریکیسی، ۲۰۰۷).
روش شبیهسازی خزانهی سؤال در رویکرد اکتشافی (ریکیسی)
مفاهیم پایه
همانطور که قبلاً بیان شد، خزانهی سؤال لیستی از پارامترهای سؤال برای هر یک از سؤالات خزانه توصیف میکند. براین اساس، ایدهی اصلی روش ریکیسی، تعیین پارامترهای سؤال براساس آزمودنیهایی است که به طور تصادفی از توزیع مورد انتظار آزمودنیها نمونهگیری شدند. در این روش CAT های شبیهسازی شدهای برای آزمودنیها اجرا میشوند، در این روش فرض بر این است که هر سؤالی که برای آزمودنی اجرا میشود با برآورد موقتی توانایی بهترین برازش را دارد. پس از اینکه از تعداد مشخصی از آزمودنیها آزمون گرفته شد، اجتماع سؤالات ساختگی، خزانهی سؤال بهینه برای برنامهی CAT میباشد (ریکیسی، ۲۰۰۳).
از لحاظ نظری، برآورد هر منحصربهفرد میباشد، و سؤالاتی که بهطور بهینهای برای برآورد مناسب هستند، پارامترهای سؤال منحصربهفردی دارند. فرایند شبیهسازی که در بالا توصیف شد، تعداد زیادی سؤال در خزانه به تعداد کل سؤالاتی که برای آزمودنیها اجرا میشود، ایجاد میکند یعنی، طول آزمون ضرب در تعداد آزمودنیها. با اینوجود، در عمل، عملکرد سؤالات با سؤالات دیگری که پارامترهایی با مقادیر کمی متفاوت دارند، بسیار مشابه است. این سؤالات در خزانه اضافی هستند، زیرا یکی از آنها میتواند برای برآورد سطح توانایی آزمودنی با کاهش بسیار کمی در دقت اندازهگیری، استفاده شود (گو و ریکیسی، ۲۰۰۷).
به همین منظور در این رویکرد مفهوم “bin” ، بهمنظور محاسبهی فراوانی سؤالاتی با پارامترهای مشابه مطرح شد. یک “bin”، یک مخزن سؤال است، که حدود آن براساس صفات کمّی یا عددی سؤالات مشخص میشود، و تعداد سؤالاتی که درون یک “bin” هستند، صفات مشابهی دارند و میتوانند به جای یکدیگر استفاده شوند. اگر سؤالات بر اساس مدل تک پارامتری لوجستیک (۱PLM) مدرج شوند، در انتخاب سؤالات تنها پارامتر دشواری (پارامتر b) اثر دارد. به عبارت دیگر، “bin” ها به صورت دامنههایی روی مقیاس ، تعریف میشود. برای مثال، دو “bin” متوالی با پهنای ۲/۰ روی مقیاس به صورت روبرو؛ (۲/۰: ۰) و (۴/۰: ۲/۰) نوشته میشود. سؤالاتی با پارامترهای b برابر با ۱۱/۰ و ۱۳/۰ در انتخاب سؤال در برنامهی CAT میتوانند به جای یکدیگر انتخاب شوند، زیرا آنها به متعلق میباشند. بنابراین، الگوی طرح خزانهی سؤال به لیستی از “bin” هایی با سؤالاتی با ویژگیهای مشابه، تبدیل میشود(هی و ریکیسی، ۲۰۱۰؛ گو و ریکیسی، ۲۰۰۷).
پهنای “bin” هایی که یک خزانهی سؤال را تعریف میکنند، باید بهاندازهی کافی کوچک باشند، تا جایی که همهی سؤالات به یک اندازه برای برآورد سطح توانایی آزمودنی مناسب باشند. حال اگر پهنای “bin” خیلی بزرگ باشد، سؤالاتی که در یک “bin” قرار میگیرند، ممکن است از میزان متفاوتی سودمندی در برآورد سطح توانایی برخوردار باشند. دیدگاهی که برای تعیین پهنای “bin” در این روش وجود دارد، عبارت است از، تعیین دامنهای روی مقیاس برای سؤالی که تابع آگاهیاش بیشینه است و دامنهی اطراف نقطه بیشینه خیلی پایین نباشد. “خیلی پایین نبودن[۱۷۱]” اغلب بهطور اختیاری بهعنوان %۹۸ بیشینگی تعریف میشود. بهطور یقین، در این استدلال مقدار %۹۶ یا %۹۷ هم میتواند مناسب باشد( ریکیسی، ۲۰۰۷؛ گو و ریکیسی، ۲۰۰۷).
محصول نهایی طراحی خزانهی سؤال بهینه، آرایهای از اعداد صحیح میباشد، که نشان میدهد چه تعداد سؤال در هر “bin” برای سرهم کردن همهی آزمونها در برنامهی CAT مورد نیاز است. اگر کنترل مواجهه در شبیهسازی بهکار نرود، اعداد صحیح بین صفر و طول آزمون L محدود میشود، زیرا، سؤالات در هر “bin” دوباره میتوانند استفادهشوند و یک آزمون به بیشتر از L سؤال در هر “bin” نیاز ندارد. امّا زمانیکه کنترل مواجهه سؤال در شبیه سازی بهکار میرود، تعدادی از “bin” ها ممکن است شامل سؤالات بیشتری باشند، تا آنجاکه، نرخهای مواجهه توزیع شده سؤالات در “bin” هایی که مواجهه زیادی داشتند، از نرخ مواجهه هدف کمتر باشد(گو و ریکیسی، ۲۰۰۷).
کاربرد روش ریکیسی برای مدل تک پارامتری لوجستیک ۱PLM
زمانیکه سؤالات با مدل تک پارامتری مدرج میشود، تنها عامل روانسنجی که تعیین میکند یک سؤال بیشترین آگاهی در برآورد ایجاد میکند، پارامتر دشواری سؤال است. بنابراین زمانیکه خزانههای سؤال بهینهی طراحی شده با مدل تک پارامتری مدرج میشود، روش ریکیسی (۲۰۰۳)، روی تطابق پارامترهای b سؤال و برآوردهای موقتی تمرکز دارد. در این مدل روش ریکیسی شامل چهار گام میباشد:
درک دقیق و روشن از ویژگیهای برنامهی CAT، زیرا، طراحی خزانهی سؤال باید شیوهی آزمون را بهدقیقترین حالت ممکن طراحی کند.
تعیین صفات طبقهای مورد نیاز برای سؤالات، از قبیل حوزههای محتوایی و تقسیمبندی خزانهی سؤال به خزانهی کوچکتر بر اساس این صفات. اگر آزمون بیش از یک صفت طبقهای داشته باشد، هر صفت جداگانه، یک بخش از خزانهی سؤال را گزارش میکند. البته این گام شیوهی شبیهسازی را با تعیین صفات کمّی از قبیل ویژگیهای روانسنجی سؤال بهینه، آسان میکند.
اجرای شبیهسازی CAT روی آزمودنیهایی که بهطورتصادفی از توزیع توانایی مورد انتظار نمونهگیری شدند. اگر توزیع تواناییها از توزیع نرمال استاندارد پیروی کند، سطح اولیهی توانایی در مقیاس برای آزمودنیها برابر با صفر میباشد. سؤال اول برای همهی آزمودنیها یکسان است. این سؤال، سؤالی با بیشینهی آگاهی در برابر با صفر میباشد. سؤال بهینهی بعدی به پاسخ آزمودنی به سؤال اول و برآورد او بستگی دارد. سؤالات بعدی طوری انتخاب میشوند تا بیشینهی آگاهی در جدیدترین برآورد داشتهباشند. اگر سؤالات با مدل یک پارامتری مدرج شوند، سؤال بهینه سؤالی است که مقدار b مساوی با برآورد اخیر داشتهباشد. همچنانکه سؤالات آزمون انتخاب میشوند و اجرا میشوند، به همین منوال به “bin” هایی که مساوی با مقادیر b شان است، اضافه میشوند.
سؤالات اضافهشده به “bin” ها، توزیع سؤالات را برای یک آزمودنی نشان میدهند. برای ساخت خزانهی سؤال برای کل آزمون، اجتماع توزیعها برای نمونهای از آزمودنیها محاسبه میشود. نتایج عملیات اجتماع، خزانهی سؤال برای این طرح CAT و نمونهی مشخصی از آزمودنیها، میباشد.
این روش برای خزانههایی که با مدل تک پارامتری مدرج میشود و زمانیکه پارامتر دشواری سؤال تنها عامل تعیین میزان آگاهی یک سؤال میباشد، بهخوبی کار میکند. در این مورد، سؤالاتی که مقدار b آنها برابر با برآورد اخیر است، همیشه بیشینه آگاهی در برآورد ایجاد میکنند. بنابراین، این سؤالات همیشه در مقایسه با سؤالاتی که پارامترهای b متفاوتی با دارند، سؤالات بهینهای در برآورد محسوب میشوند. زمانیکه سؤالات با مدل دو و سه پارامتری مدرج میشوند، میزان آگاهی سؤالات، حتی زمانیکه پارامترهای b برابری دارند، متفاوت است، زیرا، پارامترهای a و c متفاوتی دارند (گو و ریکیسی، ۲۰۰۷).
کاربرد روش ریکیسی برای مدل سه پارامتری لوجستیک ۳PLM
در مدل سه پارامتری، آگاهی سؤال با ترکیب سه پارامتر تعیین میشود: پارامتر ضریب تشخیص a ، پارامتر دشواری سؤال b و پارامتر عامل حدس c. با فرض اینکه، پارامتر b به سطح نزدیک شود، و پارمتر a خیلی بزرگ باشد، یک سؤال مقدار بی نهایتی آگاهی در هر سطح میتواند ایجاد کند. اگرچه، غیر ممکن است که سؤالاتی با پارامترهای a بسیار بزرگ داشته باشیم، امّا این مورد معمول است که سؤالات نسبت به یکدیگر پارامترهای a متفاوتی داشته باشند. این موضوع نشان میدهد، که در یک سطح معین، سؤالی که به بیشینهی آگاهی میرسد، ممکن است لزوماً حداکثر آگاهی در آن سطح ایجاد نکند. بهعبارت دیگر، سؤالی که بیشترین میزان آگاهیاش در یک سطح است، ممکن است، آگاهی بیشتری نسبت به سؤالات دیگر در خزانهی سؤال، برای بیش از یک دامنه از سطوح ایجاد کند. همچنانکه در نمودار ۲-۶ نشان داده شده است، یک سؤال با پارامترهای آگاهی بیشتری در سطح برابر با ، نسبت به سؤالی با پارامترهای ایجاد میکند، با این که، سؤال دوم، در همین سطح به نقطهی اوج آگاهی خود میرسد.
نمودار ۲-۶: میزان آگاهی سؤال فراهم شده بوسیلهی دو سؤال متفاوت
بنابراین، سؤالی که بیشترین میزان آگاهی در یک سطح ایجاد میکند، لزوماً سؤال بهینهای برای آن سطح محسوب نمیشود. بهعلاوه، عملی نیست که خزانهی سؤال بهینه را به عنوان خزانهای در نظر بگیریم که شامل سؤالاتی است که پارامترهای a بسیار بزرگ دارند. در عوض، خزانهی سؤال بهینه باید شامل سؤالاتی با دامنهای از پارامترهای ضریب تشخیص باشد، بهطوریکه، آزمونهایی که از این خزانه سرهم میشوند، میزان دقت کافی که برنامهی CAT نیاز دارد را فراهم کنند (گو و ریکیسی، ۲۰۰۷).
تعریف یک طرح bin