وزن آگاهی نیز بر اساس تحقیقات (هی و ریکیسی، ۲۰۱۰)، برابر با یک انتخاب شد. زیرا با ثباتترین نتایج را نشان میدهد.
ابزار پژوهش در CAT عملیاتی
تعداد سؤالات طراحی شده برای خزانهی سؤال عملیاتی: تعداد ۹۲۱ سؤال از محتوای دروس ریاضی دانشآموزان رشته ریاضی فیزیک (حسابان - دیفرانسیل، جبر خطی و هندسه) توسط ۱۵ طراح در طول یک سال (سال تحصیلی ۹۲-۹۱) ساخته شد، سپس، به طور همزمان سؤالات توسط ۱۰ متخصص موضوعی که سعی شد از بین دانشجویان رشتههای تخصصی ریاضی انتخاب شوند، بررسی و ارزیابی شدند و مشکلات محتوایی و ساختاری آنها برطرف شد. همچنین، ویژگیهای روانسنجی و آماری سؤالات توسط ۳ متخصص روانسنجی که به درس ریاضی نیز آشنایی داشتند، بررسی شد. در پایان، سؤالات بر روی ۵۰۰ نفر ثابت از شرکتکنندگان در آزمونهای آزمایشی سال ۹۲-۹۱ موسسهی آیندسازان در طول ۱۳ مرحله در طول یک سال تحصیلی اجرا شد. و پارامترهای سؤالات بر اساس مدل IRT سه پارامتری از طریق نرم افزار BILOG-MG محاسبه و در مخزنی نگهداری شدند. سؤالات برای جامعهای با توزیع نرمال و بر اساس وزنهای محتوایی که توسط طراحان و مدرسان تعیین شد، طراحی شدند.
نحوهی طراحی برنامهی CAT
در این پژوهش برنامهی CAT از طریق زبان PHP نوشته شد. همچنین، از پایگاه دادهی MYSQL برای ذخیرهی سؤالات استفاده شد. در این برنامه تمام ویژگیهای بیان شده در بالا در آزمون CAT عملیاتی نیز وارد شد.
جامعه و نمونه پژوهش در CAT عملیاتی
جامعهی آزمون CAT عملیاتی: این آزمون برای تمام دانشآموزان مقطع پیشدانشگاهی که خود را برای کنکور سراسری ریاضی آماده میکنند، قابلیت اجرا دارد. بر اساس نتایج بدست آمده از سازمان سنجش کل کشور، توزیع این جامعه نرمال با میانگین صفر و انحراف معیار ۱ است.
نمونهی آزمون CAT عملیاتی: این آزمون بر روی ۳۵۰ نفر از دانشآموزانی که خود را برای آزمون کنکور سراسری ۱۳۹۳ آماده میکردند در فواصل فروردینماه تا خرداد ۱۳۹۳ به صورت انفرادی اجرا شد. این نمونه از یک توزیع نرمال و با میانگین ۱۷/۰- و انحراف استاندارد ۹۵/۰ پیروی میکند.
طرح شبیهسازی CAT
چهار عامل در مطالعهی شبیهسازی شده دستکاری شد، ۱). روش ایجاد سؤال بهینه (R، MRP، MTI). 2). پهنای b-bin در دو مقدار ۴/۰ و ۲/۰ بررسی شد. ۳). عامل کنترل مواجهه سیمپسون-هتر ۴). عامل تعادل محتوایی
شبیهسازی به صورت زیر انجام گرفته است:
بهمنظور طراحی مدل بهینهی خزانهی سؤال از روش شبیهسازی مونت کارلو استفاده شده است. روش شبییهسازی که در این پژوهش بهکار رفته، بر اساس روش مونت کارلو ریکیسی (۲۰۰۳) بوده است، همچنین، به منظور تعیین مجموعهای از ویژگیهای محتوایی آزمون، از روش برنامهنویسی اعداد صحیح یا برنامهنویسی خطی (WDM) استفاده شد. در مجموع به منظور شبیهسازی CAT ریاضی، دو مرحلهی مهم انجام گرفته است:
در مرحلهی اول با بکارگیری روش اکتشافی ریکیسی (۲۰۰۳)، مشخصات خزانههای سؤال ایدهآل موردنظر تعیین شد. بدین ترتیب که، ۶۰۰۰ آزمودنی به طور تصادفی از جامعهی هدف توانایی برای شبیهسازی انتخاب شدند، و تنها یک مرتبه خزانهی سؤال و ویژگیهای خزانهی سؤال بهینهی موردنظر مشخص شد. به عبارت دیگر، ابتدا با بهره گرفتن از روش ریکیسی (۲۰۰۳) (مونت کارلو) اندازه بهینه و پارامترهای آماری سؤالات خزانهی بر اساس ویژگیهای معینی، برای ساخت خزانههای سؤال بهینه برای درس ریاضی، مشخص شد. این روش در پژوهشهای متعدد نشان داد که بهخوبی عمل میکند (ریکیسی و هی، ۲۰۰۴؛ ریکیسی و هی، ۲۰۰۵؛ گاو، ۲۰۰۷). ایده اصلی پشت این روش این است که از «bin» هایی که پهنای معینی روی مقیاس پارامتر «b» ایجاد میکند، استفاده میشود. بهطوریکه، مجموع سؤالات در هر b-bin محاسبه میشود و از مکانیسم تئوری «اجتماع[۱۹۹]» برای تعیین تعداد کلی سؤالات استفاده میشود. روش کار در این پژوهش به این صورت بود که ابتدا، یک خزانه سؤال به قسمتهای کوچکتری پارتیشنبندی شد، این تقسیمبندیها بر اساس صفات غیر آماری همچون سطوح محتوایی مبتنی بودند. سپس شبیهسازی با یک آزمودنی که بهطور تصادفی از جامعهی هدف انتخاب شد و CAT روی او اجرا شد، شروع شد. هر سؤالی که اجرا میشد، انتخاب آن بهصورت بهینه بود، بهطوریکه همهی ویژگیهای آماری و غیر آماری یک سؤال بهینه را داشته باشد. سؤالاتی که اجرا میشدند، درون «bin» هایی مرتب و منظم میشدند و تعداد آنها محاسبه میشد. در مرحلهی بعد، روش مشابهی برای آزمودنیهای دیگر اجرا شد. از آنجا که سؤالاتی که برای یک نفر انتخاب میشد، میتوانست برای اشخاص دیگری نیز انتخاب شود، پس خزانهی سؤال بهینه، اجتماعی از مجموعه سؤالاتی بود که برای هر کدام از افراد انتخاب میشد. با بهره گرفتن از تعداد زیادی از آزمودنیهای جامعهی هدف، این انتظار وجود داشت که با افزایش تعداد آزمودنیها، تعداد سؤالاتی که باید به خزانه اضافه شود، کمتر شود. در پایان اندازهی خزانهی سؤال با مهیا کردن تمام ملزومات برای همهی آزمودنیها، به سطح مجانب[۲۰۰] رسید. همچنین، در این پژوهش روش اکتشافی ریکیسی را با بهره گرفتن از مدلهای R، MRP و MTI به مدلهای دو و سه پارامتری نیز تعمیم داده شد. در مدلهای دو و سه پارامتری نیز، از ایده «bin» ها استفاده میشد، با این تفاوت که یک پهنای معینی روی مقیاس پارامتر «b» و پهنای دیگری روی پارامتر «a» ایجاد میشد، پهنای پارامتر a بر اساس تغییرات میزان آگاهی سؤالات نسبت به تابع درجه دوم پارامتر a مشخص میشد. سپس، مجموع سؤالات در هر ab-bin محاسبه میشد و از مکانیسم تئوری «اجتماع[۲۰۱]» برای تعیین تعداد کلی سؤالات استفاده میشد. پارامترهای بهینهی سؤالات نیز بر این اساس مشخص میشد و در پایان در یک مخزن نگهداری شدند. به منظور کنترل مواجهه بیش از حد سؤالات، دو خزانهی سؤال شبیهسازی شدند، در یکی از شبیهسازی کنترل مواجهه اعمال نشد و در شبیهسازی دیگر کنترل مواجهه اعمال شد. سپس بر اساس روش برنامهنویسی اعداد صحیح (WDM) (استوکینگ و سوانسون، ۱۹۹۳)، صفات محتوایی آزمون، مشخص و در شبیهسازی وارد شد. و بدین ترتیب مدل طرح بهینهی خزانهی سؤال طراحی شد.
در مرحلهی دوم عملکرد خزانههای سؤالی که مطابق با ویژگی های تعیینشده بود، طراحیشدند، در مقایسه با خزانههای سؤال عملیاتی با بهره گرفتن از ملاکهای ارزیابی (نرخ صحت[۲۰۲] طبقهبندی، دقت اندازهگیری، میانگین طول آزمون، امنیت آزمون و ضرایب همبستگی بین تواناییهای واقعی و برآوردشده) بررسی شدند. از آنجا که محاسبهی ملاک های مشروط تتا به تعداد آزمودنی در هر سطح تتا وابسته بود، در شبیهسازی یک توزیع یکنواخت تعبیه شد و در هر سطح ۵۰۰ آزمودنی انتخاب شد. سطوح تتا از ۴- تا ۴ با فواصل ۱۲۵/۰ از یکدیگر جدا شد و در ۶۵ مقدار تتا، ارزیابی خزانهی سؤال طراحی شده با نمونهی ۳۲۵۰۰ نفری صورت گرفت و آمارههای مشروط در همین مرحله مشخص شد. براساس نتایج ارزیابی، یک خزانهی سؤال ایدهآل برای استفاده عملی ایجاد شد.
مراحل شبیهسازی خزانهی سؤال بهینه
در زیر به صورت گام به گام همهی مراحل توضیح دادهشده است.
بنابراین، به طور خلاصه مطالعه حاضر برای توصیف شیوههایی برای طراحی خزانههای سؤال برای آزمونهای انطباقی کامپیوتری از دو قسمت مجزا ولی مرتبط تشکیل شده است:
در قسمت اول، از روش مطالعات شبیهسازی به منظور طراحی خزانههای سؤال بهینهی درس ریاضی استفاده شد. این روش مجموعه دادههایی با ویژگیهای مورد نظر در محیطی شبیه سازی شده و تحت کنترل با تکرارهای فراوان را تولید می کند (ریکیسی، ۲۰۰۳؛ وندرلیندن، ۲۰۰۶).
در قسمت دوم، خزانههای سؤال بهینه با خزانهی سؤال عملیاتی که برای این درس ساخته شدهبود ، بر اساس مجموعهای از “ملاکهای تجربی[۲۰۳]” ارزیابی و مقایسه شدند و خزانههای سؤال بهینه با خزانه سؤال عملیاتی[۲۰۴]، در عملکردشان مقایسه شدند. نحوهی مقایسه به این صورت بود که، بهمنظور بررسی بهینه بودن خزانهها، خطای اندازه گیری استاندارد شرطی در نقاطی با فواصل برابر در طول مقیاس در CAT های اجرا شده با خزانههای سؤال بهینه و خزانه سؤال عملیاتی ساخته شده،. محاسبه و با یکدیگر مقایسه شدند.
ملاکهای ارزیابی خزانهها عبارتند از:
ملاکهای ارزیابی
میانگین طول آزمون
صحت طبقهبندی برآوردهای مهارت
دقت برآورد مهارت شامل
اریب[۲۰۵]:ر اساس معادلهی (۳-۱) محاسبه شد: و توانایی برآوردشده و واقعی آزمودنی i ام میباشد.
(۳-۱)
میانگین مجذور خطا[۲۰۶] (MSE): بر اساس معادلهی (۳-۲) محاسبه شد.
(۳-۲)
بررسی امنیت آزمون
درصد ارائه بیش از حد سؤالات[۲۰۷]
نرخ همپوشی سؤال[۲۰۸]
درصد ارائه کمتر از حد سؤالات[۲۰۹]
شیوه شبیهسازی دادهها
شبیهسازی طرح خزانه سؤال در پنج گام زیر صورت گرفت (خلاصه مراحل شبیهسازی در جدول ۱-۳ آورده شده است):
گام اول: مدل سازی شیوههای CAT: از آنجاکه هدف این پژوهش، طراحی مدل بهینهی خزانه سؤال برای برنامه سنجشی ویژهای (درس ریاضی) بود، شیوه شبیهسازی بهدقت، فرآیندهای روانسنجیای که در آزمون عملیاتی به کار رفت را دنبال کرد.
آزمون با سؤالی آغاز شد که، دارای پارامتر دشواری متوسط (صفر) بود. زیرا بر اساس نظر (پارشال، اسپری، کالن و دیوی، ۲۰۰۲)، بهترین رویکرد برای انتخاب سؤال آغازین، سؤالی با دشواری متوسط به عنوان سؤال آغازین میباشد. به عبارتی “اگر هیچ اطلاعی در مورد سطح توانایی آزمودنی نداشته باشیم، بهترین حدس ما این است که او همانند اکثریت آزمودنیهای دیگر عمل میکند.
الگوریتم انتخاب سؤالها بر اساس روش بیشینه آگاهی (MI) و جدول آگاهیهای مرتب شده قرار گرفت.
توانایی آزمودنی به روش میانگین پسین (MAP) و بیشینه درست نمایی (ML) در طول اجرا برآورد شد، و به این دلیل که تا زمانی که آزمودنی حداقل به یک سؤال پاسخ درست یا غلط ندهد، هیچ برآوردی از سطح توانایی آزمودنی بدست نمیآید، در شبیهسازی خزانهی سؤال برای مدل سه پارامتری همانند خزانه عملیاتی برآورد توانایی از طریق روش میانگین پسین (MAP) صورت گرفت. ولی در مدل تک پارامتری راش از روش ریکیسی (۲۰۰۳)، برای برآورد توانایی آزمودنی استفاده شد. این روش در گام چهارم (ایجاد پاسخ، به طور مفصل شرح داده شده است).
در خزانهی سؤال آزمونی که شبیهسازی شد، توزیع پیشین ، میانگین صفر و انحراف استاندارد ۱ دارد.
شبیه سازی به دو صورت ایجاد شد، یک مرتبه بدون درنظر گرفتن تعادل محتوایی و بار دیگر با در نظر گرفتن تعادل محتوایی. به طوریکه، ، خزانه سؤال بر اساس سه حوزه محتوایی تقسیمبندی شد. در این پژوهش برای وارد کردن تعادل محتوایی از روش برنامهنویسی اعداد صحیح (WDM) برای وزن دادن به محتواهای تعیین شده توسط طراحان استفاده شد.
به منظور کنترل مواجهه بیش از حد سؤال، یک بار شبیهسازی “بدون کنترل مواجهه” و یک بار با کنترل مواجهه سؤال به روش سیمپسون-هتر با “نرخ مواجهه هدف[۲۱۰]” برابر با ، انجام گرفت.
گام دوم: ایجاد[۲۱۱] جمعیت آزمودنی: جامعه و نمونه
جامعه: از آنجا که در این نوع شبیهسازی ها لازم است که در مورد جمعیت آزمودنیهای هدف اصلی که آزمون برای آنها ساخته میشود، اطلاعاتی وجود داشته باشد، برای این نوع شبیهسازیها از توزیع عملکرد جمعیت مشاهده شدهی آزمودنیها به عنوان توزیع هدف برای شبیه سازی CAT استفاده شد (ریکیسی، ۲۰۱۰). البته شبیهسازی شیوهی عملیاتی CAT آزمون ریاضی با بهره گرفتن از جامعهی آزمودنیهای هدف صورت گرفت. دو عامل مهم که در این شبیهسازی درنظرگرفته شد عبارتند از، جمعیت آزمودنیهای هدف و پهنای «bin». در مورد پهناهای «bin»، دو پهنای متفاوت ۴/۰ و ۲/۰ در شبیهسازی وارد شد، البته با فرض اینکه جامعههایی که آزمون ریاضی روی آن اجرا میشود، نرمال با میانگین صفر و انحراف معیار ۱ است. بنابراین، خزانه سؤال عملیاتی برای آزمودنیهایی با توزیع ای طراحی شد، که فرض میشد نرمال و با میانگین صفر و انحراف معیار ۱ میباشند. بنابراین شبیهسازی خزانه سؤال نیز با همان مفروضه انجام شد و آزمودنیها به طور تصادفی از توزیع نمونه گیری شدند.
نمونه: دو توزیع حجم نمونه در این پژوهش به کار رفت: به عبارت دیگر، با یک نمونه خزانههای سؤال بهینه طراحی شدند، و با نمونهی دیگری خزانههای سؤال شبیهسازی شده و عملیاتی ارزیابی شدند.
الف). ۶۰۰۰ از توزیع نمونهگیری شدند و به عنوان توانایی واقعی آزمودنیها وارد تحلیل شدند.
ب). ۶۵ مقدار ثابت در دامنه ی ۴- تا ۴ با فاصله ی ۱۲۵/۰ انتخاب شدند (یعنی، ). به طوریکه ۵۰۰ آزمودنی در هر سطح قرار گرفتند (۳۲۵۰۰ آزمودنی).
نمونه اول برای تعیین ویژگیهای خزانهی سؤال بهینه ایدهآل موردنظر و نمونه دوم برای ارزیابی عملکرد کلی شبیهسازی و محاسبهی آمارههای مشروط به کار رفت.
گام سوم: ایجاد پارامترهای سؤال
مدل IRT ای که برای مدرجسازی سؤالات به کار رفت، مدل یک پارامتری (مدل راش)، دو و سه پارامتری لوجستیک بود. برای ایجاد پارامترهای سؤال در مدل دو و سه پارامتری مدلهای R، PM و MTI به کار رفت. برای آزمون شبیهسازی شده، بر اساس قاعدهی شروع آزمون، سؤال اولی که ایجاد شد، برای سطح صفر بهینه بود. بعد از هر پاسخ، سؤالات بهینهای برای برآورد شده جدید ایجاد شدند.
گام چهارم: ایجاد پاسخ
پاسخهای آزمودنی به دنبال هر پاسخ سؤالی که بر اساس مدلهای یک پارامتری (مدل راش)، دو و سه پارامتری، بدست آمد، ایجاد شد. از آنجاکه واقعی آزمودنی در شبیهسازی شناختهشده بود، ، بعد از هر سؤالی که برای آزمودنی اجرا شد، محاسبه شد. سپس، تعداد تصادفی ، از توزیع یکنواخت[۲۱۲]، ، انتخاب شد و با ، مقایسه شد. اگر ، برابر یا کمتر از ، بود به پاسخ ۱ تعلق میگرفت و اگر بیشتر بود صفر داده میشد. در این پژوهش، روش ایجاد پاسخ به صورت زیر بود:
بررسی پایان نامه های انجام شده درباره طراحی و کاربرد الگوهای تهیهی خزانهی سؤال در بهینه سازی کارکرد ...