Main Article Content
Abstract
The study aimed to equate General Education Diploma results of physics exam in the Sultanate of Oman using Item Response Theory (IRT) and setting them in a common scale. The study sample included all of the General Education Diploma students both male and female who passed the physics exam in the academic years 2014/2015 and 2015/2016 with atotal sample of (17175 & 18966) respectively. Two different copies of physics exam were used for the purpose of the study. The first one consisted of 40 items and the other was 36 items. The data was analyzed by Multilog 7.03 program, to estimate the parameters of the items and the abilities of examinees and to check the IRT hypotheses. Moreover, the method of True Score Equation was used. The Results showed that there are no statistically significant differences between the means of the true scores of the criteria exam and the results, which were equated to the new exam. The equation accuracy was checked by Equating Bias method
Keywords
Article Details
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
References
- بركات، مايا. (2010). أثر تصميمات المعادلة ومتوسط صعوبة الامتحانات وتوزيع القدرة على معادلة الامتحانات متعددة الأبعاد باستخدام نظرية الاستجابة للمفردة (رسالة دكتوارة غير منشورة). جامعة القاهرة.
- الحواري، أروى. (2008). الخصائص السيكومترية لصور مختارة من امتحانات الرخصة الدولية لقيادة الحاسوب في الاردن ومعادلة درجاتها (رسالة ماجستير غير منشورة). جامعة اليرموك.
- الدوسري، راشد. (2001). معادلة الامتحانات مفهومها، وطرقها، ومشكلات تطبيقها. مجلة العلوم النفسية والتربوية، جامعة البحرين، 2(4)، 106-141.
- السيد، إيهاب. (2012). تأثر بعض المتغيرات السيكومترية على دقة معادلة الامتحانات باستخدام تصميم المفردات المشتركة (دراسة محاكاة). مجلة القراءة والمعرفة – مصر، 130، 114-142.
- الشريفين، نضال. (2003). مدى تحقق المعايير الفاعلية في معادلة امتحانين أحدهما ثنائي التدريج والأخر متعدد التدريج وفق نماذج النظرية الكلاسيكية والنظرية الحديثة في القياس والتقويم (رسالة دكتوارة غير منشورة). جامعة عمّان العربية.
- الشريفين، نضال. (2009). معادلة درجات نماذج مختلفة من امتحان الكفاءة اللغوية في اللغة الإنجليزية لدى طلبة جامعة اليرموك. مجلة جامعة أم القرى للعلوم التربوية والنفسية، 1(2)، 11-62.
- الشمري، مها. (2015). معادلة درجات صور مختلفة من امتحانات القدرات المعرفية لدى طلبة الثانوية العامة في المملكة العربية السعودية (رسالة ماجستير غير منشورة). جامعة اليرموك.
- الشواورة، ياسين. (2013). دراسة مقارنة بين نموذج التقدير الجزئي والإستجابة في معادلة درجات الامتحانات (رسالة دكتوارة غير منشورة). جامعة القاهرة.
- عبد الهادي، نبيل. (2001). القياس والتقويم التربوي، واستخدامه في مجال التدريس الصفي(ط2). دار وائل للنشر.
- علام، صلاح. (2005). نماذج الاستجابة للمفردة الامتحانية أحادية البعد ومتعددة الأبعاد وتطبيقاتها في القياس النفسي والتربوي. دار الفكر العربي.
- عليمات، مهدي. (2013). معادلة صور مختارة من الامتحان الوطني للغة الإنجليزية في الاردن وفق نظرية الامتحان ونظرية المفردة، (رسالة ماجستير غير منشورة). جامعة اليرموك، الأردن.
- الكوفحي، موسى. (2013). أثر طريقة تصفية المموهات في مفردات الاختيار من متعدد على معادلة الامتحان (رسالة دكتوارة غير منشورة). الجامعة الأردنية.
- المحرزي، راشد. (2014). المعادلة بين نتائج طرق المعادلة الكلاسيكية لدرجات نماذج امتحان القدرات العامة باستخدام تصميم المجموعات المتكافئة. مجلة رسالة الخليج، 134(35)، 15- 42.
- المحرزي، راشد (2015). المفاضلة بين الدرجات المكافئة لنماذج اختبار القدرات العامة باستخدام طرق المعادلة الكلاسيكية في تصميم المفردات المشتركة بجماعات غير متكافئة. مجلة العلوم التربوية والنفسية - البحرين، 16(3)، 394- 429.
- المدانات، رائد. (2012). مقارنة فاعلية طريقتى معادلة العلامات الحقيقية والمشاهدة فى معادلة الامتحانات باستخدام جذع مشترك ومجموعات غير متكافئة. مجلة العلوم النفسية والتربوية- البحرين، 13(2)، 365- 394.
- المديرية العامة للتقويم التربوي. (2015). احصائيات المديرية العامة للتقويم التربوي. سلطنة عمان.
- وزارة التربية والتعليم. (2015). وثيقة تعلم مواد العلوم. المديرية العامة للتقويم التربوي. سلطنة عمان.
- Abdel Hadi, N. (2001). Educational measurement and evaluation, and its use in the field of classroom teaching (2nd ed). Wael Publishing House.
- Al Koufhi, M. (2013).The effect of the method of filtering the unknown in the multiple-choice vocabulary on the exam equation [Unpublished doctoral dissertation].University of Jordan. (In Arabic)
- Al Sayed, I. (2012). The influence of some psychometric variables on the accuracy of the examination equation using the common vocabulary design (simulation study). Reading and Knowledge Journal, 130, 114-142. (In Arabic)
- Al Shamare, M. (2015). Equating Scores for Different Forms of Ability
- Test among Secondary School Students in Saudi Arabia [Unpublished master's thesis]. Yarmouk University. (In Arabic)
- Al Sharifain, N. (2009). Equating Scors for Different forms of the English Language Proficiency Exam for Yarmouk University students and Umm Al-Qura University .Journal of Educational and Psychological Sciences, 1(2), 11-62. (In Arabic)
- Al Sharifain, N. (2003). Verification of Criteria of Efficiency in Equating a Dichotomous and a Polytomous Achievement Test Using Classical and Modern Test Theory Models [Unpublished doctoral dissertation]. University of Jordan. (In Arabic)
- Al Shawoura, Y. (2013). A comparative study between the partial assessment model and the response in the equivalence of exam scores [Unpublished doctoral dissertation]. Cairo University. (In Arabic)
- Alimat, M. (2013). Equivalence of selected images from the national examination of the English language in Jordan according to the examination theory and the singular theory [Unpublished master's thesis]. Yarmouk University. (In Arabic)
- Allam, S. (2005). Models of response to the exam vocabulary one-dimensional and multi-dimensional and their applications in psychological and educational measurement. Arab Thought House. (In Arabic)
- Almehrizi. R. (2014). Equation between the results of the classic equivalency methods
- for the scores of the General Aptitude Examination Models using the equivalent groups design. Gulf Message Magazine, 134 (35), 15-42. (In Arabic)
- Almehrizi. R. (2015). Differentiation among Equated Scores for General Abilities Test Forms Using Classical Equating Methods with Common-Item Non- Equivalent Groups Design. Journal of Educational and Psychological Sciences - Bahrain, 16 (3), 394-429. (In Arabic)
- Angoff, W. H. (1986). Some contributions of the College Board SAT to psychometric theory and practice. Educational Measurement: Issues and Practice, 5(3), 7-11.
- Arwa, A. (2008). Sychometric Properties for Selected Forms of International Computer Driving License Tests in Jordan, and Equating Their Scores [Unpublished master's thesis]. Yarmouk University. (In Arabic) (In Arabic)
- Baker, F. B. (2001). The basics of item response theory. ERIC. http://ericae. Net/irt/baker.
- Barakat, M. (2010). The effect of equation designs, average difficulty of exams, and the distribution of ability to equate multidimensional exams using the singular response theory [Unpublished doctoral dissertation].Cairo University. (In Arabic)
- Chulu, B. W., & Sireci, S. G. (2011). Importance of Equating High Stakes Educational Measurements. International Journal of Testing, 11, 38-52.
- Fan, X. (1998). Item Response Theory and Classical Test Theory: An Empirical Comparison of their Item/Person Statistics. Educational and Psychological Measurement, 58(3), 357-382.
- General Directorate of Educational Assessment (2015). Statistics of the General Directorate of educational evaluation. Sultanate of Oman.
- Greer, T. G. (2004). Detection of differential item functioning (DIF) on the SATV: A comparison of four methods: Mantel- Haenszel, logistic regression, simultaneous item bias and likelihood ratio test [Unpublished Doctoral Dissertation]. Houston University.
- Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and Applications. Kluwer Nijhoff.
- Holland, P., & Rubin, D. (1982). Test equating. Academic press.
- Hou, J. (2007). Effectiveness of the Hybrid Levine Equipercentile and Modified Frequency Estimation Equating Methods under the Common-Item Nonequivalent Groups Design. [Unpublished Doctoral Dissertation]. Iowa University.
- Inal, H., Arikan A., (2017). An Investigation of Group Invariance in Test Equating According to Gender. Journal of Measurement and Evaluation in Education and Psychology, 8(1) 128-145.
- Kim, S. & Hanson, B. (2002). Test equating under the multiple-choice model. Applied Psychological Measurement, 26(3), 255 – 270.
- Kolen, M., J. & Brennan, R.L. (2004). Test equating, scaling, and linking: Methods and Practice. Springer.
- Livingston, S. A. (2004). Equating Test Scores (without IRT). Educational testing service.
- Lord, F. M. (1980). Application of Item Response Theory to Practical Testing Problems. N. J. Erlbaum.
- Miller, T. R. (1991). Empirical Estimation of Standard Errors of Compensatory MI Model Parameters Obtained from the NOHARM estimation program. (ACT Research Report No. onr91-2). ACT Inc.
- Ministry of Education (2015). Science Materials Learning Document. General Directorate of Educational Evaluation. Sultanate of Oman.
- Önder, I. (2007). An Investigation of goodness of model data fit model veri uyumunun araştirilmasi. Hacettepe Universitesi Eğitim Fakültesi Dergisi, (32), 210-220.
- Raed, M. (2012).Comparing the Efficiency of True and Observed Score Equating Methods in Equating Tests Utilizing the Design with an Anchor Test and Nonrandom Groups. Journal of Educational and Psychological Sciences, 13 (2), 365-394.
- Rashid, H. (2001). Technical and Practical Issues on Test Equating. Journal of Psychological and Educational Sciences, University of Bahrain, 2(4), 106-141.
- Reckase, M. D. (1985). The difficulty of test items that measure more than one ability. Applied Psychological Measurement, 9, 401-412
- Reeve, B. (2002). An Introduction to modern measurement theory. Division of cancer control and population sciences, National Cancer Institute.
- Skaggs, G., & Lissitz, R. (1986). IRT test equating: Relevant Issues and a Review of Recent Research. Review of Educational Research, 56(4), 495-529.
- Suen, H. (1990). Principles of test theories. Lawrence Erlbaum.
- Yen, W. M. (1984). Effect of local item dependence on the Fit and Equating Performance of the Three- Parameter logistic Model. Applied Psycholigical Measurement, 8, 125-145.
- Yuan, L. H. Lissitz, R. W., & Yang, Y. N. (1999, April 19-23). Estimating IRT Equating Coefficients for Tests with Polytomously and Dichotomously Scored Items [Conference session]. National Council on Measurement in Education, Montreal, Quebec, Canada.
References
بركات، مايا. (2010). أثر تصميمات المعادلة ومتوسط صعوبة الامتحانات وتوزيع القدرة على معادلة الامتحانات متعددة الأبعاد باستخدام نظرية الاستجابة للمفردة (رسالة دكتوارة غير منشورة). جامعة القاهرة.
الحواري، أروى. (2008). الخصائص السيكومترية لصور مختارة من امتحانات الرخصة الدولية لقيادة الحاسوب في الاردن ومعادلة درجاتها (رسالة ماجستير غير منشورة). جامعة اليرموك.
الدوسري، راشد. (2001). معادلة الامتحانات مفهومها، وطرقها، ومشكلات تطبيقها. مجلة العلوم النفسية والتربوية، جامعة البحرين، 2(4)، 106-141.
السيد، إيهاب. (2012). تأثر بعض المتغيرات السيكومترية على دقة معادلة الامتحانات باستخدام تصميم المفردات المشتركة (دراسة محاكاة). مجلة القراءة والمعرفة – مصر، 130، 114-142.
الشريفين، نضال. (2003). مدى تحقق المعايير الفاعلية في معادلة امتحانين أحدهما ثنائي التدريج والأخر متعدد التدريج وفق نماذج النظرية الكلاسيكية والنظرية الحديثة في القياس والتقويم (رسالة دكتوارة غير منشورة). جامعة عمّان العربية.
الشريفين، نضال. (2009). معادلة درجات نماذج مختلفة من امتحان الكفاءة اللغوية في اللغة الإنجليزية لدى طلبة جامعة اليرموك. مجلة جامعة أم القرى للعلوم التربوية والنفسية، 1(2)، 11-62.
الشمري، مها. (2015). معادلة درجات صور مختلفة من امتحانات القدرات المعرفية لدى طلبة الثانوية العامة في المملكة العربية السعودية (رسالة ماجستير غير منشورة). جامعة اليرموك.
الشواورة، ياسين. (2013). دراسة مقارنة بين نموذج التقدير الجزئي والإستجابة في معادلة درجات الامتحانات (رسالة دكتوارة غير منشورة). جامعة القاهرة.
عبد الهادي، نبيل. (2001). القياس والتقويم التربوي، واستخدامه في مجال التدريس الصفي(ط2). دار وائل للنشر.
علام، صلاح. (2005). نماذج الاستجابة للمفردة الامتحانية أحادية البعد ومتعددة الأبعاد وتطبيقاتها في القياس النفسي والتربوي. دار الفكر العربي.
عليمات، مهدي. (2013). معادلة صور مختارة من الامتحان الوطني للغة الإنجليزية في الاردن وفق نظرية الامتحان ونظرية المفردة، (رسالة ماجستير غير منشورة). جامعة اليرموك، الأردن.
الكوفحي، موسى. (2013). أثر طريقة تصفية المموهات في مفردات الاختيار من متعدد على معادلة الامتحان (رسالة دكتوارة غير منشورة). الجامعة الأردنية.
المحرزي، راشد. (2014). المعادلة بين نتائج طرق المعادلة الكلاسيكية لدرجات نماذج امتحان القدرات العامة باستخدام تصميم المجموعات المتكافئة. مجلة رسالة الخليج، 134(35)، 15- 42.
المحرزي، راشد (2015). المفاضلة بين الدرجات المكافئة لنماذج اختبار القدرات العامة باستخدام طرق المعادلة الكلاسيكية في تصميم المفردات المشتركة بجماعات غير متكافئة. مجلة العلوم التربوية والنفسية - البحرين، 16(3)، 394- 429.
المدانات، رائد. (2012). مقارنة فاعلية طريقتى معادلة العلامات الحقيقية والمشاهدة فى معادلة الامتحانات باستخدام جذع مشترك ومجموعات غير متكافئة. مجلة العلوم النفسية والتربوية- البحرين، 13(2)، 365- 394.
المديرية العامة للتقويم التربوي. (2015). احصائيات المديرية العامة للتقويم التربوي. سلطنة عمان.
وزارة التربية والتعليم. (2015). وثيقة تعلم مواد العلوم. المديرية العامة للتقويم التربوي. سلطنة عمان.
Abdel Hadi, N. (2001). Educational measurement and evaluation, and its use in the field of classroom teaching (2nd ed). Wael Publishing House.
Al Koufhi, M. (2013).The effect of the method of filtering the unknown in the multiple-choice vocabulary on the exam equation [Unpublished doctoral dissertation].University of Jordan. (In Arabic)
Al Sayed, I. (2012). The influence of some psychometric variables on the accuracy of the examination equation using the common vocabulary design (simulation study). Reading and Knowledge Journal, 130, 114-142. (In Arabic)
Al Shamare, M. (2015). Equating Scores for Different Forms of Ability
Test among Secondary School Students in Saudi Arabia [Unpublished master's thesis]. Yarmouk University. (In Arabic)
Al Sharifain, N. (2009). Equating Scors for Different forms of the English Language Proficiency Exam for Yarmouk University students and Umm Al-Qura University .Journal of Educational and Psychological Sciences, 1(2), 11-62. (In Arabic)
Al Sharifain, N. (2003). Verification of Criteria of Efficiency in Equating a Dichotomous and a Polytomous Achievement Test Using Classical and Modern Test Theory Models [Unpublished doctoral dissertation]. University of Jordan. (In Arabic)
Al Shawoura, Y. (2013). A comparative study between the partial assessment model and the response in the equivalence of exam scores [Unpublished doctoral dissertation]. Cairo University. (In Arabic)
Alimat, M. (2013). Equivalence of selected images from the national examination of the English language in Jordan according to the examination theory and the singular theory [Unpublished master's thesis]. Yarmouk University. (In Arabic)
Allam, S. (2005). Models of response to the exam vocabulary one-dimensional and multi-dimensional and their applications in psychological and educational measurement. Arab Thought House. (In Arabic)
Almehrizi. R. (2014). Equation between the results of the classic equivalency methods
for the scores of the General Aptitude Examination Models using the equivalent groups design. Gulf Message Magazine, 134 (35), 15-42. (In Arabic)
Almehrizi. R. (2015). Differentiation among Equated Scores for General Abilities Test Forms Using Classical Equating Methods with Common-Item Non- Equivalent Groups Design. Journal of Educational and Psychological Sciences - Bahrain, 16 (3), 394-429. (In Arabic)
Angoff, W. H. (1986). Some contributions of the College Board SAT to psychometric theory and practice. Educational Measurement: Issues and Practice, 5(3), 7-11.
Arwa, A. (2008). Sychometric Properties for Selected Forms of International Computer Driving License Tests in Jordan, and Equating Their Scores [Unpublished master's thesis]. Yarmouk University. (In Arabic) (In Arabic)
Baker, F. B. (2001). The basics of item response theory. ERIC. http://ericae. Net/irt/baker.
Barakat, M. (2010). The effect of equation designs, average difficulty of exams, and the distribution of ability to equate multidimensional exams using the singular response theory [Unpublished doctoral dissertation].Cairo University. (In Arabic)
Chulu, B. W., & Sireci, S. G. (2011). Importance of Equating High Stakes Educational Measurements. International Journal of Testing, 11, 38-52.
Fan, X. (1998). Item Response Theory and Classical Test Theory: An Empirical Comparison of their Item/Person Statistics. Educational and Psychological Measurement, 58(3), 357-382.
General Directorate of Educational Assessment (2015). Statistics of the General Directorate of educational evaluation. Sultanate of Oman.
Greer, T. G. (2004). Detection of differential item functioning (DIF) on the SATV: A comparison of four methods: Mantel- Haenszel, logistic regression, simultaneous item bias and likelihood ratio test [Unpublished Doctoral Dissertation]. Houston University.
Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and Applications. Kluwer Nijhoff.
Holland, P., & Rubin, D. (1982). Test equating. Academic press.
Hou, J. (2007). Effectiveness of the Hybrid Levine Equipercentile and Modified Frequency Estimation Equating Methods under the Common-Item Nonequivalent Groups Design. [Unpublished Doctoral Dissertation]. Iowa University.
Inal, H., Arikan A., (2017). An Investigation of Group Invariance in Test Equating According to Gender. Journal of Measurement and Evaluation in Education and Psychology, 8(1) 128-145.
Kim, S. & Hanson, B. (2002). Test equating under the multiple-choice model. Applied Psychological Measurement, 26(3), 255 – 270.
Kolen, M., J. & Brennan, R.L. (2004). Test equating, scaling, and linking: Methods and Practice. Springer.
Livingston, S. A. (2004). Equating Test Scores (without IRT). Educational testing service.
Lord, F. M. (1980). Application of Item Response Theory to Practical Testing Problems. N. J. Erlbaum.
Miller, T. R. (1991). Empirical Estimation of Standard Errors of Compensatory MI Model Parameters Obtained from the NOHARM estimation program. (ACT Research Report No. onr91-2). ACT Inc.
Ministry of Education (2015). Science Materials Learning Document. General Directorate of Educational Evaluation. Sultanate of Oman.
Önder, I. (2007). An Investigation of goodness of model data fit model veri uyumunun araştirilmasi. Hacettepe Universitesi Eğitim Fakültesi Dergisi, (32), 210-220.
Raed, M. (2012).Comparing the Efficiency of True and Observed Score Equating Methods in Equating Tests Utilizing the Design with an Anchor Test and Nonrandom Groups. Journal of Educational and Psychological Sciences, 13 (2), 365-394.
Rashid, H. (2001). Technical and Practical Issues on Test Equating. Journal of Psychological and Educational Sciences, University of Bahrain, 2(4), 106-141.
Reckase, M. D. (1985). The difficulty of test items that measure more than one ability. Applied Psychological Measurement, 9, 401-412
Reeve, B. (2002). An Introduction to modern measurement theory. Division of cancer control and population sciences, National Cancer Institute.
Skaggs, G., & Lissitz, R. (1986). IRT test equating: Relevant Issues and a Review of Recent Research. Review of Educational Research, 56(4), 495-529.
Suen, H. (1990). Principles of test theories. Lawrence Erlbaum.
Yen, W. M. (1984). Effect of local item dependence on the Fit and Equating Performance of the Three- Parameter logistic Model. Applied Psycholigical Measurement, 8, 125-145.
Yuan, L. H. Lissitz, R. W., & Yang, Y. N. (1999, April 19-23). Estimating IRT Equating Coefficients for Tests with Polytomously and Dichotomously Scored Items [Conference session]. National Council on Measurement in Education, Montreal, Quebec, Canada.