簡介現代測驗理論

一月 24, 2010 | | 2 Comments

上次簡單介紹過古典測驗理論(CTT),今天介紹另一主流。如果還有印象,雖然古典測驗理論起源較早,由於簡單明瞭容易計算,因此應用的非常廣泛,然而隨著後人檢視該理論發現仍有些不可抗拒的缺點,而現代測驗理論(MTT,又稱試題反應理論IRT)剛好可以克服CTT所帶來的缺點,並給予我們一些Credits。

這裡我嘗試拋開數學模型,使用文字敘述將觀念用條列式將我從IRT的單參數模式Rasch model的心得與各位分享:

  1. IRT主要以Individual item or person觀點去解釋分數上的含意。意思就是你可以透過相關軟體的報表去找出是否有某些病人/受試者/學生在回答該題時的Pattern有異狀,比方說胡亂填答、猜測等。從試題角度來看,可以發現某些題目對於受試者有過難的情形,或是過度簡單。
  2. 有了試題與受試者,當然可以討論彼此之間的關係,IRT核心之一就是受試者能力/生活品質越高,則在該試題回答正確(或是越好程度)的機率也越大。整套理論簡言之就是照機率在走。

只有上述兩點當然不夠過癮,IRT還有以下些優點值得我們思考:

  • 每個受試者都有其測量標準誤,不同於CTT是一個總標準誤
  • Sample free,即不受樣本依賴。因為在CTT中,換了樣本,之前的信度效度測量根本就不準,需要重做,只是現在臨床不重視這塊,說是胡亂處理也不為過。
  • 利用Fit statistics檢驗Model與Data之間Fit的程度,觀察受試者是否有Unusual的反應
  • 將Ordinal的scale利用Logit轉換為Interval進而推論(這點非常的棒,日後有機會我會以簡單的推導與例子跟大家介紹)

其實還有許多優點,詳情可參照余老師專書或Applying the Rasch Model第二版。

最早IRT廣泛受到教育界使用,如大家有考托福GRE應該都知道有CAT(電腦適性測驗)這玩意吧?其實CAT產生的背後理論架構正是IRT!在其他領域如心理、臨床等皆有廣泛使用趨勢,有興趣的人可以上PubMed搜尋便知。

在處理問卷資料的過程中,會遇到我的Scale為Likert style,比方說非常滿意、滿意、普通、不滿意、非常不滿意,因此如果直接利用加總/題數去得到一個分數來代表這個病人的生活品質似乎有點牽強…如果能利用IRT的優點去改善估計過程得到更精確的測量分數不是非常棒嗎?這點是當初我考慮使用IRT的Rasch model處理我的問卷資料主要原因之一。因為在IRT的世界裡,兩個病人的分數在你使即使用CTT後同分,用IRT卻發現不是這麼一回事!

某位副教授曾質問我:臨床上誰管這怎麼算,簡單容易算就好,你用這東西計算還要用另外的軟體,不怎麼實用。

嗯,1958年Kaplan meier methods也備受爭議,然而現今有使用過存活分析的人都知道K-M方法有多麼受歡迎。另外雖然使用IRT家族模型計算,需要使用其他種統計軟體如Winsteps,RUMM,ConQuest等,而2007年的IRT大會也討論將相關程式開發於SAS與SPSS中。

參考書目

  1. 余民寧, 試題反應理論IRT及其應用, 2009
  2. Bond & Fox, Applying the Rasch model, 2004 (我私人推薦初學者閱讀)
  3. N. Bezruczko, Rasch measurement in health science, 2005

Comments



You must be logged in to post a comment.

Name (required)

Email (required)

個人網站

Speak your mind

total of 4146163 visits