在學過兩組樣本t檢定後,這周三的實習內容主要是One-way ANOVA。

當研究者想「檢定三組以上(包含三組)的母體平均數是否相等時」,變異數分析是一種可考慮的分析方法。

雖然變異數分析是檢定母體平均數,他的概念卻是與變異數有關!

檢定的觀念是將該組資料的變異,依照變異的來源切割,將每個切割的歸因於某個原因

藉由測量這些變異是否有差別,來作統計推論。

以下將利用例子來解說

研究問題:研究生甲想比較三種抗頭痛藥物對於舒緩頭痛所需的時間是否不同?因此他三組分別找了五個人服用該類藥物,並測量舒緩頭痛所需時間多長且記錄。

下圖為資料結構,brand是抗頭痛藥物種類代號(1,2,3)、value是測量舒緩的時間有多長(單位分鐘)

請問這三種藥物對舒緩頭痛的所需時間是否不同?

head_data

在尚未學變異數分析之前,同學們可能想利用「獨立樣本t檢定」兩個兩個組比較這三種藥物所花的時間是否有差異。

以此範例,如果想兩兩比較,分成「第一組vs第二組」、「第一組vs第三組」、「第二組vs第三組」。

我們假設這三組變異數相同(σ21=σ2223=σ2)

而變異數的共同估計值結合三組樣本的資訊:S2p=(n1-1)2+(n2-1)2+(n3-1)2/n1+n2+n3

然而這樣子的分析會面臨到問題,依照乘法規則,每次檢定是獨立且signifcant level=0.05,所以這三個檢定皆失敗拒絕的機率為(0.953)=0.857

犯type one error的機率就會變成0.143,大於我們設立的0.05,所以用兩兩相比是不適當的!

 

接下來變異數分析派上用場

剛剛提到「檢定的觀念是將該組資料的變異,依照變異的來源切割,將每個切割的歸因於某個原因」

我們會有一個總變異(Total sum of square, SSTO),是所有原始資料合併後的平方和。

再來會有組間變異(Between sum of square, SSB )各組之間利用各樣本平均數去取代原始資料合併的平方和。

最後會有組內變異(Within sum of square, SSW),又被稱作無法解釋的變異or殘差平方和。

因此,SSTO=SSB+SSW

統計學家發現當SSB/SSW的分布是F分布!接下來我們將重點移到SAS軟體內如何操作。

SAS裡面的Procedure有PROC ANOVA與PROC GLM提供研究者作變異數分析

這兩個指令做出來的結果會相同,可以依照個人喜好斟酌使用,以下將分開介紹。

使用PROC ANOVA

proc anova data=head;  /*資料檔名稱*/
 
class brand; /*說明分組的變項*/
  model value=brand; /*不同brand組別下想檢定的value變項*/
  means brand /TUKEY CLDIFF; /*多重檢定的指令,TUKEY為Tukey’s studentized range test;CLDIFF是請SAS跑出95%信賴區間*/
run;

要特別注意的是第三行指令,以前曾經就提到在SAS內輸入指令的順序非常重要

model後面是 Y=X來放置的,兩者互換是錯誤的指令,是同學需要注意的地方。

來看報表吧!

ANOVA_output1

 

上學期有同學對ANOVA報表中「Source」欄位非常疑惑….明明上課講的就是組間與組內變異,怎麼呈現的是model、error勒?

在報表內,Model那一列表示組間變異(SSB)、Error表示組內變異(SSW)

最重要的就是ANOVA table,以藥物範例來說,F值統計量為7.14,P-value為0.0091<alpha level=0.05

檢定結果拒絕虛無假設H0 (三種藥物舒緩頭痛時間相同),即至少有兩種藥物舒緩頭痛時間不同!

 

接著研究者進一步想知道是哪幾種藥物之間有差異?究竟是每一組彼此之間都有差?還是某兩組有差異?

其實事後檢定的方法太多種了,至少10種以上。研究者就會問啦~請問要用哪一種呢?

如果要比較保守去估計的話可以使用Bonfferoni correction試試看,即把(alpha level)除以(C組數取2),因此又稱Bonfferoni校正。

在SAS裡面Bonfferoni correction指令為「Bon」。

此外,也可以依研究者所屬的專長領域選擇適用的多重比較方法。

下面介紹事後檢定(Post hoc test, multiple comparison, 又稱事後多重比較)-以Tukey為例

指令的部分上述已經提過,以下來看報表!

 

TUKEY

以三種藥物舒緩頭痛時間來說,可以看到第二種與第三種、第二種與第一種、第一種與第二種在舒緩頭痛時間有顯著不同(看*號或者是信賴區間判斷)!

注意:當One-way ANOVA沒有達到統計上顯著差異時,不建議也不需要作事後檢定。

學生最常犯的錯誤就是ANOVA檢定後各組沒有差異,卻還是作了事後檢定…往往會被打個大叉= =|||

使用PROC GLM

proc glm data=head;
  class brand;
  model value=brand;
  means brand/TUKEY CLDIFF;
run;
quit;

其實PROC GLM與PROC ANOVA最大的差異就是PROC後面是接GLM….其他幾乎相同!

因此不再贅述

GLM_output

檢驗假設

使用ANOVA時有他的假設需要注意,事實上在作ANOVA時也應該要檢驗該假設是否符合。

  • 樣本的分布屬於Normal distribution
  • 樣本是來自隨機抽樣且獨立
  • 母群體假設為equal variances

該如何檢驗假設?

  • Normality → Normal probability plot
  • 獨立→ Plot
  • Equal variance → Bartlett’s test

有很多時候資料會違反上述假設,怎麼辦?

  • 考慮varaible transformation (如Box-cox transformation或取Log)
  • 考慮無母數分析方法(nonparametric method)

以上是這周三會上的實習部分 XD

資料來源:http://www.stattutorials.com/SAS/TUTORIAL-PROC-GLM.htm


Comments



You must be logged in to post a comment.

Name (required)

Email (required)

個人網站

Speak your mind

total of 2973164 visits