(二) 結構方程模型的前提假定
如前所述,結構方程模型在應用上的限制相對已經較少了,但是它和其他的多變量分析技術一樣,在實際應用的時候,仍然有其特定的前提假定必須遵守。
(1) 結構方程模型裡面的「可觀測變量」必須服從正態分佈。
由於在估計結構方程模型的擬合指標時,我們所採用的最基本工具是卡方檢定 (chi-square test),卡方檢定對於變量的正態性 (normality) 十分敏感,即使輕微的違背這個要求,都可能導致卡方檢定結果發生很大的偏差。同時,大多數結構方程模型在估計參數時所採用的方法都是「極大似然估計法」,這方法在應用時的基本前提也是變量的正態性,尤其對於模型中「內生變量 (endogenous variables)」的正態性更是嚴格要求,因此「可觀測變量」服從正態分佈,是進行結構方程模型時不可迴避的必要條件。這裡補充說明一下,如果「可觀測變量」不服從正態分佈,但是其殘差卻:(a) 服從正態分佈,(b) 所有殘差的方差都很接近(代表殘差同質),(c) 殘差間彼此獨立(也就是不相關),這時卡方的估計結果還是不偏的。不過這三個條件看來比要求「可觀測變量」服從正態分佈還要困難。
在實務上,避免違背這個條件的簡易方法,首先就是儘可能不去使用「順序尺度 (ordinal scale)」或是「名目尺度 (nominal scale)」這種「類別的」,或是「離散的」變量衡量方法。其次,在萬不得已必須使用類別型變量衡量的時候,還可以選用一些「轉換 (transformation)」技術,來「正態化 (normalize)」那些有問題的變量。所謂「轉換」,就是根據變量的分佈特徵,通過數學代換,將原本不屬於正態分佈的變量,設法將之轉變成具有正態分佈性質的變量。常見的轉換技術包括:取平方根 (square root)、取自然對數 (logarithmic)、或是函數1/x反轉 (inverse)等等,其中函數反轉優於取自然對數,自然對數又優於取平方根。
例如,對於服從「卜瓦松 (Poisson)」分佈的變量,我們通常直接對它取平方根,即可賦予變量正態分佈的特徵;對於百分比形式的變量,「反正弦 (arcsine )」處理也許是個好方法;對於二項式分佈的變量,通常使用的方法是通過「勝率 (Odds)」轉換成概率後,再利用自然對數函數log(p/(1-p))進行轉換;對於「韋布 (Weibull)」型「極值分佈 (extreme value distribution)」形式的變量,則使用反轉函數log(-log(1-x))進行轉換。無論如何,這些變量轉換必須有根有據,確實依據數學原理讓變量獲得正態分佈的性質,否則再怎麼奇巧轉換也是無益的。最後,當然還需要利用一些統計方法,來驗證模型中所使用的「可觀測變量」的正態性。這些方法包括QQ-plot,Shapiro-Wilk Statistic,或是Kolmogorov-Smirnov Statistic等等,茲不贅敘。
(2) 結構方程模型裡面作為「因變量」的「潛變量」必須服從正態分佈。
所以結構模型裡面,所有的「因變量」都不可以被設計成類別型變量的形式。如果萬不得已必須使用類別衡量的變量作為因變量,那麼必須改用「類別型潛變量分析 (latent class analysis: LCA)」方法處理,一般的結構方程模型軟件並不能處理這種問題。坊間存在若干特殊的統計軟件是專門用來處理這種類別型潛變量問題的,例如Statistical Innovations公司的Latent GOLD軟件(商業軟件),或是Jeroen Vermunt博士的LEM(自由軟件)。
(3) 線性關係的假定
結構方程模型預設了所有的「可觀測變量」和它們所屬的「潛變量」之間,以及「潛變量」和「潛變量」之間的關係,都必須是線性的。不過這倒不至於構成太嚴重的限制,因為就和一般的迴歸分析一樣,對於我們所假定的變量間的非線性關係,我們仍然可以針對變量進行函數轉換,來適應這個變量間必須是線性的要求。
(4) 潛變量的假定
在結構方程模型裡面,我們基本上假定所有的路徑關係,都只能採用非直接衡量的方式加以處理,也就是只存在「潛變量路徑分析」。
(5) 多元的可觀測變量
在結構方程模型中,所有的「潛變量」都必需由至少三個以上的「可觀測變量」來加以描述,如果只有一個「可觀測變量」在解釋著某個特定的「潛變量」,那麼這就不是結構方程模型,而是迴歸分析。如果只有兩個「可觀測變量」在解釋著某個特定的「潛變量」,那麼在模型中,這兩個「可觀測變量」必須被正式地表述 (specify)為相關,通過對這個相關的估計(等於新增一個可觀測變量),才能夠避免因為「可觀測變量」不足所導致的「識別不足 (under identification)」問題,如果「識別不足」,則模型將受制於自由度不足而無法求解,連帶的,當然也無法估計模型的「擬合指標」。
一個衡量模型至少必須滿足「恰好識別 (just identification)」的條件才可能求解。「恰好識別」的模型又稱為「飽和模型 (saturated model)」,也就是模型所構造的協方差矩陣(港台稱為共變異矩陣,covariance matrix)中的元素數量,剛好和所需要估計的參數數量相等,這時在估計參數的時候,剛好用盡了所有的自由度,所以參數雖然可以被估計出來,但是卻也因此而無法估計「擬合指標」,因為沒有自由度的估計,其實就等於是真實的計算,也就是百分之一百的擬合,或者這麼說,其實根本就沒有擬合的概念可言。在這樣的情形下,用來估計結構方程模型的軟件,不論是Lisrel還是AMOS,都將會報告自由度為0,卡方值為0,同時無法計算顯著水平。
研究者真正想要的其實是「過度識別 (over identification)」,「過度識別」代表已知變量間的協方差數量,大於未知的待估計參數的數量,所以這時模型的自由度將會是正的數值,我們才能夠應用結構方程模型的軟件來估計參數,同時計算出模型的各種「擬合指標」來。事實上由信度的立場來看這個問題,越多的「可觀測變量」通常其結構信度也較佳,這可由Cronbach's alpha信賴係數的計算即可清晰觀察出來,在同一個構念中,當我們放入的近似的衡量題項愈多,Cronbach's alpha的值很容易就可以升高。
所以在構造衡量題項的時候,最好儘可能從多維度多視角的多元觀點來廣泛採納「可觀測變量」,不要吝惜於「可觀測變量」被納入研究工具中的數量。畢竟在研究工具接受前測中效度信度檢查的時候,就可能開始刪減題項了,再加上田野調查之後,根據大規模數據進行衡量模型的效度信度檢查時,還可能繼續刪減題項,如果原始題項不足,在最後的結構模型分析階段,就很可能發生「識別不足」或是「恰好識別」的問題,為研究過程帶來無謂的麻煩。
那一刻,我升起風馬,不為祈福,只為守候你的到來。 那一天,閉目在經殿香霧中,驀然聽見,你頌經中的真言。 那一月,我搖動所有的轉經筒,不為超度,只為觸摸你的指尖。 那一年,磕長頭匍匐在山路,不為覲見,只為貼著你的溫暖。 那一世,轉山轉水轉佛塔啊,不為修來生,只為途中與你相見。 《倉央嘉措》
2007年10月9日 星期二
結構方程模型的基本觀念 (2)
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言