那一刻,我升起風馬,不為祈福,只為守候你的到來。 那一天,閉目在經殿香霧中,驀然聽見,你頌經中的真言。 那一月,我搖動所有的轉經筒,不為超度,只為觸摸你的指尖。 那一年,磕長頭匍匐在山路,不為覲見,只為貼著你的溫暖。 那一世,轉山轉水轉佛塔啊,不為修來生,只為途中與你相見。 《倉央嘉措》

2007年10月11日 星期四

結構方程模型的基本觀念 (9)

模型識別

構造好結構方程模型以後,緊接著的工作,當然就是使用統計軟件,對這個模型進行參數估計。這看起來非常容易,但是對於初學者而言,馬上出現的問題,通常是模型「識別不足 (under identification)」的問題,換言之,統計軟件跑不出我們所想要的模型估計,而且在電腦螢幕上出現一些程序錯誤的警告信息。如前所述,我們在進行結構方程模型估計的時候,最想要的模型設計是「過度識別」,也就是模型中的自由度,希望能高於所必須估計的參數數量,這個要求,不僅對於「衡量模型」非常重要,對於「結構模型」而言,也是一個必要的條件。

前面我們提到過,「識別不足」與「過度識別」的中線,是所謂的「恰好識別」,也就是所謂的「飽和模型」,如果能夠辨認「恰好識別」的狀態,我們就可以事先覺察所設計的模型會不會遇到「識別不足」的問題。例如某個模型總共有三個潛變量,A、B、與C,假定其中A同時影響B與C,而B又單獨影響C。在這個簡單的結構模型裡,如果明白我們前述的「協方差矩陣」的表述方式,那麼這裡我們有三個待估計的參數(也就是這三條潛變量路徑係數:A到B、A到C、與B到C),同時這個模型的「協方差矩陣」裡也剛好有三個元素 (COV(a,b)、COV(a,c)、與COV(b,c)),這剛好就是個「恰好識別」的模型,這時,如果我們增加一個待估計參數,比如猜想C對A在理論上存在因果作用,那麼馬上就出現了「識別不足」的問題。

避免出現「識別不足」和「恰好識別」現象的先決條件,當然就是在設計理論模型(或概念模型)的時候,就已經考慮了自由度的問題。最簡單的判別方式就是去計算協方差矩陣裡的元素數量,是否高於所需要估計的參數數量。當然,更容易的方法,就是讓統計軟件告訴我們,究竟這個模型估計跑不跑得動。例如,在通過田野調查大量蒐集數據之前,先使用虛構的假資料來試試這個理論模型,可以很容易的看清楚模型設計裡的缺陷。那麼,為甚麼要這麼麻煩地使用虛構數據進行測試呢?為甚麼不能在蒐集好數據之後,使用真實數據來進行測試呢?原因是,我們馬上要談到,處理「識別不足」問題的方法之一,就是增加模型中的「自變量」數量,但是要能增加「自變量」,必須在大規模調研之前,在構造研究工具的時候,就要在衡量題項裡加以考慮了,這可不是在田野調查之後還能亡羊補牢的事情。

但是,即使我們的理論模型看起來是「過度識別」了,在利用真實數據,進行模型參數估計的時候,統計軟件還是可能告訴我們「識別不足」或是「恰好識別」,這是為甚麼呢?最可能的原因有兩個:一是在「非遞歸 (non- recursive) 」路徑模型裡,存在了數值過小的路徑係數;或者,模型裡的自變量(潛變量)之間,存在過於明顯的多重共線 (multicollinearity)。以下針對這兩種情形略加探討。

相對於「非遞歸模型 (non-recursive model)」,「遞歸模型 (recursive model)」是指那些因果路徑方向完全一致,不存在任何迴路的模型,同時因變量的殘差(干擾項)之間也不可以存在任何相關,因為一旦相關,就有了迴路了(所以我們預期因變量殘差的協方差矩陣中所有的元素都接近0)。例如前述這個A到B、A到C、與B到C的模型就是一個「遞歸模型」,但是如果在其中添增一個C到A或是C到B的路徑,或者B與C的殘差之間存在相關,這個模型就變成了一個「非遞歸模型」了。對於「非遞歸模型」,如果模型中的路徑係數接近0,也就是說,預期發生因果關係的潛變量之間,事實上,在真實數據的檢驗之下,其實是無關的,這時一方面由於模型中存在迴路,需要估計的參數比起「遞歸模型」要多得多,甚至可能已經是「恰好識別」了,另一方面,這些需要估計的參數(路徑),實質上根本不存在顯著因果關係,將使得結構模型的求解發生困難,在內定的迭代運算次數裡還達不到均衡解,於是統計軟件將之判斷為「識別不足」。事實上,只要將模型設定成「遞歸模型」,同時我們確信因變量殘差之間不存在相關,那麼就一定不出現「識別不足」的問題。反之,由這裡的描述,我們可以明白兩種造成「識別不足」的可能情況:(1) 模型被構造成「非遞歸模型」的形式,同時其中存在接近0的路徑係數;(2) 因變量的殘差之間存在相關,同時模型中存在接近0的路徑係數。

另一個造成「識別不足」的原因是自變量(潛變量)之間的多重共線問題。很顯然的,這還是和我們當初是如何來猜想這個世界、如何來構造模型有關。一個優秀的模型,必須滿足「簡潔 (parsimony)」的要求,換言之,在週延地考慮了與研究問題真正相關的變量之後,所選定的變量與變量之間,必須在概念上能夠互斥,在概念上高度相關的變量,就應該視為同一個變量,使用相同的潛變量加以處理,不可以枝枝節節,同時使用好幾個潛變量來表述相同的概念。只要能夠注意這一點,就不容易出現自變量之間的多重共線問題,從而,也就比較可以避免研究者最討厭的「識別不足」的問題。

沒有留言: