但是卡方檢定有個嚴重的缺點,就是對樣本數太敏感,或者說,卡方檢定比較適用於大樣本的檢定上,對於小樣本,卡方檢定的辨識能力實在不高,因為對於小樣本,即使我們構造了一個距離事實很遠的理論模型,由於小樣本的緣故,我們只能得出一個很小的卡方值,所以擬合值比較可能及格;相對的,對於特別大的樣本,卡方檢定的辨識能力又過份強大,十分容易就會棄卻一個和事實其實差距甚小的理論模型,這樣就使得結構方程模型在進行「擬合指標」的檢查時,出現了一些有待解決的問題。在過去一二十年當中,許多學者對這個問題分別提出了個別的解決方案,因此也就造就了許多種不同類型的「擬合指標」,來取代卡方檢定的擬合檢查。不過這些擬合指標,大多還是以卡方檢定為基礎來進行改良,並不是十分劃時代的變革。這些指標,最主要可以分成以下這三大類,這當然不是完整的歸納,事實上還不斷的有學者在提出新的擬合指標出來,但是明白了這三大類指標,對於只想要認識和應用「結構方程模型」的初學者來說,應該也已經很足夠了。
(1) 絕對擬合指標 (absolute fit indices)
絕對擬合指標的計算方式,就是直接拿我們所猜想、所設定的「理論模型」,去和「飽和模型 (saturated model)」相比較。所謂「飽和模型」就是考慮了所有的變量間可能出現的所有情形的模型,模型中所有變量之間不論是兩兩成對的、以至於多變量間同時發生的交互作用,全部都被納入構造模型的考量之內,也就是說,已經涵蓋了真實世界中所有的可能狀態,因此其自由度已經全部用盡,以致自由度為0,這是所有模型中最複雜,最龐大的模型類型。所以如果我們的理論模型居然和這個最完整的飽和模型若合符節,那麼當然就代表我們的猜想和這個真實的世界「絕對擬合」啦。常用的「絕對擬合指標」除了卡方值外,還有GFI及 AGFI,他們的推薦值一般要大於0.9才算及格。這類指標最大的問題就是容易受到樣本數的影響,樣本數太小時,估計不可靠,樣本數太大時,又太容易顯著,所以飽受學者批評。
(2) 增量擬合指標 (incremental fit indices)
增量擬合指標的計算方式,就是拿「理論模型」,去和「基準模型 (base model)」相比較,來看看兩個模型是否存在顯著差異。所謂基準模型,剛好和前述的飽和模型相反,也就是單純將變量擺在一起,但是排除變量間任何可能相關的模型,因此這是所有模型中最不擬合的模型類型。將理論模型和基準模型相互比較,可以看出理論模型比基準模型要更好多少,看看模型的擬合度改進了多少,這就是「增量」的概念,所增的量就是擬合的量。常用的「增量擬合指標」有NFI、NNFI、CFI、和IFI等,他們的推薦值一般要大於0.9才算及格。
(3) 簡潔擬合指標 (parsimony fit indices)
上述兩種擬合指標都只考慮單一理論模型的好壞,而沒考慮到模型比較時,不同的理論模型間,究竟哪個更好的問題。這時除了上述兩種擬合指標需要加以考慮外,還需要引入模型的「簡潔原則 (parsimony)」,認為參數偏多的模型就是較差的模型。計算方法是利用前述的「增量擬合指標」,乘上一個「簡潔比例 (parsimony ratio)」,來產生一個新的指標,就稱為「簡潔擬合指標」。這個「簡潔比例」有幾種不同的算法,不過在概念上簡單說來,就是兩個模型「自由度」的比例(理論模型的自由度/基準模型的自由度),所以如果理論模型愈複雜(愈接近飽和模型),模型的自由度就愈少,這個「簡潔比例」就愈小,使得所計算出來的「簡潔擬合指標」明顯地低於原本的「增量擬合指標」。反之,如果理論模型愈精簡,則其自由度愈接近「基準模型」,因此所計算出來的「簡潔擬合指標」和「增量擬合指標」便不至於有明顯差異。常用的「簡潔擬合指標」包括PNFI(愈大愈好,在不做模型比較時,一般的推薦值以大於0.5為及格;在做模型比較時,希望兩模型間至少存在0.06以上的差別)、PGFI(愈大愈好,一般的推薦值以大於0.5為及格)、AIC(愈小愈好)、和Normed chi-square(亦即卡方值除以自由度的值。如果小於1,表示受樣本數影響,估計可能有偏差;一般推薦值介於1和2之間)。
那一刻,我升起風馬,不為祈福,只為守候你的到來。 那一天,閉目在經殿香霧中,驀然聽見,你頌經中的真言。 那一月,我搖動所有的轉經筒,不為超度,只為觸摸你的指尖。 那一年,磕長頭匍匐在山路,不為覲見,只為貼著你的溫暖。 那一世,轉山轉水轉佛塔啊,不為修來生,只為途中與你相見。 《倉央嘉措》
2007年10月12日 星期五
結構方程模型的基本觀念 (12)
結構方程模型的基本觀念 (11)
擬合指標與模型修正
即使模型沒有「識別不足」的問題,還有一件事,是研究者很懼怕看到的,那就是「擬合指標」不好,或者稱為「違犯估計」的問題。「擬合指標」不及格,代表我們所想要驗證的模型是不可以被接受的,也反映了模型的表述 (specification)方式 不好,不能充分地描述它所想要描繪的真實世界。這裡所謂的「不好」,是指我們所蒐集的數據「拒絕」了我們事先猜想的理論模型,如果這個數據來自隨機抽樣,而且真的能夠代表我們所生存的真實世界,那麼就證明了我們的模型確實不好,必需要加以修正;反之,如果模型的「擬合指標」及格,那麼就代表我們所表述的模型,可能比較靠近了真理,或者至少是可以表達真裡的眾多模型中的其中之一。這裡的主要問題是,我們無法確認代進模型中的數據,真的是真理的化身,真的充分的反映了這個世界的真相。所以即使我們的模型,「結構過硬」、「擬合及格」,我們也不能說,我們已經通過了結構方程模型證明了某個真理,至多只能說,我們的數據,並沒有拒絕了我們對這個世界的猜想。
事實上,這裡還有個所謂「對等模型 (equivalent models)」的問題,也就是,除了我們所表述的模型之外,可能還存在一些「擬合指標」很接近、「方差-協方差矩陣」很相似甚至完全相同,但是其實是不同表述形式的模型。考慮下列擁有相同三個潛變量的模型:
(1) A-->B-->C
(2) B-->C, B-->A, C-->A
(3) A-->B, A-->C, B-->C
(4) A<-->B, B-->C, C-->A
(5) .....
假定這四個不同表述方式的模型,它們的「擬合指標」都一樣好,那麼,究竟哪一個才真正代表真理呢?比較合理看待這個問題的態度是,回歸洋八股的基本思想,我們在一開始設計這個模型的時候,就充分的引用了相關理論,來幫助我們解釋這個世界的種種現象和行為,模型中特定概念之間的關係,不管是相關還是因果,也不管他們的影響方向,總之,全部必須有根有據,不能單純基於空穴來風的臆測,這就是所謂的「先驗理論優勢 (status of a priori theory)」的觀點,換句話說,有理論支撐的模型,要比沒有理論支撐的模型更有效,我們在設計模型的時候,一定要充分考慮到模型中的理論支持,這樣再來考慮模型的「擬合指標」才有實際的意義。同時,研究者在利用「結構方程模型」進行研究的時候,在不同理論和不同範式 (paradigms) 的支持下,也要多方考慮各種可能存在的「對等模型」,甚至通過「替代理論 (competing theories)」來考慮各種可能的「替代模型 (competing models)」,而不應該只考慮了一種模型設計,在代入數據後,僥倖得到及格的擬合度,就說自己驗證了真理。事實上,尋找真神,哪裡是這麼容易的事!正確的作法是,在一開始整理文獻、構造理論的時候,就該開始考慮「對等模型」了,而且,在發展模型的過程中,還應該在理論的支持下,清楚說明放棄這些「對等模型」的原因。當然更嚴謹的作法是,對於「擬合指標」很接近(檢定下不顯著)的「對等模型」,最好能夠設計實驗進行更仔細的檢查,看看在不同的研究情境下,哪個模型更好。
誠然模型的擬合指標及格不代表我們找到了上帝,但是如果模型的擬合不及格,那麼肯定這個模型出了問題。出了什麼問題呢?簡單的說,就是模型和數據之間不相匹配的問題。想要比較模型和數據之間是否擬合,最簡單的概念就是去比較「由樣本得來的真實的數據」和「使用模型所估計出來的數據」之間,是否十分接近,而用來進行檢查的手段,最簡單的,但是也是最重要的,就是卡方檢定 (Chi-square test)。在結構方程模型中,實現這個過程的方法,主要就是去比較「樣本的協方差矩陣」,和「所估計參數的協方差矩陣」之間,是否存在顯著的差異,如果差異不顯著(卡方值很小,或是卡方值的顯著水平不顯著),就代表這兩者之間的差異不明顯,換句話說,模型能夠相對正確地估計出和真實數據接近的數值,因此我們就說,這個模型的擬合度良好。
2007年10月11日 星期四
結構方程模型的基本觀念 (10)
可是,有些時候,我們實在不夠瞭解這個世界,我們在想像中以為不相關的概念,在真實的世界裡,也許正是高度相關的,這與我們的人生境界、所接受的訓練、對於研究問題的經驗、認識等等,都有關係。那麼,當我們的結構方程模型發生「識別不足」的時候,我們該如何來歸因,才能夠知道這可能是因為自變量之間的多重共線所造成的問題呢?首先是觀察「標準化迴歸係數 (standardized regression weights)」,也就是「標準化路徑係數」的數值,如果兩個潛變量之間的「標準化路徑係數」接近1,就代表這兩個潛變量所代表的概念幾乎相同,換句話說,這兩個潛變量其實就是如假包換的同一個變量,這時如果將這兩個潛變量同時當作自變量,來估計它們同時對另一個潛變量的影響,結構方程模型將無法計算這兩條本來在概念上應該只有一條的路徑係數,計算結果很可能就是其中一條的路徑係數大於+1,而另一條卻小於-1。所以在檢查統計軟件所跑出來的「標準化迴歸係數 」矩陣時,如果看見這種情形,那麼就可以明白這個模型之所以「識別不足」,可能就導因於自變量的多重共線問題。
其次,如前所述,如果模型中存在兩條共線很嚴重的路徑,或者說,存在兩個高度相關的自變量潛變量,共同在影響著同一個因變量潛變量,由於統計軟件在參數估計上遇到困難,很可能直接將這些在迭代的過程中所面臨的不穩定現象,都歸入了「標準誤 (standard errors)」,以致使得存在共線問題的路徑的標準誤,明顯地大於其它不存在共線問題的路徑的標準誤,因此,我們也可以通過觀察「未標準化迴歸係數 (unstandardized regression weights)」的「標準誤」,來檢查自變量之間是否存在多重共線的問題,進而確定模型發生「識別不足」的可能原因。
同樣的,前述這個計算困難的問題,也可能反映在所估計參數的協方差矩陣 (covariance of the parameter estimates)裡,那些協方差特別高的成對路徑,很可能就在暗示著存在著共線的問題。另一個明顯的指標是,存在共線的路徑所指向的那個因變量(潛變量)的方差估計 (variance estimate) 可能為負值。所有這些徵候,都反映著模型的「識別不足」問題,正可能是來自於自變量間的高度共線性所造成的。
如果很不幸地(事實上研究者通常就是這麼不幸),我們的理論模型看起來很好,一點也沒有「識別不足」的問題,但是在昂貴的田野調查之後,利用統計軟件和大量樣本,針對模型進行參數估計時,電腦卻出現令人懊惱的「識別不足」問題,這時我們該怎麼辦呢?以下列出一些經驗之談:
(1) 設法找出並消除模型中的迴路型的路徑,換言之,就是設法將模型構造成「遞歸模型 (recursive model)」的形式。
(2) 從理論與實務同時下手,看看能不能找出證據,來支持模型中的某些待估計參數,其實是不需要估計的。換句話說,假如模型中原本有些預設需要估計的參數,但是在思考之後,我們發現這些參數的值,是可以合理的直接予以規定的,那麼我們就可以直接將那些數值明白地表述 (explicitly specify) 在模型當中,這樣每多指定一個固定 (fixed) 的值,模型就多出一個自由度來,可以很有效地消除模型「識別不足」的問題。但是能夠這樣做的前提,還是需要有根有據,不能為所欲為。
(3) 如果找不到證據支持來直接指定待估計參數的值,但是卻必須利用這方法來增加自由度,那麼還有一個秘訣可以使用。在AMOS的Analysis Properties的Output設定窗口裡,勾選critical ratios for differences (CR) 這個選項,然後檢查所跑出來的配對的路徑係數的這個CR值(這個CR值,事實上等於兩個路徑係數的差,除以它的標準誤,換句話說,就是標準化正態分佈下的Z值)如果CR<1.96,就代表這配對的兩條路徑之間的路徑係數差異不顯著(p>0.05),因此可以重新設定模型,將這兩條路徑的係數直接指定相同的任意值(當然要接近剛剛電腦跑出的估計值),因此就可以直接節省兩個自由度。
(4) 設法減少模型中的路徑。事實上,每減少一條路徑,就等於減少一個待估計參數,也就同時增加了一個自由度。如果在模型中直接將路徑係數指定為固定 (fixed) 的值0,這與在模型中刪除這條路徑的效果是一樣的。
(5) 設法刪減變量,讓模型變得更簡潔。
(6) 刪除(合併)那些相關係數很高的自變量潛變量。
(7) 在模型中增添(導入)新的自變量潛變量。
(8) 保證每個潛變量的可觀測變量都至少三個或以上。
(9) 確保樣本數據中不存在遺漏值。
(10) 一般的統計軟件直接內定使用「極大似然法 (maximum likelihood)」來進行參數的估計運算,可以考慮改用其他方法(例如GLS)試試看。
(11) 設法在統計軟件中設定更高的迭代次數。
(12) 把電腦砸爛。(開玩笑的,後果請自負!)
結構方程模型的基本觀念 (9)
模型識別
構造好結構方程模型以後,緊接著的工作,當然就是使用統計軟件,對這個模型進行參數估計。這看起來非常容易,但是對於初學者而言,馬上出現的問題,通常是模型「識別不足 (under identification)」的問題,換言之,統計軟件跑不出我們所想要的模型估計,而且在電腦螢幕上出現一些程序錯誤的警告信息。如前所述,我們在進行結構方程模型估計的時候,最想要的模型設計是「過度識別」,也就是模型中的自由度,希望能高於所必須估計的參數數量,這個要求,不僅對於「衡量模型」非常重要,對於「結構模型」而言,也是一個必要的條件。
前面我們提到過,「識別不足」與「過度識別」的中線,是所謂的「恰好識別」,也就是所謂的「飽和模型」,如果能夠辨認「恰好識別」的狀態,我們就可以事先覺察所設計的模型會不會遇到「識別不足」的問題。例如某個模型總共有三個潛變量,A、B、與C,假定其中A同時影響B與C,而B又單獨影響C。在這個簡單的結構模型裡,如果明白我們前述的「協方差矩陣」的表述方式,那麼這裡我們有三個待估計的參數(也就是這三條潛變量路徑係數:A到B、A到C、與B到C),同時這個模型的「協方差矩陣」裡也剛好有三個元素 (COV(a,b)、COV(a,c)、與COV(b,c)),這剛好就是個「恰好識別」的模型,這時,如果我們增加一個待估計參數,比如猜想C對A在理論上存在因果作用,那麼馬上就出現了「識別不足」的問題。
避免出現「識別不足」和「恰好識別」現象的先決條件,當然就是在設計理論模型(或概念模型)的時候,就已經考慮了自由度的問題。最簡單的判別方式就是去計算協方差矩陣裡的元素數量,是否高於所需要估計的參數數量。當然,更容易的方法,就是讓統計軟件告訴我們,究竟這個模型估計跑不跑得動。例如,在通過田野調查大量蒐集數據之前,先使用虛構的假資料來試試這個理論模型,可以很容易的看清楚模型設計裡的缺陷。那麼,為甚麼要這麼麻煩地使用虛構數據進行測試呢?為甚麼不能在蒐集好數據之後,使用真實數據來進行測試呢?原因是,我們馬上要談到,處理「識別不足」問題的方法之一,就是增加模型中的「自變量」數量,但是要能增加「自變量」,必須在大規模調研之前,在構造研究工具的時候,就要在衡量題項裡加以考慮了,這可不是在田野調查之後還能亡羊補牢的事情。
但是,即使我們的理論模型看起來是「過度識別」了,在利用真實數據,進行模型參數估計的時候,統計軟件還是可能告訴我們「識別不足」或是「恰好識別」,這是為甚麼呢?最可能的原因有兩個:一是在「非遞歸 (non- recursive) 」路徑模型裡,存在了數值過小的路徑係數;或者,模型裡的自變量(潛變量)之間,存在過於明顯的多重共線 (multicollinearity)。以下針對這兩種情形略加探討。
相對於「非遞歸模型 (non-recursive model)」,「遞歸模型 (recursive model)」是指那些因果路徑方向完全一致,不存在任何迴路的模型,同時因變量的殘差(干擾項)之間也不可以存在任何相關,因為一旦相關,就有了迴路了(所以我們預期因變量殘差的協方差矩陣中所有的元素都接近0)。例如前述這個A到B、A到C、與B到C的模型就是一個「遞歸模型」,但是如果在其中添增一個C到A或是C到B的路徑,或者B與C的殘差之間存在相關,這個模型就變成了一個「非遞歸模型」了。對於「非遞歸模型」,如果模型中的路徑係數接近0,也就是說,預期發生因果關係的潛變量之間,事實上,在真實數據的檢驗之下,其實是無關的,這時一方面由於模型中存在迴路,需要估計的參數比起「遞歸模型」要多得多,甚至可能已經是「恰好識別」了,另一方面,這些需要估計的參數(路徑),實質上根本不存在顯著因果關係,將使得結構模型的求解發生困難,在內定的迭代運算次數裡還達不到均衡解,於是統計軟件將之判斷為「識別不足」。事實上,只要將模型設定成「遞歸模型」,同時我們確信因變量殘差之間不存在相關,那麼就一定不出現「識別不足」的問題。反之,由這裡的描述,我們可以明白兩種造成「識別不足」的可能情況:(1) 模型被構造成「非遞歸模型」的形式,同時其中存在接近0的路徑係數;(2) 因變量的殘差之間存在相關,同時模型中存在接近0的路徑係數。
另一個造成「識別不足」的原因是自變量(潛變量)之間的多重共線問題。很顯然的,這還是和我們當初是如何來猜想這個世界、如何來構造模型有關。一個優秀的模型,必須滿足「簡潔 (parsimony)」的要求,換言之,在週延地考慮了與研究問題真正相關的變量之後,所選定的變量與變量之間,必須在概念上能夠互斥,在概念上高度相關的變量,就應該視為同一個變量,使用相同的潛變量加以處理,不可以枝枝節節,同時使用好幾個潛變量來表述相同的概念。只要能夠注意這一點,就不容易出現自變量之間的多重共線問題,從而,也就比較可以避免研究者最討厭的「識別不足」的問題。
2007年10月10日 星期三
結構方程模型的基本觀念 (8)
結構方程模型中數學符號的總整理
事實上,如果使用現代的統計軟件來進行結構方程模型的參數估計,以上這些矩陣表達形式都已經不再需要了,商業軟件中,不論是Lisrel還是AMOS,早已提供了十分便利、而且功能強大的圖形工具,幫助我們用最直觀的方式來構造模型,甚至免費的自由軟件Mx,都已經在最新的版本裡提供了以圖解方式構造模型的功能,所以上述這些數學表述的模型構造方式,似乎早已落伍,大可隨手揚棄了。
不過,能夠理解上面這些矩陣方程的表述形式,可以幫助我們更深入明白結構方程模型的內涵,使我們在以圖解模式構造模型時,更能理解這些結構背後的意義與限制,從而提昇我們在模型構造上的能力。同時,懂得這些矩陣表述式,可以讓我們對於統計工具的選擇更加自由,例如R這免費自由軟件也提供估計結構方程模型的模塊,只是必須使用矩陣表述方式來構造模型,即便如此,由於R在統計上超級強大的功能,我們就可以在R裡面,通過具有邏輯迴路的編程,將不同類型的統計過程結合在一起,甚至自行編寫特殊用途的統計程序,自動化地進行許多更深入的統計分析,這是使用專屬的結構方程統計軟件所無法達成的事情。
所以,學習以矩陣方程的形式來構造結構方程模型,還是很有價值的。起碼,熟悉這些數學語言,可以大幅度地釋放我們在閱讀一些關於結構方程模型的經典文獻時,可能面臨的困難。畢竟這些重要文獻,大多存在許多這樣的矩陣表述。以下將這些數學符號略作整理。
2007年10月9日 星期二
結構方程模型的基本觀念 (4)
誠如前述,結構方程模型基本上是「路徑分析」和「因子分析」的結合體,其中的「路徑」,指的是「潛變量」之間的因果關係,而「因子分析」指的則是「衡量模型」,由「可觀測變量」和「潛變量」組合而成。事實上,不論是「路徑」還是「衡量模型」,這些變量之間的關係,全都可以使用一般人容易明白的圖解形式很直觀地加以表達,同時,它們也可以使用學者所熟悉的數學語言,例如線性代數的形式,精確地加以表述。這兩種方式,是一而二,二而一的事,本質上沒有區別。
在這裡,本書將採用AMOS軟件為例,來對比一下結構方程模型的構造過程。不過在正式開始構造結構方程模型之前,讓我們先來複習一下線性代數中,關於矩陣向量的一些基本概念。
(1) 向量與矩陣的基本概念

(2) 構造結構方程模型的工作環境
接下來,讓我們簡單感受一下在AMOS中,用來構造結構方程模型的工作環境。在打開Amos Graphics之後,首先映入眼簾的是如下圖這樣的畫面,AMOS提供了一個十分直觀的圖形化介面,和許多有用的模型構造工具,來幫助我們建構結構方程模型,而不需要使用諸如向量和矩陣等數學語言來定義模型。基本上,在AMOS中構造結構方程模型十分簡單,只要使用鼠標將相應的元素點選後,直接在畫面中的工作區裡畫出來就可以了。其中白色的方框代表「可觀測變量」,白色的圓圈代表「潛變量」,單箭頭表示「因果路徑」,雙箭頭表示「相關」。其他的工具也都在幫助研究者,加速並降低構造模型所必須付出的努力,詳情請參見軟件使用說明與相關手冊。
結構方程模型的基本觀念 (3)
(6) 不存在多重共線性的假定
和多元迴歸分析一樣,結構方程模型假定了模型中的變量之間,不存在共線性的問題。但是由於結構方程模型的優勢之一,就是可以在模型中直接將共線性清晰地予以表述 (specify)出來,所以,本質上,結構方程模型還是可以處理多重共線性的問題。不過,如果這多重共線性十分嚴重,在最極端的情形下稱之為完全共線,那麼就會導致模型中出現「奇異 (singular) 矩陣」,由於「奇異矩陣」是無法進行某些矩陣代數運算的,例如就不能進行轉置 (inverse) 運算,結果就會使得結構方程模型無法求解。
(7) 殘差獨立的假定
和多元迴歸分析一樣,結構方程模型也假定了模型中可觀測變量的殘差之間是不存在相關的。但是由於結構方程模型中,我們一樣可以將這些相關的殘差,直接在模型中清晰地表述出來,所以結構方程模型還是可以處理殘差相關的問題。只是要在模型中定義某些殘差的相關,並不是隨心所欲想要相關就相關的,更不應該只是單純為了改善模型擬合指標,才讓某些殘差在模型中表述為相關,設計模型的要點就是要掌握理論依據,實事求是,必須能夠合理解釋某對殘差間為何必然存在相關,這才可以在模型中表述為相關。
(8) 不存在接近零的協方差矩陣 (covariance matrix)
結構模型本身必須真有意義,而不是潛變量的瞎拼瞎湊。如果結構模型裡潛變量之間的因果關係不明確,或是關係甚小,就可能導致滿盤都接近0的協方差矩陣。由於許多擬合指標的計算過程(例如卡方檢定、CFI、NFI、RMSEA、RMR等等),其實是在觀察每次模型修正後,真實數據下的協方差矩陣,和虛無假說 (null hypothesis) 下內容為0的協方差矩陣之間差異的變化。當真實觀察到的協方差矩陣很接近0的時候,這些計算擬合指標的程序將無法分辨協方差矩陣間的差異,所以就會認定不存在「不擬合」的現象,因此就高估了「擬合指標」。
(9) 適當的樣本大小
大多數國外管理學期刊裡使用了結構方程模型的研究中,所使用的樣本數量大約介乎於200到400之間。另外,許多學者對於樣本數量做出了各種原則性的建議,但是也眾說紛紜,沒有一定的標準。其中大多數的學者相信,如果樣本數低於200,那麼所獲得的參數估計將不穩定。事實上,樣本數量和模型中的變量數量之間,存在著密切關係。一般認為,適合進行結構方程模型的樣本數量,至少應該是模型中所有可觀測變量數量的10到20倍(Mitchell, 1993),或者是所需要估計的參數(包含所有係數和殘差)的數量的5倍(Bentler and Chou, 1987),雖然有些研究指出,卡方檢定對樣本數太敏感,過大的樣本數容易導致較差的卡方擬合,但是比較新的觀點認為,樣本數還是儘可能愈大愈好,因為在「中央極限定理」之下,大的樣本數比較能保證觀測變量的正態性。
結構方程模型的基本觀念 (2)
(二) 結構方程模型的前提假定
如前所述,結構方程模型在應用上的限制相對已經較少了,但是它和其他的多變量分析技術一樣,在實際應用的時候,仍然有其特定的前提假定必須遵守。
(1) 結構方程模型裡面的「可觀測變量」必須服從正態分佈。
由於在估計結構方程模型的擬合指標時,我們所採用的最基本工具是卡方檢定 (chi-square test),卡方檢定對於變量的正態性 (normality) 十分敏感,即使輕微的違背這個要求,都可能導致卡方檢定結果發生很大的偏差。同時,大多數結構方程模型在估計參數時所採用的方法都是「極大似然估計法」,這方法在應用時的基本前提也是變量的正態性,尤其對於模型中「內生變量 (endogenous variables)」的正態性更是嚴格要求,因此「可觀測變量」服從正態分佈,是進行結構方程模型時不可迴避的必要條件。這裡補充說明一下,如果「可觀測變量」不服從正態分佈,但是其殘差卻:(a) 服從正態分佈,(b) 所有殘差的方差都很接近(代表殘差同質),(c) 殘差間彼此獨立(也就是不相關),這時卡方的估計結果還是不偏的。不過這三個條件看來比要求「可觀測變量」服從正態分佈還要困難。
在實務上,避免違背這個條件的簡易方法,首先就是儘可能不去使用「順序尺度 (ordinal scale)」或是「名目尺度 (nominal scale)」這種「類別的」,或是「離散的」變量衡量方法。其次,在萬不得已必須使用類別型變量衡量的時候,還可以選用一些「轉換 (transformation)」技術,來「正態化 (normalize)」那些有問題的變量。所謂「轉換」,就是根據變量的分佈特徵,通過數學代換,將原本不屬於正態分佈的變量,設法將之轉變成具有正態分佈性質的變量。常見的轉換技術包括:取平方根 (square root)、取自然對數 (logarithmic)、或是函數1/x反轉 (inverse)等等,其中函數反轉優於取自然對數,自然對數又優於取平方根。
例如,對於服從「卜瓦松 (Poisson)」分佈的變量,我們通常直接對它取平方根,即可賦予變量正態分佈的特徵;對於百分比形式的變量,「反正弦 (arcsine )」處理也許是個好方法;對於二項式分佈的變量,通常使用的方法是通過「勝率 (Odds)」轉換成概率後,再利用自然對數函數log(p/(1-p))進行轉換;對於「韋布 (Weibull)」型「極值分佈 (extreme value distribution)」形式的變量,則使用反轉函數log(-log(1-x))進行轉換。無論如何,這些變量轉換必須有根有據,確實依據數學原理讓變量獲得正態分佈的性質,否則再怎麼奇巧轉換也是無益的。最後,當然還需要利用一些統計方法,來驗證模型中所使用的「可觀測變量」的正態性。這些方法包括QQ-plot,Shapiro-Wilk Statistic,或是Kolmogorov-Smirnov Statistic等等,茲不贅敘。
(2) 結構方程模型裡面作為「因變量」的「潛變量」必須服從正態分佈。
所以結構模型裡面,所有的「因變量」都不可以被設計成類別型變量的形式。如果萬不得已必須使用類別衡量的變量作為因變量,那麼必須改用「類別型潛變量分析 (latent class analysis: LCA)」方法處理,一般的結構方程模型軟件並不能處理這種問題。坊間存在若干特殊的統計軟件是專門用來處理這種類別型潛變量問題的,例如Statistical Innovations公司的Latent GOLD軟件(商業軟件),或是Jeroen Vermunt博士的LEM(自由軟件)。
(3) 線性關係的假定
結構方程模型預設了所有的「可觀測變量」和它們所屬的「潛變量」之間,以及「潛變量」和「潛變量」之間的關係,都必須是線性的。不過這倒不至於構成太嚴重的限制,因為就和一般的迴歸分析一樣,對於我們所假定的變量間的非線性關係,我們仍然可以針對變量進行函數轉換,來適應這個變量間必須是線性的要求。
(4) 潛變量的假定
在結構方程模型裡面,我們基本上假定所有的路徑關係,都只能採用非直接衡量的方式加以處理,也就是只存在「潛變量路徑分析」。
(5) 多元的可觀測變量
在結構方程模型中,所有的「潛變量」都必需由至少三個以上的「可觀測變量」來加以描述,如果只有一個「可觀測變量」在解釋著某個特定的「潛變量」,那麼這就不是結構方程模型,而是迴歸分析。如果只有兩個「可觀測變量」在解釋著某個特定的「潛變量」,那麼在模型中,這兩個「可觀測變量」必須被正式地表述 (specify)為相關,通過對這個相關的估計(等於新增一個可觀測變量),才能夠避免因為「可觀測變量」不足所導致的「識別不足 (under identification)」問題,如果「識別不足」,則模型將受制於自由度不足而無法求解,連帶的,當然也無法估計模型的「擬合指標」。
一個衡量模型至少必須滿足「恰好識別 (just identification)」的條件才可能求解。「恰好識別」的模型又稱為「飽和模型 (saturated model)」,也就是模型所構造的協方差矩陣(港台稱為共變異矩陣,covariance matrix)中的元素數量,剛好和所需要估計的參數數量相等,這時在估計參數的時候,剛好用盡了所有的自由度,所以參數雖然可以被估計出來,但是卻也因此而無法估計「擬合指標」,因為沒有自由度的估計,其實就等於是真實的計算,也就是百分之一百的擬合,或者這麼說,其實根本就沒有擬合的概念可言。在這樣的情形下,用來估計結構方程模型的軟件,不論是Lisrel還是AMOS,都將會報告自由度為0,卡方值為0,同時無法計算顯著水平。
研究者真正想要的其實是「過度識別 (over identification)」,「過度識別」代表已知變量間的協方差數量,大於未知的待估計參數的數量,所以這時模型的自由度將會是正的數值,我們才能夠應用結構方程模型的軟件來估計參數,同時計算出模型的各種「擬合指標」來。事實上由信度的立場來看這個問題,越多的「可觀測變量」通常其結構信度也較佳,這可由Cronbach's alpha信賴係數的計算即可清晰觀察出來,在同一個構念中,當我們放入的近似的衡量題項愈多,Cronbach's alpha的值很容易就可以升高。
所以在構造衡量題項的時候,最好儘可能從多維度多視角的多元觀點來廣泛採納「可觀測變量」,不要吝惜於「可觀測變量」被納入研究工具中的數量。畢竟在研究工具接受前測中效度信度檢查的時候,就可能開始刪減題項了,再加上田野調查之後,根據大規模數據進行衡量模型的效度信度檢查時,還可能繼續刪減題項,如果原始題項不足,在最後的結構模型分析階段,就很可能發生「識別不足」或是「恰好識別」的問題,為研究過程帶來無謂的麻煩。
結構方程模型的基本觀念 (1)
三、結構方程模型的基本觀念
(一) 結構方程模型是什麼
結構方程模型可以說,就是「路徑分析 (path analysis)」和「因子分析 (factor analysis)」的結合體。它的用途,與大家所熟悉的多元迴歸分析十分相似,但是不同的地方在於,結構方程模型是一種更為強大的統計方法,在構造模型和估計參數的過程裡,可以直接處理多組方程間的互動干擾、非線性關係、不獨立(相關)的自變量、殘差相關、衡量誤差、以及將多組相依的衡量模型共冶於一個單一模型當中。事實上,我們可以將結構方程模型視為「廣義線性模型 (general linear model: GLM)」的延伸,它的強大功能,絕對可以用來取代我們慣用的迴歸分析、路徑分析、因子分析、時間序列分析、甚至共變量分析。不過限於篇幅,本書將聚焦於結構方程模型在因子分析、潛變量路徑分析、和一般路徑分析上的應用。
相對於多元迴歸分析,結構方程模型在應用上的限制也較少,關鍵的亮點包括在進行「路徑分析」的時候,即使自變量間存在明顯的共線性 (multicollinearity),結構方程模型依然可以照單全收,絲毫不影響其解釋上的有效性。利用結構方程模型來進行「驗證性因子分析」,更可以通過將多個可觀測變量指定給單一潛變量,從而可以在根源處直接降低衡量誤差。尤其在殘差的處理上,很少有統計方法可以這麼方便地直接檢查每一個可觀測變量的殘差,甚至操弄這些殘差之間的相關。結構方程模型在路徑係數的處理上也高人一等,不僅可以同時估計多個自變量對多組因變量的關係,還能夠進行多樣本多模型之間的係數比較。最重要的優勢是,結構方程模型不僅僅可以估計單一參數的係數,還能夠直接估計整體模型的擬合度,這是許多傳統統計方法所望塵莫及的。
如前所述,結構方程模型的主要用途,其實是用來驗證研究者心中對於他所想像世界的猜想,而比較不是用來探索一個新的世界。換言之,在應用結構方程模型的一開始,大多數的研究者在他的心中,早已存在某些定見了。這些定見的存在形式,大抵上可以分成兩種:(1) 研究者想要檢驗他的某個想法是否正確,於是構造了一個結構方程模型,在代入真實數據對模型進行估計後,研究者可以根據擬合指標的好壞,來判斷真實世界裡的數據,和他所構造的模型之間是否一致,從而明白他原先的想法是否可以接受。(2) 研究者根據不同理論,得出兩種或兩種以上可以用來描述這個世界的不同看法,然後針對這些不同看法,分別構造出不同的結構方程模型來,在代入真實數據分別對這些模型進行估計後,研究者可以根據擬合指標的好壞,來判斷究竟哪種看法,更加切合實際。
儘管如此,我們還是可以在文獻中看到有些研究者,利用結構方程模型來進行模型探索,而不是正確使用結構方程模型,來驗證心中事先設定的模型猜想。例如有些研究者在驗證原先設定好的結構模型時,發現擬合指標很差,於是通過「修正指標 (modification index)」的暗示,「為數字而數字」地對模型任意調整改動,直到擬合指標達到及格標準為止。當然這樣的作法並不可取,因為通過這種過程而勉強予以接受的結構模型,可能只是剛好反映了這組特定樣本的特徵,而不是因為模型本身可以放諸四海而皆準,換句話說,是因為這組特定樣本造就了一個事先想像不到、缺乏理論依據的模型,而不是通過真實數據,驗證了一個具有理論深度的模型。這樣的模型即使擬合指標合格了,可能還是缺乏外部效度,我們很難接受這樣的模型會是能夠代表事實真理的模型。對於這種情形下所構造出來的結構方程模型,研究者有必要使用多組不同的樣本,對相同模型進行多次驗證,也就是「強韌度測試 (robust tests)」,如果多組樣本都證實了相同結構模型的「擬合指標」都是及格的,那麼我們才能夠正式接受這個結構方程模型。
2007年10月7日 星期日
什麽才是規範的「洋八股」(6)
(七) 驗證結構模型
結構模型,就是我們在研究之初所猜想的那個概念的世界,但是因爲這其中的每個概念,都已經經過了前述的「操作型定義」,幷根據這些定義,分別構造出來所謂的「衡量模型」,所以在實證階段的結構模型,其實已經整合了研究者心中對這個世界的概念性猜想,以及研究者用來觀測這個世界的衡量題項。將現實觀測與概念想像合而爲一,共冶于一圖,所構造出來的結構模型,通常稱作「潜變量路徑模型 (latent variable path model)」,在其中,我們使用圈圈來代表潜變量,使用方框來代表可觀測變量,同時使用單箭頭或是雙箭頭來分別表示變量間單向的因果關係,或是變量間的相關,不論是單箭頭還是雙箭頭,都代表了模型中的因果路徑。
所以,當我們完成了「衡量模型」的效度與信度檢查,幷將這些「衡量模型」調整到了「擬合指標」最優、同時也最能反映現實的地步後,便可以將這些「衡量模型」依據事前猜想的邏輯結構加以組合起來,構造成結構模型,準備接受統計驗證。驗證結構模型的方法,還是不離開前述「修正指標」和「擬合指標」的考量,我們的基本原則是通過「修正指標」來進行模型修正,最後希望能獲得「擬合指標」最優的最後模型。因此這裏所謂的「模型比較」,指的就是在比較各模型間「擬合指標」的好壞,而這擬合指標的好壞判斷,還可以進一步通過「卡方差」的顯著檢定來科學驗證。我們將在後續章節裏,再來深入探討各種擬合指標的意義與用途。
和前述「衡量模型」的修正過程相同,我們必須檢查兩兩配對的「可觀測變量」之間的「修正指標」孰高孰低,來决定這些變量究竟該添增還是刪減,抑或是不予變動;同時,我們也可以根據邏輯思維,添增删减模型中的「潜變量」,甚至更改這些「潜變量」,在邏輯上的關聯,甚至其因果方向,然後通過「擬合指標」的起伏變化,來印證我們心中對這個世界的猜想。但是不論如何調整這個「結構模型」,在這個模型修正的過程裡,我們仍然必須遵循下列幾個原則:
首先是不能爲了獲得表面上數字性的指標擬合,而抹煞了真實世界裏顯而易見的事實,換言之,雖然「結構方程模型」是種十分嚴謹的驗證性的統計手段,我們卻不該「為數字而數字」、「為科學而科學」。子曰:「知之為知之,不知為不知,是知也。」不論是數字還是科學,畢竟還是必須爲這個現實世界服務,不能單純爲了追求統計上的顯著或是擬合,而犧牲了事實真相。其次,在修正模型的過程中,每次的模型修正,其實都代表著一個新模型的誕生,不論我們是增加還是删减變量,抑或是改變變量間的邏輯關係,所有的這些模型,都必須同屬于相同的模型家族,我們才可以比較這些模型間的差异,這就是所謂的「巢內模型 (nested models)」,我們在後續章節裡再來詳細說明何謂「巢內模型」,以及該通過什麽手段來進行模型的比較。
再者,修正模型的方法,主要雖然是去添增删减「結構模型」中的「可觀測變量」與「潜變量」,但是也可能通過對模型中「可觀測變量」的殘差的操弄,來改善模型的擬合指標。這個方法就是去承認模型中,不同「可觀測變量」的殘差間,存在未能被模型所解釋的相關。換言之,就是去承認,在我們的模型之外,還存在著一些「未被解釋的共同因子 (unexplained common factors)」,沒有被納入我們的模型裏面。也就是說,研究者承認自己考慮不周,在構造模型的時候,有些現實世界裏的現象,沒有被事先猜想到,因此被模型忽略了。這些殘差之間的相關,可以具體地在結構方程模型裏正式予以表述 (specify),從而使這些原先未被模型解釋的共同因子,被正式地納進模型裏面來,其結果,將能够有效地提升整個模型的擬合指標。
不論是去添增删减「結構模型」中的「可觀測變量」與「潜變量」,還是去連結「可觀測變量」間殘差的相關,指引著我們選擇變量的决策指標,一般就是參考「修正指標」的高低,這是因爲「修正指標」實質上指出了模型中的不穩定因素,也就是殘差的變化。但是誠如前述,我們不可以「為數字而數字」,即使爲了達到「擬合指標」的高度優越,對於任何變量的添增刪減,或是對任何一組殘差的相關連結,我們都必須要恪守能夠「自圓其說」的起碼標準,我們最起碼還能自圓其說,表明我們的結構模型起碼還遵循著最基本的自然造化,那麽我們對于真理或事實的追求,至少可以雖不中亦不遠矣。
(八) 干擾變量下結構模型的比較
一個研究之所以有趣,通常不是基於對已知事實的直白描述,也不在於對未知事實的探索觀察,而是因為我們能夠通過真實的數據,來檢驗兩種或兩種以上的不同觀點下,我們所猜測的現象、或人類行爲,究竟哪一種更加符合現實。這就是所謂「替代模型 (competing models)」或「替代理論 (competing theories)」的概念。或者,基於我們對現實世界的猜想,我們可能認為不同類型的樣本,在某些事件上可能出現不相同的行爲,或者,即使是相同的樣本族群,在面對不同的外在刺激或是情境時,也會出現不同的反應,因此結構相同的一組「結構模型」,在不同的樣本群下,經過「結構方程模型」的洗禮,我們將會分別得出不同的模型來,這些不同的模型,雖然外表結構相同,但是其中的「因子負載」和「路徑係數」或許差异頗大,這些係數在數值上的差异,就反映了不同樣本族群間行爲模式的迥然不同。
問題是,差異多少,才稱得上在統計上具備顯著的差異?這時,我們就需要通過一些統計手段,去檢查這些數值上的差異。幹擾變量下比較結構模型的基本要件就是必須站在相同的基礎上進行比較,這樣的比較結果才有意義。和前述「修正模型」的模型比較不同,幹擾變量下結構模型比較的基礎,就是「完全相同的模型結構」,我們必須確保這些準備加以比較的模型,不論是其中的各組「衡量模型」、或是「潜變量」本身、還是「潜變量」之間的關係,都必須一模一樣,這樣才具備了共同的基礎,可以拿來比較。爲了滿足這個條件,我們必須先針對其中一組樣本,通過前述「模型修正」的過程,先構造了一個「擬合指標」及格的結構模型,然後以這個模型爲基礎,套入另一組樣本數據,重新估計模型中的各個參數與擬合指標,再來比較兩組不同的樣本數據下,所構造出來的兩組結構模型,在擬合指標上究竟是否存在顯著差异,以及兩組擬合指標何者爲優。這裏所采用的比較擬合指標差异的統計技術,依然是卡方差的統計檢定。
這個方法的前提要件其實是兩組模型,其中一組的擬合指標,顯著地優于另一組,依此,于是我們就可以確立其中一組模型中的「潜變量」關係,而弃却另一組模型的適用性。或者換句話說,研究者對于這個世界的概念想像,可以被這特定的一組樣本所驗證,而這樣一種對世界的概念想像,幷不適用于另一組樣本。在這樣的檢查下,其實我們就等于驗證了兩組「替代理論」之間的孰優孰劣,或者驗證了特定干擾變量下,不同兩群樣本之間在行爲上的不一致。
問題是,也許我們的驗證結果,發現兩個結構模型的「擬合指標」,在統計上幷不存在顯著差異。也就是說,兩組結構模型的擬合指標,其實同樣的好,這時,上述比較兩組模型擬合指標的方法,就無法爲我們服務了。在這樣的情形下,我們還是可以通過方差分析,來比較兩組結構模型中,相同路徑的路徑係數差異,是否存在統計上的顯著性。在結構方程模型的估計演算中,對每一條潜變量之間的路徑,除了路徑係數外,還能够計算出這係數的「標準誤 (standard error)」和t值,這時我們只要加上樣本數,同時將路徑係數當成均值(在迴歸分析的概念下,迴歸係數本來就是一種均值),就可以輕易地算出兩組路徑係數之間的F值,通過F分布的概率計算,我們可以獲取這個F值,在這個樣本數下的顯著水平,于是就可以對兩組路徑係數的差异是否顯著,做出一個嚴謹的判斷。
(九) 通過結構方程模型來驗證對事實的猜想
進行科學調研的最後階段,當然就是根據結構模型所顯示的數據結果,「實事求是」,「一分證據說一分話」。這些以數據形式存在的事實依據,主要包括兩種類型的結果,一是模型的「擬合指標」,二是「路徑係數」,以及這些路徑係數所附帶的,以t分布爲基礎所計算出來的顯著水平。事實上可以利用結構方程模型進行處理的問題形式有許多種,最主要的應用領域大致有三,首先是「驗證性因子分析」,用來對「可觀測變量」進行分類和梳理;其次是「潜變量路徑分析」,用來觀察抽象概念的因果關係;當然也可以用來直接估計「可觀測變量」之間的因果關係,也就是一般意義上的「路徑分析」。但是不論是哪一種應用,我們在解讀結構方程模型時所依據的事實,還是不離開「擬合指標」與「路徑係數」這兩大統計結果。當然,對于「驗證性因子分析」的用途,統計結果中幷不存在所謂的「路徑係數」,但是我們依然可以通過「因子負載」來明白這些「衡量模型」的結構。
這些「路徑係數」或是「因子負載」就是通過「結構方程模型」這方法所估計出來的結論,但是這結論是否確實可信,却取决于「擬合指標」是否及格。所以在通過「結構方程模型」來驗證我們心中對於這個世界的概念猜想時,首要之務就是先確定模型的「擬合指標」是否及格,在指標及格的前提下,這些統計估計的結論,才具備了科學上的意義。鄧小平先生說:「實踐是檢驗真理唯一的標準」,我個人對這句話的理解是,這裏的「真理」,其實還只是研究者心中的合理猜想而已,必定要通過實踐過程中的真實數據加以檢驗,同時這檢驗的結果,還必須在「擬合指標」的標準上合格,我們這才真正驗證了這個原先的猜想,究竟合不合現實,究竟算不算「實事求是」。由此看來,鄧先生實在是中國真正懂得「結構方程模型」的第一人。當然,在研究中能够具備上述這九大條件,我們就說,這「結構方程模型」的應用,已經滿足了「洋八股」的基本要求。
什麽才是規範的「洋八股」(5)
(六) 衡量模型 (measurement models) 與信度效度檢查
我們在田野調查之前,已經通過統計的手段,對衡量題項進行了效度與信度的檢查,由於田野調查所必須花費的資源量極大,這檢查的用意,事實上是為了確保在田野調查中所使用的衡量題項,能夠既有效,又可信,因此能確保田野調查的資源投入不致於浪費。但是在田野調查中我們收集了大量的數據,是為了檢驗研究者心中所想像的世界,與真實的世界是否一致,由於人非聖賢,孰能無過,我們想像中的世界,和真實的世界之間,也許存在著一些差異,而這些差異,正暗暗躲藏在我們通過衡量題項所蒐集到的數據當中。換句話說,即使我們的衡量題項在田野調查之前,已經通過效度與信度的考驗,我們仍然懷疑我們的衡量模型裡存在問題。
所謂衡量模型,簡單的說,就是將「衡量題項」(可觀測變量)和「想像的概念」(潛變量)加以結合起來的模型。我們所想像的世界是由許多個想像的概念,以及這些概念之間的因果關係所組合而成的,對於其中任何一個概念,我們都指定了一組相對應的可觀測變量,也就是衡量題項,來幫助我們對這個概念進行實地觀測,因此,我們所想像的世界,其實就是一組組的衡量模型,在因果邏輯的聯繫下,通過潛變量和潛變量之間的連結,所構造出來的結構模型。其中,每一組的衡量題項,都是我們用來觀察這個世界的門戶,而那些存在邏輯結構的潛變量,就是我們腦海裡的心智模型。這樣一種世界觀,在結構方程模型裡,就稱為「法則網絡 (nomological net)」,被認為是人類創造知識所依循的基本原理原則。
但是在進行田野調查的時候,我們針對研究問題所設計的那張「法則網絡」其實是主觀的,即使之前已經詳細檢驗過衡量題項的效度與信度,仍然不足以證實我們心中所想像的法則,一定和真實世界若合符節。為了讓我們所設計的衡量題項更能正確地反映現實,從而使依賴著這些衡量題項的研究模型也能正確反映現實,我們需要利用大規模田野調查所獲得的數據,重新來檢驗我們的衡量題項與衡量模型的效度與信度。因此,在結構方程模型的實踐過程中,在完成田野調查之後,我們的首要工作就是進行衡量模型的信度效度檢查。
但是由於我們用來檢驗「結構方程模型」的工具,一般是使用極大似然估計法 (Maximum Likelihood) 來進行參數估計,所以我們還是需要檢驗我們所獲得的數據,是否符合多變量正態分布的假定。檢驗的方法除了針對衡量題項進行偏態 (skewness,建議絕對值小於3) 與峰態 (kurtosis,建議絕對值小於10) 的觀察外,更具體的作法是使用QQ plot,再搭配一些專門用來檢驗正態分佈的方法,例如Shapiro-Wilk Statistic,或是Kolmogorov-Smirnov Statistic等等方法,對數據的正態性 (normality) 進行嚴謹的考驗。在數據通過正態性考驗後,我們才可以正式進行針對「衡量模型」的信度效度檢查。
「衡量模型」的信度效度檢查,在結構方程模型裡,主要是通過「驗證性因子分析 (confirmatory factor analysis)」來實現的。在傳統的高等統計方法裡,我們學習過的「因子分析」其實是「探索性因子分析 (exploratory factor analysis)」,顧名思義,「探索性」因子分析,就是事先不去預想一群變量,或是一群衡量題項,裡面的結構,而讓統計程序來幫忙找出這個結構,這樣所找出來的結構,是以「因子 (factors)」的形式顯現出來的,這群變量或是題項被重新分類分組,每一組的題項,都被賦予一個因子,來反映這群題項背後所代表的、抽象的、整體的概念或「主成份 (principle component)」,也就是我們前面所描述過的「潛變量」。
相對於傳統的因子分析,「驗證性因子分析」採取了一種完全不同的視角來看待衡量題項裡的結構。「驗證性因子分析」的想法是,萬事萬物原本即已存在結構,人為萬物之靈,理所當然地可以通過天人合一所形成的感知力,來理解天地的結構,所以這些衡量題項裡的結構,不假外求,不需要通過統計程序來幫我們探索尋找,早已存在我們心中對於這個世界的猜想中。在我們心中早有猜想,唯一需要做的事情,就是去驗證這個猜想,究竟正確不正確。我們在構造「結構模型」的過程中所引入的諸多「衡量模型」,就是我們對於這個世界裡,種種概念的猜想,我們可以通過「驗證性因子分析」,來驗證這些對各種概念結構的猜想,究竟與現實相差若何。
詳細的檢驗方法,我們留待後續章節再來深入探討,在這裡僅簡單指出這檢驗過程的主要程序。首先當然是根據我們事前的猜想,來構造出結構模型裡每個所涉及概念的「衡量模型」,同時使用「驗證性因子分析」方法,分別對這些衡量模型進行統計驗證。對於統計結果,我們需要檢查每個「衡量題項」的「因子負載 (factor loadings)」,也就是「可觀測變量」,可以有效解釋所屬「潛變量」的程度,我們一般要求這個負載係數要大過0.5,證明我們使用這個「衡量題項」來觀測「潛變量」,起碼所觀測到的事實,要大於沒觀測到的誤差。對於負載係數小於0.5的「衡量題項」則予以刪除。
在這個過程裡,我們同時還可以考慮兩兩成對的可觀測變量,在交互作用時所造成殘差 (residual) 發生變化的量,也就是所謂「修正指標 (modification index: MI)」的大小,來決定特定的衡量題項間,能夠被模型有效予以解釋的程度,對於那些解釋能力較差的題項(通常是MI大於4的成對題項),酌情予以刪除,如此將可以明顯地提昇「衡量模型」的「擬合指標 (fit index)」。關於「擬合指標」的概念,我們將在後續章節裡比較詳細地探討。此外,在檢查「衡量模型」的過程裡,我們還需要實際去計算這個衡量模型的效度與信度,這主要是通過計算「組成信度 (composite reliability: CR)」和「方差抽取量 (variance extracted: VE)」來實現的,如果所有「潜變量」的「方差抽取量」的平方根,均大于「潜變量」間的相關係數,就表明研究中所使用的「衡量題項」具有較好的「鑑別效度」(Bagozzi和Yi, 1988)。
部份研究在計算了CR和VE的同時,還計算了Cronbach's alpha係數,事實上這是不必要的,因為當我們檢查了每個「衡量題項」的「因子負載」,所獲得的「衡量模型」具備優秀的「擬合指標」,同時還考驗了CR和VE,這一切,其實已足夠證明衡量模型的結構信度。此外,部份研究先進行了「探索性因子分析」之後,再根據這個過程所「探索」出來的因子結構,來進行「驗證性因子分析」,甚至據以進行「結構方程模型」的檢驗,這則更是錯解了「結構方程模型」這個方法的本意。「結構方程模型」的本意是在驗證研究者心中對這個世界的猜想,所以在研究之初,心中早已存在定見,所謂成竹在胸,「結構方程模型」的用途是去驗證這個成竹究竟是虛竹還是可以蔚然成林的翠竹,可是卻絕對不是重新去尋找或探索出竹林的所在來。
什麽才是規範的「洋八股」(4)
(三) 確定衡量題項的效度 (validity)
當我們爲上述這些「構念」或「變量」進行操作型定義時,幷不是自以爲是地信口開河、依照我們的主觀偏好任意設計衡量題項,就能够有效地描述我們想要觀察的現象,或是解釋我們想要檢查的概念。古語有雲:「三個臭皮匠,勝過一個諸葛亮」,連諸葛亮這樣的天才高手都還需要旁徵博引,廣泛接納群衆的集體智慧,更何况像你我這樣的平凡人呢。所以用來描述「構念」或「變量」的衡量題項,幷不是一個研究者可以簡單地單憑自己想像,就可以創造出來的。換句話說,單純通過自己想像所創造出來的衡量題項,可能以偏概全,可能失之毫厘謬以千里,換句話說,這些閉門造車所得來的題項可能是無效的,我們必須通過一些手段,來保證這些題項的效度,這樣我們的研究才能客觀地反應事實。
「效度」就是衡量題項能够有效反映、或是描繪、一個概念的程度。檢驗題項效度所涵蓋的範圍,大抵上包含了「內容效度 (content validity)」、「建構效度 (construct validity)」、「內部效度 (internal validity)」、與「外部效度 (external validity)」四大類,我們在此僅僅略作說明。「內容效度」又稱爲「表面效度 (face validity)」,主要是在檢查我們所想要使用的衡量題項,究竟與我們的世俗概念是否一致?是否有所偏狹?所涵蓋的範圍是否過窄?抑或太過?文字表達的方式是否清晰易懂?是否正確傳達了語意概念?「建構效度」主要想要檢查的是我們用來直接觀察這個世界所使用的衡量題項,與我們心中對這個世界的所作的種種概念性的猜想,兩者之間究竟是一致還是不一致。這其中還包含了「聚斂效度 (convergent validity)」與「鑒別效度 (discriminant validity)」兩種狀况,詳情留待後續章節中再仔細討論。
「內部效度」所要檢查的是我們所使用的研究設計是否隱含瑕疵,以致于最後所觀察到的因變量所顯現的現象,不完全是來自于自變量的影響。這個效度檢查和衡量題項的關係較小,主要的著眼點在于研究設計。例如學過管理學的人可能聽過「霍桑效應 (Hawthorne effect)」這個名詞,在那個研究設計裏就因爲忽略了觀測者對受測者所可能造成的心理效應,因而無法正確觀察「工廠照明」與「生産力」之間的因果關係。在這個情形下,我們就說,這個研究設計缺乏「內部效度」。最後,「外部效度」指的是相同的衡量題項,是否可以放諸四海而皆准的問題。大多數與管理學領域相關的研究,經常采用其他國家或其他文化、次文化裏的研究中,所曾使用過的衡量題項,加以翻譯後直接引用進自己的研究裏來。如果我們觀察到這兩個文化實在是「非我族類,其心必异」,兩地的樣本差异實在太大,那麽這樣的題項引用,就是缺乏「外部效度」。
我們一般通過兩種手段來提升衡量題項的「內容效度」與「建構效度」。其中最簡便的方法,就是取材前人優秀論文裏所使用過的題項,略加變通調整後,直接應用在我們的研究上。要能滿足這裏所謂優秀論文的稱號,當然不能是濫竽充數的論文,當然存在一些關鍵的要求,來保證其中的題項是可用的,否則以瞎引盲,不過是讓我們平白瞎忙一場。最起碼,我們期望這前人論文必須滿足:(1) 已經公開在學術同行認可的頂級權威期刊裏發表。當然,最好是學術同行認可的國際頂級期刊。(2) 清晰交待了所使用題項的發展過程、來龍去脉、以及其中所隱含的維度或結構,(3) 對題項進行了效度與信度的檢驗,而且通過統計檢定,證實這些題項不論在效度還是信度上都是可接受的,(4) 清晰說明了用來檢驗效度與信度的樣本對象,以及進行檢驗的過程是合理的,同時與本研究的性質接近。
當然對于一些特別嶄新的概念,可能找不到現成的題項可用,所以我們還是不得不從無到有,一切重頭做起,來創造出我們進行研究所需要的衡量題項。比較正規的作法是,先進行「定性研究 (qualitative research)」,然後通過「內容分析 (content analysis)」方法,將所搜集到的「定性資料 (qualitative data)」轉換成有意義的信息,甚至可以從這些材料中歸納整理出可供使用的題項。這些題項,如果能够通過效度與信度的嚴苛檢驗,一樣可以拿來用在我們的研究裏。本書將在後面的章節裏介紹一些與結構方程模型有關的效度檢驗方法,至于效度與信度檢驗相關議題的深入介紹,有興趣的讀者請自行參閱與「研究方法 (research method)」相關的書籍。
這裏要補充說明的是,即使是直接引用自國外頂級期刊文獻裏的衡量題項,也一樣必須重新經歷過種種統計上的,效度與信度的嚴苛檢驗之後,才能安心地在我們的新研究裏重複使用。爲了防止衡量題項在文字翻譯過程中「橘逾淮而爲枳」,也爲了避免「外部效度」的問題,我們必須通過客觀的統計工具,來確保衡量題項的效度。這種通過統計檢定可以客觀加以觀察的效度,起碼還需要先滿足「信度 (reliability)」檢驗,「信度」是「效度」的必要條件之一。
(四) 確定衡量題項的信度 (reliability)
所謂的「信度」,就是「衡量題項」和我們想像中那個「真實的潜在概念」之間的相關程度。使用口語加以表白,也就是我們的「衡量題項」,所能正確地、可信地、穩定地傳達、或是替代,我們心中那個「潜在概念」的程度。但是由于現實世界裏幷不存在所謂的「真實的潜在概念」這麽一回事,因爲既然是個潜在概念,就不可能在真實世界裏被觀察到,同時既然是潜在概念,由于人心不同,每個人心中對于文字上相同的概念的真實認識,很可能其實也差异頗大,但是研究者却必須通過文字這種工具,通過由文字所形成的衡量題項,來測量人類心中的潜在概念,所以十分情不得已的,這種題項的「信度」,只能被間接地估計出來,而不可能被真實掌握。
如前所述,具有「效度」的衡量題項,必須先滿足「信度」的要求,但是具有「信度」的衡量題項,不一定具備「效度」的品質。我們通常通過四個視角來估計衡量題項的信度:(1) 內部一致性 (internal consistency),也就是估計衡量題項之間的內部相關度高低,通常通過Cronbach's alpha係數來衡量,(2) 折半信度 (split-half reliability),估計兩組被視爲等同的題項間的相關度高低,通常使用Spearman-Brown相關係數來衡量,(3) 再測信度 (test-retest reliability),估計同一組衡量題項,在不同時間點上的穩定度,也通常是使用Spearman-Brown相關係數來衡量,(4) 測評員間信賴係數 (inter-rater reliability),估計不同測評員之間答案的一致性程度,通常用來檢查定性研究中內容分析結果的可信度,而較少用來估計衡量題項的信度,所使用的檢查工具通常是Kappa係數。
我們留待後續章節再來深入介紹上述三種與衡量題項直接相關的信度檢查的具體作法。
(五) 抽樣框架 (sampling frame) 與田野調查 (fieldwork)
設計好衡量題項,同時决定了題項的衡量方式之後,或者說,設計好了研究工具 (research instrument) 之後,緊接著的就是大規模的田野調查了。田野調查的規模,當然與研究者本身所擁有的資源量有關,這些資源的類型,包括金錢資源、時間資源、甚至研究人員本身的精力、能力、和所曾接受過的訓練等等。一般的研究人員不具備國家的資源優勢,比較不可能實施以全體母體爲對象的普查,因此抽樣就成爲不得已中的必要。抽樣就是由母體中抽取一部分樣本來進行調查,然後將調查結果,推論成整體母體的共同現象或行爲。爲了讓少數樣本能忠實反映整體母體的現象,我們首先當然必須設法來保證這些樣本對于整體母體的代表性。
規範的洋八股,主張「隨機抽樣 (random sampling)」,提出三個條件來保證樣本能够滿足這個「代表性」的要求:(1) 獨立性,(2) 互斥性,與 (3) 被選中的機會均等。「互斥性」的意義比較容易明白,簡單的說,就是相同樣本不會被重複抽取,每一個樣本,最多只會被抽中一次。「被選中的機會均等」也容易瞭解,使用統計學的語言來說明,就是個別樣本被抽中的機率,服從均等分布。「獨立性」是指樣本之所以被抽中,和其他被抽中樣本之間不存在關聯,換句話說,每個被抽中樣本的抽取過程都是獨立的,彼此之間不相互干擾。例如,先抽取A樣本,再敦請A樣本介紹B樣本作爲下一個觀察對象,這就違反了「獨立性」的要求,因此不屬于隨機抽樣,所獲得的樣本,對全體母體不具代表性。
違背上述三個條件中任一條件的抽樣設計,都不屬于隨機抽樣,所獲得的樣本,對全體母體不具代表性。這樣的抽樣設計,我們將之稱爲「非隨機抽樣」,或是「便利抽樣」。當然我們幷不絕對排斥「非隨機抽樣」的設計,事實上,許多時候,由于受限于種種條件約束,例如母體很難接近、母體行踪出沒很難掌握、母體存在十分明顯的「無反應偏差 (non-respondent bias)」等等原因,我們不得不采用「非隨機抽樣」的方式來取得樣本,不僅僅是因爲可行性的問題,在這樣的時候,通過「非隨機抽樣」所取得的樣本,可能比隨機抽樣更具代表性。研究者必須通達事理,善巧機變,提出適當的抽樣框架來處理抽樣的問題。原則上,研究者要盡可能掌握三個隨機抽樣的基本條件,來滿足樣本對母體的代表性。具體詳情請參閱與研究方法相關的著作,本書對此不進行更深入的探討。
2007年9月23日 星期日
什麽才是規範的「洋八股」(3)
(二) 對結構模型裡的變量進行操作型定義。
在前述結構模型的基礎下,我們接著對模型中所牽涉到的變量,或者是構念,進行嚴謹的定義,讓這些變量,從一個虛無飄渺的概念,可以轉變成某種可以衡量,可以操弄的形式,這就是所謂的「操作型定義(operationalizaiton)」。比方說,在前述Hunter與Perreault Jr. (2007)的結構模型裡,有個可能會干擾最終銷售績效的構念,叫做「銷售員個人因素」,研究者認為,會干擾最終績效的個人因素可以再進一步化約成兩種變量,一是個人的「努力」,一是個人過去的「經驗」。但是不論是「努力」還是「經驗」,對我們而言,都只是一種概念,而概念是虛無飄渺的,並不能讓我們在第一時間就明白了這兩個變量的真實意義。因此我們必須設法去衡量它們,讓它們可以被計算,可以通過量化的形式,看出它們對「銷售績效」的具體影響。
所以Hunter與Perreault Jr. (2007)是這麼來「操作型定義」「努力」這個變量的:「平均而言,每個星期你總共花費大約多少小時,在從事你的銷售工作上?」同樣的,對於「經驗」這個變量,他們是這麼定義的:「包括目前和過去你所任職過的所有公司,你總共有多少年的工作經驗?」不論這樣的定義你個人贊同不贊同,起碼這樣的描述方式,讓「努力」和「經驗」這兩個變量,變得很清晰,變得很具體,具體清晰到可以直接通過問話,或者是問卷的形式,馬上讓我們掌握這兩個變量的實質內涵。這就是所謂的「操作型定義」。而「操作型定義」的直接成果,就是形成可供蒐集研究數據的「衡量題項(measurement items)」。
由於研究者認為在這兩個變量底下,不需要再增加更細緻的觀察維度,所以分別使用單一的衡量題項,已經足夠表達這兩個變量的內涵,所以在這個情形下,這個結構模型裡的這兩個「變量」,就直接使用「可觀測變量」的形式加以表達了,因此在這個結構模型裡,它們直接以方框的形式出現。但是其他的變量就不一樣了,研究者認為在模型中的其他變量,在結構上比較複雜,並不是使用單一衡量就能夠被清晰地觀測到,所以採取了圈上圓圈的形式,來表達他們都屬於「潛變量」。
例如在「銷售績效」這個構念裡的「管理績效」這個維度,就被圈上了一個圓圈,所以這是個「潛變量」,這是因為兩位作者認為,至少必須通過三個視角的觀察,才足以表達他們所謂的「管理績效」:(1) 「能夠完成銷售過程所需要的各種文件紀錄」,(2) 「能夠即時處理我在管理工作上的要求」,以及(3) 「能夠在規定時間之內提交需要的銷售報告」。這三個「衡量題項」,事實上就是作者對「管理績效」所做的「操作型定義」,這三個題項,都是「可觀測變量」,假如也想要表現在結構模型裡,和其他的變量一同出現,它們也都必須使用方框的形式加以表達。
為甚麼在結構模型裡我們必須特別精細地區分「潛變量」和「可觀測變量」呢?那是因為,在西方學術研究的範式裡,要求將我們腦袋裡的想像,和真實世界裡的現象,做出一個嚴謹的區分。真實世界裡的現象太過複雜,以人類這麼有限的能力,我們實在很難直接去處理這些複雜現象裡的生剋和互動,所以只能通過我們大腦的歸納能力,利用精簡的、想像來的「潛變量」,來「以簡馭繁」,讓複雜現象變得清晰、變得容易理解、也變得可操控。
像「管理績效」這種結構模型裡的變量,其實只是我們存放在腦中的想像,在真實世界裡,並不存在什麼叫做「管理績效」這樣的東西。這種「潛變量」,只是種概念,是無法直接加以觀察的,我們只能通過一些可以度量的「可觀測變量」,例如「能夠在規定時間之內提交需要的銷售報告」這樣的可衡量的真實觀察,在某個可以接受的準確度下,來替代,或是來描繪,那不可被直接觀察到的概念。
什麼才是規範的「洋八股」(2)
有了「猜想」以後,剩下的科研努力,就只是通過種種手段,設法去證明這個猜想的正確與否。這裡的種種手段,主要包含了:
(一) 使用嚴密的型式,將「猜想」的結構,規範而精確地表達清楚。
這就是所謂的「結構模型(structure model)」。例如Hunter與Perreault Jr. (2007)發表在Journal of Marketing裡的一篇文章,探討了顧客關係管理(customer relationship management) 與自動化銷售工具(sales automation tools)等銷售技術,應該如何正確掌握,才能有效提昇IT類產品的銷售績效。下圖就是他們的結構模型,我們可以很清晰地看見,這個結構模型將研究者的研究思路,也就是他們對問題的猜想,精確而又嚴謹地表達得很清楚。在西方範式下的學術研究就是這樣的,所有的問題點都攤在陽光底下逐一檢驗,細細檢驗,沒有任何隱晦不可明說之處,也沒有自己還沒想清楚,需要利用文句加以迴避掩飾的地方。
在這個結構模型裡,最上面的粗體黑字是模型裡的一些「構念(constructs)」,也就是比較粗的,帶著結構或維度的概念。例如「銷售績效」,就可以通過兩個獨立的維度來加以表達,那就是「建立關係的成果」和「管理績效」。同樣的,「銷售員個人因素」這個構念,就可以通過「努力」和「經驗」兩個維度來加以解釋。這些較細的維度,我們稱之為「變量(variables)」,而變量,正是構成了我們對研究問題所進行任何猜想的主體。在這個例子裡,研究者猜想了「銷售員個人因素」這個構念,可能對銷售員最終的「銷售績效」這個構念,產生具體的影響。
我們可以清楚地看見,模型裡同時存在著圓圈和方框兩種不同的,用來表達變量的形式,這些圓圈和方框,被許多帶著箭頭的線段聯繫在一起,這些帶著箭頭的線段所表達的,就是「因果關係(causal relationships)」,而其中圈在圓圈裡的變量,在結構方程模型裡,特別稱之為「潛變量(latent variables)」,而那些框在方框裡的變量,就稱為「可觀測變量(observable variables)」。在結構方程模型裡,為了嚴謹清晰地表達我們對問題的猜想,在構造結構模型的時候,正確使用這些圈圈和框框,是必須被嚴格遵守的規矩,這樣子結構模型所想要表述的意思,才不至於被誤解,我們才能正確無誤地傳達我們對問題的猜想,而且跨四海而皆準。
2007年9月20日 星期四
什麼才是規範的「洋八股」(1)
二、什麼才是規範的「洋八股」
我們喜歡用「洋八股」這字眼來稱呼近年來由西方引進中國的學術研究範式,這個範式,與中國文人過去長久以來的思維寫作習慣很不相同,有人奉之如至寶,但是也有人對它嗤之以鼻,認為這些使用洋墨水漂染過的文章,浮華無根,底氣不足,能見秋毫之末而獨不見輿薪。所以「洋八股」這樣的稱呼,其實其中褒貶之意並存。事實上,這只是文化衝突的一種顯現,中國傳統的思維模式是「道」,而西方自笛卡爾的「化約論」以降,則是一種重視「術」的思維模式,「道」與「術」,其實是這個真實世界的兩種顯現型式,無關乎究竟誰比較能夠代表真理。
中國傳統的「道」,強調整體的系統觀,那種天人合一,那種牽一髮動全身,那種在我們的感知下,整個世界裡的種種元素,彼此環環相扣、互動相依的思維模式。正由於這個世界太複雜,雖然「多算勝,少算不勝」,但是聰明的中國古人知道「人算不如天算」,既然無法算盡上天的旨意,那麼就乾脆不算了,反過來通過個人的修煉,來提昇思維境界,所謂「格物致知」,隔開物慾的干擾,忘記細節的牽扯,來獲致對這個世界最深沈的、統合性的認識。所以孔子說:「雖小道,必有可觀者焉,致遠恐泥,是以君子不爲也。」這就是所謂的「君子不以小道試之」。我們這些後世子孫,很容易就繼承了先祖的思維模式,喜歡從大處著眼,而忽略了思維成果的可驗證性、可重複性,因此,我們歷代思想家輩出,都是單獨一個人在立功、立德、立言,但是卻很難從歷代聖賢與當世才女才子的思維中,提煉出可積累、可延展、具備科學性質的知識結晶。
「術」的思想與中國的「道」正好相反。「術」,就是中國先祖最反感的「奇淫巧技」。「術」的前提是「化約」,把萬物萬事分解簡化成基本元素,設法去徹底研究明白這些基本元素的性質與作用,把一切攤開在太陽底下,當構成這個世界一切現象的元素被解析清楚以後,我們也就明白了這個世界的所有真相。在這樣的過程裡,我們最重視的事情當然就是基本事實的呈現,文字的詞藻不需美麗,但是必須精確。所有的思維開展,必須嚴格遵守邏輯次第,所有的思維結論,都必須經過嚴謹推理,能夠經得起後人的重複檢驗。換句話說,所謂的「立論有根據」,「推論合邏輯」,所有的論述,沒有任何一句話,是毫無根據的憑空想像、空穴來風。這種處理信息,對待知識的方式,可以讓我們很容易地通過白紙黑字,很明確地將事實記錄下來,所以其他的人,如果關心類似的科研課題,就能夠很容易地借鑒他人的研究,在他人研究成果的基礎上,繼續積累,繼續進步。
所以中國傳統「道」的思維模式,所能造就的結果是「江山代有才人出,各領風騷數百年。」請注意,是「各」領風騷!這些人才的出世,是間斷的,是沒有傳承的,沒有積累的。這些歷代才女才子的勞動成果,往往也都是隱晦遮掩的,唯恐過份清晰明白的闡述,污辱了美麗性靈的意境,喜歡把真正的思想結晶,隱藏在優美的文學辭藻中,然後束之高閣,謹供後人憑弔。反之,西方「術」的思維模式,是真正的人海戰術,是真正大規模的團隊合作,而且還提供了方法,讓子子孫孫有機會承先啟後、繼往開來。西方「術」的方法論,和中國古人一樣,體認到這個世界的複雜性質,將這個世界的種種現象加以拆解後,發現存在這麼多的大自然的本質元素,即使花費個人畢生之力也完全不可能窮盡,而解開大自然奧秘的唯一門徑,只有依賴眾志成城,通過愚公移山的精神,讓許多人、甚至幾代人,來成就對這些大自然基本元素的描述與探索。所以,很當然地,在「術」的思想的教化所及,西方那種橫貫千古的大思想家,確實不如中國多產。但是,西方在這樣的思維模式下,逐漸積累,終於在科學上取得了長足的進步,遠遠的超越了中國。
如果明白「術」的精神就是「洋八股」的基本精神,我們就不難去瞭解如何才是一篇規範的學術論文了。在西方學術研究方法論的範式下,從我們的眼睛所看見的世界,全部都只能夠是「探索」或是「猜想」。「探索」的意義是,我們的腦海裡,不存在任何主觀的既定的意見,只是超然地想要看清事實真相。可是由於我們可能帶著眼鏡,而不同鏡片的顏色和曲度,可能也干擾著我們所看見的、以為是事實的現象。這當然只是個比喻,由於先入為主的刻板印象,任何人對於他所生存的世界,往往都是帶著特定偏見的,而這十分隱晦的個人素質,肯定干擾著我們對這個世界的觀察,所以在「探索」的時候,我們必須很小心地去檢查,我們用來觀察這個世界所使用的工具本身,是否已經存在了偏見,讓我們看見的其實是個已經被扭曲了的世界。如果我們夠幸運,真的看見了這個世界的部份真相,那麼通過歸納法,我們確實可能因此就窺見了這個大自然的實相。
「猜想」的意義就是對我們周遭的世界提出某種設想,我們並不知道這樣的設想是否就是真理,但是起碼這個設想是個起點,我們希望通過某種科學的方法,設法來證明這個設想,究竟是正確還是不正確。結構方程模型的主要用途,就是用來實現這個證明設想是否正確的過程。這裡要補充說明一下,在西方範式下的學術研究中,我們通常喜歡用「假說(Hypothesis)」這個名詞來代替這裡所謂的「設想」或「猜想」。類似的詞語還有「假設(Assumption)」或「假定」,在西方科研範式下,「假設」或「假定」指的是前提條件,我們主動地限定我們自己,只觀察在「假設」所限定的範圍之內的世界,超越這個範圍的一切現象,不在我們的觀察之列。「假說」則不然,「假說」就是我們對這個世界所應具有的本質的一種猜想,我們想像這個世界應該這樣應該那樣,然後很正式地使用文字或模型,把這樣的想像精確的表達出來,以供後續的驗證。
事實上,在使用結構方程模型的學術研究裡,「猜想」,正是這一切努力的起點。任何一篇使用結構方程模型來進行統計分析的學術論文,必然要先耗費許多篇幅,來編織研究者對這個世界的想像。構造這些想像的信息來源,其中核心的部份,可能來自研究者主觀的一偏之見,所謂「吾道一以貫之」,這是研究者自己的「道」,是他自己的天賦本性、過去的經歷、所接受的知識和訓練,所造成的對這個世界本然的看法,在驅使著研究者去選擇他想要觀察的視角、想分析的變量、和所願意接納的理論,然後,在這些主觀願望的約束之下,開始閱讀和吸收大量的前人的知識貢獻,也就是學術文獻,而這構成了第二種最主要的信息來源,然後才形成這裡所謂的「假說」,或者「猜想」,通過正式的、規範的、嚴謹的文字或模型的形式,被精密準確地表達出來。
寫書計畫之二
說自己太貪玩,確實就是十分貪玩,月初的時候,想要寫小說,後來輾轉難眠後,改變心意,想寫本關於如何構造戰略分析工具的書,那本書,也已經寫了一萬多字了,但是因為工作繁忙,加上父母親遠來相陪,因此寫寫停停,沒很大進展。這回候鳥北飛出來上課,在飛機上,又有了新的想法,想要用最快的速度,寫一本關於結構方程模型的小書。
因為十月份計畫回交大上課,鑑於之前回去上課時,總是從清晨上到晚上,連續一兩個星期,這樣實在太累人了,不僅讓過勞死的概率大幅提昇,而且還沒時間和自己指導的學生好好坐下來討論研究中所面臨的問題,所以這回特別和院裡的領導商量,只開開講座課就好了,幾位領導對我十分體恤,答應了我的請求。決定在十月十五日到十九日(週一至週五),每天上午九點到十二點,在交大開一個講座課,和學生商量的結果,那麼就好好上一回結構方程模型吧,總共十五個學時,應該很足夠了。
為了備課,同時也為了讓上課的學生能夠比教清晰地貼近這個方法論的應用,所以決定為這門課撰寫講義,定下這個題目後,前幾天一上飛機,就開始著手下筆,在筆記型電腦上寫著寫著,想想,乾脆還是把這講義弄成一本小書吧,先用講義的形式讓上課同學參考,然後再來編印成書。感覺這個想法挺好,因為國內目前這種書太少了,也許這本書可以為國內的科研環境略盡棉薄之力。已經寫到第二章了,因為時間實在很零碎,所以進度還是緩慢,不過相信可以在十月份上課前完工,我會慢慢地將這些內容貼上博客,但是只是初稿,所以肯定會有不少需要補充和完善的地方,這些有待改進的缺點,就看看時間是否允許,慢慢來吧。
書名:讓你真正學會結構方程模型
一、引言
經過上世紀八十年代的發展與成熟,結構方程模型在多變量分析裡的地位與日俱增,加以上世紀九十年代個人電腦運算能力的快速飛躍進步,可以用來進行結構方程模型估計運算的軟件,也如雨後春筍般,逐一湧現。這些技術進步,事實上對商學與管理學領域的學術研究影響深遠,不僅釋放了科研工作者的學術生產力,更重要的,是解放了科研工作者的想像力,有了可以處理結構方程模型的電腦軟件,從事學術研究的科研工作者,從此可以自由自在地使用相當嚴謹的方法,來驗證自己對這個世界的猜想。真可以這麼說,我們的眼界有多高遠,我們所能看見的世界就有多遼闊;我們的心靈有多細膩,我們所能經驗的世界就有多幽隱,對科研工作者來說,有了這些工具,我們真的進入了一個美麗的新世界。
本人在2004年返國服務,目前同時在國內和國外高校裡擔任一些工作,親自見證了結構方程模型在國內的快速發展與普及。在每年經手評審的碩博士學位論文、教授升等評級論文、以及國家自然科學基金申請項目、學術期刊投稿論文等等大量的科研成果中,有許多研究,都使用了結構方程模型這樣的分析工具,只是很可惜的,可能由於研究者缺乏適當的書籍可供參考,或是缺乏正規的訓練學習,其中許多科研作品,在方法論的嚴謹度上、工具應用的正確性上、甚至統計結果的判讀理解上,都存在一些問題,以致破壞了統計分析的可信度,降低了科研成果的價值,這種科研資源的浪費,值得我們重視。
在國內的教學經驗裡,我所指導的研究生也呼應了類似的需求。這些來自科研新秀的需求,大抵上可以包含三大部份:一是不明白結構方程模型的用途,主要是用來驗證一些既定的猜想,而比較不是為了對未知的探索;二是不明白結構方程模型的應用過程,需要進行許多信度與效度的檢驗工作,不明白這些檢驗工作的先後次第與方法,以及為甚麼需要進行這些看似與結構方程無關的檢驗工作;三是不明白如何將結構方程模型和實證研究有機的結合起來,不明白如何在研究之初,還在構造假說猜想的階段,就開始注意到將來運用結構方程模型時必須考慮到的問題。
事實上,國內學子們所面臨的最顯著的問題,可能就是上述的第三點。由於規範的科研方法大規模地自西方引進中國,不過就才數年時間,對於大多數立志想在將來從事科研工作的研究生而言,實在不容易在這樣環境的侷限下全面地吸收到這些方法論的知識,對於如何撰寫一篇符合現代學術規範的論文,也往往缺乏正確的指導,比較習慣一憑主觀印象,隨手論證,行文中缺乏強固有力的證據,來支持他們那些在本質上其實存在亮點的創造力,而最後,這些原本很有希望成為真正學術骨幹的優秀學子,往往只能淪落為一個文筆燦然,但是卻只會天馬行空、布局想像的筆桿子學者,這實在是非常可惜的事。
在這個即將重現漢唐盛世偉大時代的開端,中國需要科研人才,而好的人才,需要正確的方法論指導,這就是我撰寫這本小書的目的。在英語的世界裡,介紹結構方程模型的書籍可說是汗牛充棟,但是使用中文撰寫的相關書籍,相對就少了許多。而這些使用中文撰寫的關於結構方程的書籍,就本人的淺見,或都或少存在著一些運用上的問題。這些書籍大抵上可分成兩大類,一是以統計學專著面世,文字間充滿各種公式的推導與證明,這樣深入去探索結構方程模型的本質,固然可以幫助學子們對這方法的來龍去脈獲得一個深入的認識,但是要能將這方法直接應用在學術研究上,實在仍有距離,何況對於那些數學功底較弱的讀者,這些數學推導的內容其實有如天書,在現實科研過程裡完全難以運用。第二類關於結構方程模型的中文書籍則是以介紹軟件應用為主,一步一步地指導學子,如何運用特定的統計軟件,來分析書中所舉例的結構方程模型。對於初學者而言,這樣的書籍還是很重要的,但是,這樣的軟件應用手冊,就真正從事科研而言,所提供的信息太過零碎,而且不完整。科研工作,並不是只在操作軟件而已。
這本小書採用了一個與上述書籍完全不同的視角,來考慮關於如何介紹結構方程模型的問題。我假定讀者在閱讀這本書的時候,手上已經有了一件科研項目有待完成,在腦海裡面,也已經有了一篇學術論文的基本構思,所以閱讀本書的目的,就是在思考,究竟自己這個研究的本質,適不適用結構方程模型這方法?如果適合,那麼在自己的研究中究竟該如何來應用這個方法?而在應用了這個方法之後,對於所獲得的統計分析結果,應該通過那寫驗證過程,通過什麼樣的形式,才能合宜地、規範地論證,將研究結果正確地表達出來?所以這本小書的定位,既不是高深的統計學專著,也不是一本軟件使用手冊,而是一本探討研究方法的書籍,專注在指導科研新手,如何通過結構方程模型的應用,來完成一篇學術論文。
整本小書的內容安排,首先介紹了西方學術研究方法論的基本思路,以及在這樣的思路指導下,一篇規範的、符合所謂「洋八股」的學術論文,應該具備的構成要素。緊接著,介紹結構方程模型的基本想法,以及這些想法,和上述方法論思路的關係,同時引用國外頂級學術期刊中,使用結構方程模型作為主要分析工具的文獻,作為例證,來說明結構方程模型是如何被運用在學術研究中的。在這些參考文獻的例證下,這本小書分解出應用結構方程模型的幾個主要分析模塊,分別一一加以探討。最後,本書利用AMOS軟件,對本人的一個科研項目,由構思、調查、到統計分析,全程的介紹了整個研究過程,讓讀者對於結構方程模型的真實應用,獲得一個最直接的理解。









