那一刻,我升起風馬,不為祈福,只為守候你的到來。 那一天,閉目在經殿香霧中,驀然聽見,你頌經中的真言。 那一月,我搖動所有的轉經筒,不為超度,只為觸摸你的指尖。 那一年,磕長頭匍匐在山路,不為覲見,只為貼著你的溫暖。 那一世,轉山轉水轉佛塔啊,不為修來生,只為途中與你相見。 《倉央嘉措》

2007年10月7日 星期日

什麽才是規範的「洋八股」(4)

(三) 確定衡量題項的效度 (validity)

當我們爲上述這些「構念」或「變量」進行操作型定義時,幷不是自以爲是地信口開河、依照我們的主觀偏好任意設計衡量題項,就能够有效地描述我們想要觀察的現象,或是解釋我們想要檢查的概念。古語有雲:「三個臭皮匠,勝過一個諸葛亮」,連諸葛亮這樣的天才高手都還需要旁徵博引,廣泛接納群衆的集體智慧,更何况像你我這樣的平凡人呢。所以用來描述「構念」或「變量」的衡量題項,幷不是一個研究者可以簡單地單憑自己想像,就可以創造出來的。換句話說,單純通過自己想像所創造出來的衡量題項,可能以偏概全,可能失之毫厘謬以千里,換句話說,這些閉門造車所得來的題項可能是無效的,我們必須通過一些手段,來保證這些題項的效度,這樣我們的研究才能客觀地反應事實。

「效度」就是衡量題項能够有效反映、或是描繪、一個概念的程度。檢驗題項效度所涵蓋的範圍,大抵上包含了「內容效度 (content validity)」、「建構效度 (construct validity)」、「內部效度 (internal validity)」、與「外部效度 (external validity)」四大類,我們在此僅僅略作說明。「內容效度」又稱爲「表面效度 (face validity)」,主要是在檢查我們所想要使用的衡量題項,究竟與我們的世俗概念是否一致?是否有所偏狹?所涵蓋的範圍是否過窄?抑或太過?文字表達的方式是否清晰易懂?是否正確傳達了語意概念?「建構效度」主要想要檢查的是我們用來直接觀察這個世界所使用的衡量題項,與我們心中對這個世界的所作的種種概念性的猜想,兩者之間究竟是一致還是不一致。這其中還包含了「聚斂效度 (convergent validity)」與「鑒別效度 (discriminant validity)」兩種狀况,詳情留待後續章節中再仔細討論。

「內部效度」所要檢查的是我們所使用的研究設計是否隱含瑕疵,以致于最後所觀察到的因變量所顯現的現象,不完全是來自于自變量的影響。這個效度檢查和衡量題項的關係較小,主要的著眼點在于研究設計。例如學過管理學的人可能聽過「霍桑效應 (Hawthorne effect)」這個名詞,在那個研究設計裏就因爲忽略了觀測者對受測者所可能造成的心理效應,因而無法正確觀察「工廠照明」與「生産力」之間的因果關係。在這個情形下,我們就說,這個研究設計缺乏「內部效度」。最後,「外部效度」指的是相同的衡量題項,是否可以放諸四海而皆准的問題。大多數與管理學領域相關的研究,經常采用其他國家或其他文化、次文化裏的研究中,所曾使用過的衡量題項,加以翻譯後直接引用進自己的研究裏來。如果我們觀察到這兩個文化實在是「非我族類,其心必异」,兩地的樣本差异實在太大,那麽這樣的題項引用,就是缺乏「外部效度」。

我們一般通過兩種手段來提升衡量題項的「內容效度」與「建構效度」。其中最簡便的方法,就是取材前人優秀論文裏所使用過的題項,略加變通調整後,直接應用在我們的研究上。要能滿足這裏所謂優秀論文的稱號,當然不能是濫竽充數的論文,當然存在一些關鍵的要求,來保證其中的題項是可用的,否則以瞎引盲,不過是讓我們平白瞎忙一場。最起碼,我們期望這前人論文必須滿足:(1) 已經公開在學術同行認可的頂級權威期刊裏發表。當然,最好是學術同行認可的國際頂級期刊。(2) 清晰交待了所使用題項的發展過程、來龍去脉、以及其中所隱含的維度或結構,(3) 對題項進行了效度與信度的檢驗,而且通過統計檢定,證實這些題項不論在效度還是信度上都是可接受的,(4) 清晰說明了用來檢驗效度與信度的樣本對象,以及進行檢驗的過程是合理的,同時與本研究的性質接近。

當然對于一些特別嶄新的概念,可能找不到現成的題項可用,所以我們還是不得不從無到有,一切重頭做起,來創造出我們進行研究所需要的衡量題項。比較正規的作法是,先進行「定性研究 (qualitative research)」,然後通過「內容分析 (content analysis)」方法,將所搜集到的「定性資料 (qualitative data)」轉換成有意義的信息,甚至可以從這些材料中歸納整理出可供使用的題項。這些題項,如果能够通過效度與信度的嚴苛檢驗,一樣可以拿來用在我們的研究裏。本書將在後面的章節裏介紹一些與結構方程模型有關的效度檢驗方法,至于效度與信度檢驗相關議題的深入介紹,有興趣的讀者請自行參閱與「研究方法 (research method)」相關的書籍。

這裏要補充說明的是,即使是直接引用自國外頂級期刊文獻裏的衡量題項,也一樣必須重新經歷過種種統計上的,效度與信度的嚴苛檢驗之後,才能安心地在我們的新研究裏重複使用。爲了防止衡量題項在文字翻譯過程中「橘逾淮而爲枳」,也爲了避免「外部效度」的問題,我們必須通過客觀的統計工具,來確保衡量題項的效度。這種通過統計檢定可以客觀加以觀察的效度,起碼還需要先滿足「信度 (reliability)」檢驗,「信度」是「效度」的必要條件之一。

(四) 確定衡量題項的信度 (reliability)

所謂的「信度」,就是「衡量題項」和我們想像中那個「真實的潜在概念」之間的相關程度。使用口語加以表白,也就是我們的「衡量題項」,所能正確地、可信地、穩定地傳達、或是替代,我們心中那個「潜在概念」的程度。但是由于現實世界裏幷不存在所謂的「真實的潜在概念」這麽一回事,因爲既然是個潜在概念,就不可能在真實世界裏被觀察到,同時既然是潜在概念,由于人心不同,每個人心中對于文字上相同的概念的真實認識,很可能其實也差异頗大,但是研究者却必須通過文字這種工具,通過由文字所形成的衡量題項,來測量人類心中的潜在概念,所以十分情不得已的,這種題項的「信度」,只能被間接地估計出來,而不可能被真實掌握。

如前所述,具有「效度」的衡量題項,必須先滿足「信度」的要求,但是具有「信度」的衡量題項,不一定具備「效度」的品質。我們通常通過四個視角來估計衡量題項的信度:(1) 內部一致性 (internal consistency),也就是估計衡量題項之間的內部相關度高低,通常通過Cronbach's alpha係數來衡量,(2) 折半信度 (split-half reliability),估計兩組被視爲等同的題項間的相關度高低,通常使用Spearman-Brown相關係數來衡量,(3) 再測信度 (test-retest reliability),估計同一組衡量題項,在不同時間點上的穩定度,也通常是使用Spearman-Brown相關係數來衡量,(4) 測評員間信賴係數 (inter-rater reliability),估計不同測評員之間答案的一致性程度,通常用來檢查定性研究中內容分析結果的可信度,而較少用來估計衡量題項的信度,所使用的檢查工具通常是Kappa係數。

我們留待後續章節再來深入介紹上述三種與衡量題項直接相關的信度檢查的具體作法。

(五) 抽樣框架 (sampling frame) 與田野調查 (fieldwork)

設計好衡量題項,同時决定了題項的衡量方式之後,或者說,設計好了研究工具 (research instrument) 之後,緊接著的就是大規模的田野調查了。田野調查的規模,當然與研究者本身所擁有的資源量有關,這些資源的類型,包括金錢資源、時間資源、甚至研究人員本身的精力、能力、和所曾接受過的訓練等等。一般的研究人員不具備國家的資源優勢,比較不可能實施以全體母體爲對象的普查,因此抽樣就成爲不得已中的必要。抽樣就是由母體中抽取一部分樣本來進行調查,然後將調查結果,推論成整體母體的共同現象或行爲。爲了讓少數樣本能忠實反映整體母體的現象,我們首先當然必須設法來保證這些樣本對于整體母體的代表性。

規範的洋八股,主張「隨機抽樣 (random sampling)」,提出三個條件來保證樣本能够滿足這個「代表性」的要求:(1) 獨立性,(2) 互斥性,與 (3) 被選中的機會均等。「互斥性」的意義比較容易明白,簡單的說,就是相同樣本不會被重複抽取,每一個樣本,最多只會被抽中一次。「被選中的機會均等」也容易瞭解,使用統計學的語言來說明,就是個別樣本被抽中的機率,服從均等分布。「獨立性」是指樣本之所以被抽中,和其他被抽中樣本之間不存在關聯,換句話說,每個被抽中樣本的抽取過程都是獨立的,彼此之間不相互干擾。例如,先抽取A樣本,再敦請A樣本介紹B樣本作爲下一個觀察對象,這就違反了「獨立性」的要求,因此不屬于隨機抽樣,所獲得的樣本,對全體母體不具代表性。

違背上述三個條件中任一條件的抽樣設計,都不屬于隨機抽樣,所獲得的樣本,對全體母體不具代表性。這樣的抽樣設計,我們將之稱爲「非隨機抽樣」,或是「便利抽樣」。當然我們幷不絕對排斥「非隨機抽樣」的設計,事實上,許多時候,由于受限于種種條件約束,例如母體很難接近、母體行踪出沒很難掌握、母體存在十分明顯的「無反應偏差 (non-respondent bias)」等等原因,我們不得不采用「非隨機抽樣」的方式來取得樣本,不僅僅是因爲可行性的問題,在這樣的時候,通過「非隨機抽樣」所取得的樣本,可能比隨機抽樣更具代表性。研究者必須通達事理,善巧機變,提出適當的抽樣框架來處理抽樣的問題。原則上,研究者要盡可能掌握三個隨機抽樣的基本條件,來滿足樣本對母體的代表性。具體詳情請參閱與研究方法相關的著作,本書對此不進行更深入的探討。

2 則留言:

匿名 提到...

一些英文專有名詞的提醒:
「測評員間信賴係數」的正確英文表示是"interjudge reliability";
而「無反應偏差」的正確英文表示
是"non-response bias"

另外,「內容效度」和「表面效度 (face validity)」,兩者並不等同. 雖然它們皆屬於content-related validity.

還有,建構效度 (construct validity)」除了包含了「聚斂效度 (convergent validity)」與「鑒別效度 (discriminant validity)」兩種狀况以外,還有Nomological validity.

有關針對一些特別嶄新的概念, 需要建構新的衡量尺度的文章舉例. 建議可參考近期2005年刊登於Journal of marketing management的一篇文章(Vol.21, No.7-8, pp.779-808), 標題:「Developing a Value-based Measure of Market Orientation in an Interactive Service Relationship」.

愚園主人 提到...

謝謝你,我會考慮你的意見。但是事實上不同的學者對於這些信效度專有名詞的用法,以及對這些分類的看法也有出入,我還是採用我自己習慣的系統。