WikiTeamWork
註冊
Advertisement

壹、解釋測驗偏差的意義與來源[]

一、意義與來源:[]

測驗的公平性一直是教育界、心理測驗學界、與社會大眾關心的話題。「測驗公平」(fairness of test )在不同情境,有不同的意涵,總的來說,在測驗設計、發展、實施、計分和結果使用等環節,對所有的應試者一視同仁、公平對待,不論應試者個人所屬的群體為何,使測驗結果只反映出測驗擬測量的構念(construct),不受與測驗構念無關(construct-irrelevant)因素之影響,「構念」這個術語,簡單的說,就是測驗擬測量的標的能力,因此,測驗擬測量的構念為何,是判斷試題是否對某一(些)考生群體有不公平之嫌的重要依據。

一般而言,目前所使用的各種測驗,不論是教師自編成就評量或是標準化成就測驗,都假設該測驗對所有應考的考生而言是公平的。因此,能力或潛在特質相同的考生,他們在同一份測驗上的得分機率也就應該相同或相近。

然而,事實上有些測驗對某些族群團體而言,比較具有得高分的優勢,而對其他族群團體而言,則較為不利。這種現象,不禁讓人懷疑該測驗的基本假設----公平性。因此,測驗公平性的話題才會逐漸引起學術界的重視和研究。於是,不具有公平性的測驗便被稱作「偏差的測驗」(biased test)。「測驗偏差」(test bias)便正式成為測驗學門的一個嚴肅課題,值得深入研究和探討。

「偏差」(bias)一詞在測驗中的說法相當分歧,至今仍尚未有統一的定義。但是,我們可以簡單的認為,如果能力相同但來自不同群體的個人,在某份測驗上答對的機率不一樣,則這份測驗便可以說是偏差的測驗。「測驗偏差」在心理與教育測驗雖是一個偶發的現象,但卻是一個令測驗使用者頭痛的問題。

二、測驗偏差的種類[]

(一)文化、種族、和語言的測驗偏差

如果學生來自少數族群(minority)(如:美國的黑人、亞裔民族、墨裔移民;我國的原住民、殘障人士、或偏遠離島居民等)的團體,某些測驗對他們而言較為不利,他們的測驗分數可能偏低。

(二)社經地位的測驗偏差

如果學生來自較為貧窮、教育水平不高、社經地位較低的家庭,則某些測驗(例如討論學習樂器、旅遊)對他們而言較為不利,他們的測驗分數也可能較為低。

(三)性別的測驗偏差

不論是男性或女性,他們在某些測驗上都較為吃虧(例如女生對無軍事、武器、汽車修護等文章的理解,男生對於婦幼保健、自我成長、美容養生等文章的理解),所得的測驗分數可能會偏低。

三、實例[]

(一)民國九十二年國家考試交通事業港務人員的升資考試的國文科考題
  • 題目:閱讀測驗題組-以李臨秋〈補破網〉歌詞為文本。

造成試題偏差原因是該大題既然是測量國文能力,但卻加入閩南語的因素,對不熟悉閩南語者的考生來說,幾乎無從作答,有就是說,測量的構念無關因素對測驗分數產生偏差,而這無關因素卻又是影響考生答題的關鍵,因此,對某些非閩南係族群的考生造成不公平之處。若考試的測驗情境改為閩南語時,要測驗的主要能力為閩南語能力,就不會產生以上的不公平現象。

(二)九十六年地方基層四級特考中

在九十六年地方基層四級特考中本國歷史和地理中列為共同科目的本國歷史及地理各出四十題,但本國歷史中台灣史就佔了三十七題;本國地理部分四十題全是台灣地理。這是因為考試的新趨勢是考題的本土多元化和鄉土化,但是這樣的命題方式會對於不同的族群的考生會產生不利的現象,因為外省人的考生對於本國的地理和歷史相對來說會比較不熟悉,分數一定會受到干擾。

原來的測驗本來是要測量地理和歷史的能力,卻因族群的不同而使測驗產生偏差,所以在考慮命題的本土多元化和鄉土化之時,也應考量到族群的公平性原則。

(三)民國九十五年大學學科能力測驗國文科考題

民國九十五年大學學科能力測驗國文科考題出現了一道題目,『他一定(3Q)得(Orz)』,意思是說『他一定(感謝)得(五體投地)』。

造成試題偏差原因是因為這道題目是以火星文的方式出題,火星文是流行於臺灣年輕族群中,一種刻意為之的次文化用語,融合了各種語言、符號。若是住在偏遠地區或是不常上網的考生可能對火星文會感到陌生,所以以「火星文」當作考題可能會對台灣弱勢團體生不利現象。

(四)民國九十二年度大學入學學科能力測驗

民國九十二年度的大學入學考試中出現的某一題的題目和南一版的教科書上的題目一模一樣,試題偏差原因可能是因為現在的教科書採行一綱多本的制度。因此,在大考時應避免出的題目和某個版本有相同的現象,以避免對於未使用該版本的學生產生不公平的現象。

基於以上的考量,大考中心的工作委員會應致力於收集坊間所有大會考、模擬考、參考書和歷屆考古題、範例題目,並進行逐一比對的功夫,以避免有題目重複的現象。

(五)某年的學測題目

學測題目曾經出現過張菲、胡瓜、吳宗憲、鐵師玉玲瓏等藝人的名字,並問這些人的對話有哪些是有諷刺的意味。這樣的出題方式會對於不常看電視或是家境較不寬裕,家中沒有電視的考生而言,產生了不公平的現象。

貳、偏差和誤差的比較【bias vs errors】[]

一、標準化測驗實施原則[]

  1. 一定的編製程序:縮小代表性不足和無關的變異量(bias)。
  2. 一定的施測程序:控制誤差變異量(errors)

二、偏差和誤差的比較[]

以下,我們用收聽廣播的例子來說明並比較測驗上的偏差和誤差。例如:這裡有一份測驗主要是要測量數學的能力,但該份測驗的出題方式卻是以英文來出題,這便會產生測驗上的不公平現象,因為數學能力同樣相當的兩個人,會因為英文閱讀能力高低的不同而影響數學的成績。這時就可以把主要要測量的變量,也就是數學當作是聽廣播時你真正想收聽的電台;把無關的變量,也就是英文,當作是經過邊界時可能會同時收聽到兩家電台聲音時,並不是主要想要收聽的電台的聲音,這就是測驗偏差。而收聽電台時所聽到的雜音就可以被比喻成測驗時的測驗誤差,例如考生因身心狀況不同產生的測驗誤差。

參、如何檢查與證明偏差的存在-試題區分功能DIF[]

測驗在編製的過程、實施、和解釋時,都有可能造成偏差。這是由於在大多數的情況下,測驗編製者僅以多數族群(majority)的團體為考慮的對象,因此,在編題時有可能會偏向以多數族群特有的文化、生活經驗、語言、風俗、習慣、與特徵為預先設定的假想對象,因而忽略其他少數族群的特色,造成不利於其他少數族群的受試結果。

其次,有些測驗偏差是因抽樣過程產生的;例如:在修訂測驗的過程中,由於所抽樣的樣本不具有代表性,因而造成某些族群的能力或潛在特質之測量不利或不公平,間接使測驗產生偏差的推論和預測結果。

此外,有些不同族群對測驗的反應,原本就存在有差異現象。這種差異使得測驗中的每道試題對不同族群考生而言,都發揮不同的測量功能;而傳統上對診斷試題偏差的作法是:收集所關懷的少數族群(minority)在測驗試題上的表現好壞資料,以及多數族群(majority)的表現資料,再比較其差異,以作為判斷試題是否有偏差的實徵證據(empirical evidence)。

其實,表現有差異存在的實徵證據是結論說試題有偏差的必要條件,而非充分條件(指試題有偏差,測驗表現就會有差異存在;但測驗表現存有差異,卻並不一定表示試題有所偏差);也就是說,這種結論已超過資料所能推論的範圍。為了區別實徵證據與結論間的不同,學者們往往使用「不同的試題運作功能」(differential item functioning,簡寫成DIF)一詞來取代涵意不明確的「偏差」(bias)概念,以用來描述實徵證據背後所涵蓋的偏差涵意(Berk, 1982)。

因此,測驗結果所產生之差異便反映出試題本身具有不同的測量功能,這種現象即稱作「試題的差異作用」(differential item functioning,簡稱DIF),它是目前研究測驗偏差問題較常使用的術語。

即使是對「如何定義DIF才較適當?」也有很多爭辯存在。目前有個關於測驗公平性問題的看法認為:「在某個試題上,如果多數族群和少數族群的平均表現有所不同的話,該試題便顯示出具有DIF的現象。」其實,這種看法也有個缺失,那就是未考慮其他影響變項的可能性,如:原本這兩個族群的能力就有所不同,因此才導致他們在某個試題(或某份測驗)上表現不同(Lord, 1980)。

目前,比較被心理計量學者所接受的DIF的定義為:「來自不同族群,但能力相同的個人,如果在答對某個試題上的機率有所不同的話,則該試題便顯現出DIF的現象。」有了這項定義,試題反應理論(IRT)(註一)很自然的提供一個研究DIF的架構,因為試題特徵函數正可以說明答對某個試題的機率,是與受試者的潛在能力和試題的潛在特徵有某種關聯存在

因此,DIF的定義可以被寫成下列的操作型定義:「某個試題特徵函數如果對不同的族群而言都不相同的話,則該試題便顯現出DIF;反之,如果跨越不同族群的試題特徵函數都相同的話,則該試題便不具有DIF。」。

肆、測驗偏差和效度的關係[]

至於,測驗偏差會造成什麼樣的影響?Berk(1982)認為測驗偏差其實是效度的問題,也就是說,它的最大影響是預測效度的問題。我們可以從測驗的效標關聯效度和下列圖示得知此問題。

當我們拿某個測驗給兩個不同族群的受試者施測,如果該測驗是沒有偏差的,則這兩個族群的個別測驗分數對效標所做的迴歸分析,其預測線的斜率應該會是一致的,頂多其預測平均數和截距有所不同而已(如圖1所示),而預測平均數和截距可以經由直線轉換來等化兩個族群受試者的測驗得分。

但是,當該測驗是有偏差時,則這兩條迴歸線的斜率並不會一致,且其預測平均數和截距也不會相同;此時,任由什麼方式,也無法進行等化這兩個不同族群受試者的測驗得分。所以,預測效標的結果就會有所不同,且無法進行有意義的比較。因此,由圖中所示可見,測驗偏差影響最大的是預測效度,它會使根據偏差測驗所作成的任何決定,偏向對某一族群有利,而對另一族群不利。

伍、如何預防和控制測驗的偏差 (AEL092114許慧燕)[]

我們應該如何避免測驗偏差呢?基本上,如果測驗偏差的起因是來自受試族群本身的生物性或遺傳性劣勢因素所造成的話,則該問題是無法克服或解決的;但是,如果問題是來自社會及人為因素所造成的話,則該問題是可以克服和解決的。以下所述,即是一些可以運用的策略(Kaplan & Saccuzzo,1993)。

一、針對不同族群使用不同測驗
如同下圖所示,如果我們決定以中間的虛線作為兩個不同族群的預測線的話,則可能造成低估族群B,而高估族群A的現象;結果對任何一個族群而言,都是不公平,都會造成偏差。
因此,如果我們能夠對不同族群使用不同的測驗來施測,則測量結果才能進行有意義、客觀的比較,所據以作成的任何決定才能符合公平公正的要求;當然,這些針對不同族群所使用的不同測驗,必須是複本測驗才行。
避免對任何群體(如:種族、性別、族群、身心失能、老年人、宗教、地區、政黨……等等)出現刻板印象或歧視的字眼、詞語、語言、符號、插圖或文本,除非試題的目的在要求考生辨認出刻板印象或歧視的內容。
圖1:

Pic

二、發展不同的外在效標
效標關聯效度是指測驗得分與外在效標之間的相關係數。但是,用來評量學生潛能的測驗,我們又拿什麼外在效標來驗證他呢?大多數的測驗僅表示,他們在「預測學生在某些標準化測驗上可能表現得多好」方面,是一種有效的預測變項而已;換句話說,大多數的標準化測驗都是根據其他標準化測驗來建立和確定效標關聯效度的,而我們所使用的測驗又可能是其中的一種外在效標
例如:智力測驗可以用來測驗學生在某種標準化成就測驗上的表現好壞,但是,這個標準化成就測驗所測量的只是學習成就,卻不是先天的能力或智力;因此,少數族群與多數族群學生在此測驗分數上的差距,只是顯示出他們有無機會去學習,而不是有無能力去學習的事實而已。
所以,為了公平、客觀起見,我們宜針對不同族群發展或建立不同的外在效標。例如,智力測驗則可能不適合用來預測其標準化成就測驗分數,此時,以教師的評分作為預測學生學習成就的外在效標,可能會比較適合。
三、改進篩選的管道
由於受教育的機會不同、次文化的不同、與族群先天的遺傳或後天的環境原本就不同等因素,不同族群間存在有族群差異,恐怕是不爭的事實。例如:少數族群可能擅長於語文方面的能力,而多數族群可能擅長於數量方面的能力。如果我們能夠明瞭族群間差異的真正原因或因素,則在預測少數族群成功的預測變項上,將有相當大的改進和幫助空間存在。
所以,在甄選人員入學、就業、或給與獎學金等選擇決策上,宜針對不同族群間的差異,挑選最有利該族群發展的因素或外在效標作為選擇的參考依據(如:少數族群加重語文部分的計分,而多數族群加重數量部分的計分等),如此才能兼顧公平與客觀兩項標準。另外,要注意測驗材料所使用的語言、內容或情境是否是某一(些)群體鮮少接觸和難以了解的
四、改變社會環境
過去,諸如學術性向測驗(Scholastic Aptitude Test,簡稱SAT)、研究生入學測驗(Graduate Record Examination,簡稱 GRE)、法學院入學測驗(Law School Admission test,簡稱LSAT)、甚至是智力測驗(即IQ測驗)等,通常被認為是性向測驗,亦即他所測量到的潛在特質是與生俱來的,即使受試者被放置在不同環境下教養長大,也不太可能會改變此能力。
但是,近代愈來愈多測驗專家卻開始相信,這些測驗所測量到的潛在特質,其實不是性向,而是成就;也就是說,若給予學生適當教養和訓練,則測驗分數會產生改變的。例如,語文與數量兩種能力,即是透過經驗而習得的;即使是學生的測驗分數偏低,也並不表示他的學習能力已經到了無可救藥的地步,這些問題是可以改善的,只要給予適當的教養環境即可。
因此,若要改善少數族群的測驗公平性,不妨從改善他們所處的社會環境著手,給予適當、妥善的教育環境,以激發其學習潛能,增加受施測的經驗,才是給善其社會環境的重要方法。否則,光是責難測驗成績的不公平,或給與特殊加分處遇,都是於事無補的。
Advertisement