目前國內(nèi)外對超常兒童教育的評估主要集中在能力鑒定和教育項目評估兩個方面,本文主要介紹超常兒童的選拔標準。無論在現(xiàn)實實踐中,還是研究者對超常兒童的選拔標準建構(gòu)的理論中,使用多重標準成為研究專家的共識。本文將通過能力評估、成就評估、計算機自適應(yīng)評估、績效評估、動態(tài)評估五個方面來論述超常兒童選拔標準。
一、能力評估
能力測試是在超常兒童評估中使用時間最長的測試之一,通常是衡量個人的智力能力或?qū)W習(xí)潛力的標準化工具。各種各樣的現(xiàn)代能力評估在個體焦點、目標年齡組、標準化嚴格程度、測量媒介、管理要求以及與CHC認知能力層次模型的理論聯(lián)系上有所不同。主要的能力評估包括傳統(tǒng)能力測試、群體能力測試、非語言能力測試和簡短能力測試。
1 傳統(tǒng)能力測試
傳統(tǒng)的能力測試是由注冊心理學(xué)家和其他訓(xùn)練有素的專業(yè)人員對個別考生進行的能力測試,是許多學(xué)校系統(tǒng)中典型評估程序的基本組成部分。這些測試相對于其他評估工具的優(yōu)勢在于管理的個性化。在測試中不僅會測評考生分數(shù),而且在測試管理期間內(nèi)還可以觀測考生行為。因此,可以對考生的注意力水平、情緒獨立性和解決問題的策略等做出判斷。在傳統(tǒng)能力測試中,斯坦福比奈智力量表(Stanford Binet Intelligence Scale)的使用歷史最長。斯坦福比奈智力量表是基于個體的大量規(guī)范樣本,根據(jù)五個認知因素衡量個體一生中的認知表現(xiàn),這些認知因素大致基于CHC層次模型:知識、定量推理、視覺空間加工、工作記憶和流體推理,可能會產(chǎn)生多個分數(shù),包括綜合總分,以及五個認知成分中的每一個語言和非語言分數(shù)。韋氏系列測試,尤其是韋氏兒童智力量表(WISC),被認為是識別超常兒童最常用的能力測試之一。與其他傳統(tǒng)的能力測試不同,韋氏智力測試系列由三個不同的測試組成,分別針對不同的年齡組進行測試:韋氏學(xué)前和初級智力量表(WPPSI;2:7 - 7:7歲)、WISC(6:00 - 16:11歲)和韋氏成人智力量表(WAIS;16:00-90:11歲)。這些量表已被翻譯成幾種語言,而它們的使用有效性已在多個國家得以證實。
2 群體能力測試
群體能力測試是對大量學(xué)生同時進行的能力測試,通常由非注冊心理學(xué)家的考試管理人員進行。與傳統(tǒng)的能力測試相比,這些測試工具通常被認為是一種更實用、更經(jīng)濟的選擇,因為在很短的時間內(nèi)可以進行大量的測試,而且考試管理者和考生之間需要的互動較少。隨著越來越多的證據(jù)表明這些工具的心理測量的嚴密性,使用群體能力測試可能代表了認知評估方式的重大轉(zhuǎn)變,在教室環(huán)境中識別天才學(xué)生的認知評估。美國最常用的是認知能力測驗(Cognitive Abilities Test, Form 7,CogAT7),這個考試是由愛荷華大學(xué)教育系教授 David F. Lohman和斯坦福-比奈智力量表的合作者Elizabeth P. Hagen共同創(chuàng)立的。通過多項選擇來對K到12年級的孩子進行能力評估,通常會和愛荷華基本技能測試(Iowa Tests of Basic Skills)一起使用,綜合評價學(xué)生能力。這個考試一共有三個部分,語言(verbal),數(shù)學(xué)(Quantitative),和非語言(Non-verbal)測試。我國也編制了《鑒別超常兒童認知能力測驗》,已進行了兩版修訂。
3 非語言能力測試
非語言能力測試是以視覺刺激的形式呈現(xiàn)的項目,如具體的物體、直線畫或空間可視化,要求非語言反應(yīng)代表從考生對這些刺激的推論、演繹或外推等。一些常用的非語言能力測試包括瑞文推理測驗(RPM)、韋氏非語言能力量表、通用非語言智力測試(UNIT)、 Naglieri非語言能力測試、TONI非語言智力測試、和認知能力測試的非語言部分等。PRPM由英國心理學(xué)家瑞文(J. C. Raven)于1938年創(chuàng)制,在世界各國沿用至今,用以測驗一個人的觀察力及清晰思維的能力。它是一種純粹的非文字智力測驗,所以廣泛應(yīng)用于無國界的智力/推理能力測試,屬于漸近性矩陣圖,整個測驗一共有60張圖組成,由5個單元的漸進矩陣構(gòu)圖組成,每個單元在智慧活動的要求上各不相同,總的來說,矩陣的結(jié)構(gòu)越來越復(fù)雜,從一個層次到多個層次的演變,要求的思維操作也是從直接觀察到間接抽象推理的漸進過程。通用非語言智力測驗一種智力和認知能力的一般測量方法。與傳統(tǒng)的智力測試不同,UNIT不要求考生具備語言接受能力或表達能力。標準測量大約需要30分鐘進行管理,由四個子測試組成:符號記憶、立方體設(shè)計、空間記憶和類比推理。與韋氏量表相似,單元子測試所用的度量標準是熟悉的量表得分。
4 簡短能力測試
簡短能力測試是指傳統(tǒng)的全面能力測試的短版本,旨在提供對考生認知功能水平的評估,減少管理和時間投入。通常簡短能力測試試圖通過一些子測試來捕捉天賦的概念化。一些常用的縮寫能力測試包括簡短智力能力測試,該測試使用了伍德考克·約翰遜認知能力測試(Woodcock–Johnson Tests)子測試,以及考夫曼簡短智力測試(KBIT)等。盡管縮略能力測試方便高效,但人們似乎對其使用存在一些擔憂,包括使用縮略和原始工具獲得的分數(shù)往往存在很大差異,這類測試可能傾向于在非常狹窄的天賦定義和有限的效度和信度證據(jù)下確定哪些學(xué)生是天才。因此,簡短的能力測試可能需要謹慎使用,特別是在需要準確估計個人能力的高風(fēng)險測試情況下
二、成就評估
成就測試旨在衡量個人對某一內(nèi)容領(lǐng)域的了解程度,而不是他們的一般能力或潛力。關(guān)于大多數(shù)年級水平成績測試的普遍看法是,它們可能不適合用于天才學(xué)生或超常兒童的評估,因為它們并非專門針對此類學(xué)生設(shè)計的測評工具,可能不能完全捕捉這些學(xué)生的能力,但是天才教育學(xué)者們認為使用成就測試,如水平以上測試,或標準參考測試,在一些情況下也可以反映出其能力水平。
1 水平以上測試
這類測試多為高年級或年齡較大的學(xué)生設(shè)計,也包括對有天賦的學(xué)生進行成績測試,因此在適用超常兒童上存在缺陷,許多學(xué)者認為,在水平以上的測試中存在的高上限,與許多其他工具相比,它們在評估天才兒童時并不友好和精確,因為這類測試與有天賦的學(xué)生的知識、技能和能力相適應(yīng),而不是與他們實際年齡相適應(yīng)。在人才鑒別中,水平以上測試是一種特別受歡迎的做法,北美一些常用的高水平考試工具包括SAT,ACT和EXPLORE。作為更高水平的考試,SAT和ACT是針對7 - 9年級的天才學(xué)生的,而EXPLORE是針對4 - 6年級的天才學(xué)生的,但這些測試與我國高考相似,均不太適用與超常兒童的測試,但有一些在學(xué)術(shù)能力上天賦異稟的學(xué)生,也有可能在該類考試中表現(xiàn)出色。一些研究表明,一些適用于低齡兒童的水平以上測試,如愛荷華州基本技能測試(ITBS;最初是為K-8年級的學(xué)生設(shè)計的)和愛荷華教育發(fā)展測試(ITED;最初為9-12年級學(xué)生設(shè)計;警告,2014)作為以上水平的測試,在評估低齡天才上是有效的。
2 標準參照成就測試
標準參照成績測試是個人測試結(jié)果可以與某一特定人口群體同齡人的成績進行比較。一些常用的針對天才學(xué)生的標準參照成績測試包括斯坦福成績測試-10(Stanford-10),ITBS,伍德考克·約翰遜成績測試(WJ-IV-ACH),考夫曼教育成績測試第三版(KTEA-III),以及韋氏個人成績測試第三版(WIAT-3rd edition)等。但由于所有這些測試都是在美國開發(fā)和規(guī)范的,因此在其他國家使用時應(yīng)進行本土化。此外,許多學(xué)者建議,在可能的情況下,應(yīng)該依賴地方規(guī)范而不是國家規(guī)范。這是會減少偏見和提供更準確成績信息最有效的方法。
三、計算機自適應(yīng)評估
適應(yīng)性測試的設(shè)計目的是在測試過程中只展示與考生能力水平相適應(yīng)的項目,而不是一組固定的項目。這些工具通?;谝粋€項目反應(yīng)理論模型,即每個問題是根據(jù)被試對之前問題的回答選擇的。它們也通常被稱CAT,通常是在基于計算機的設(shè)置下管理的。這些測試的多個優(yōu)點包括:對傳統(tǒng)成就測試中常見的天花板和地板效應(yīng)的有效管理,減少測試管理員和考生的時間投入,在更大的測試調(diào)度靈活性,更大的測試安全度,而且通常情況下考生完成考試的動機水平更高。這些測試可用于評估能力或成就,即可針對個人進行,也可針對群體進行。CAT在教育領(lǐng)域得到了廣泛的研究和應(yīng)用。盡管這些方法在超常教育中還沒有得到足夠的重視,但諸多學(xué)者正在積極探索其在鑒別天才兒童和學(xué)生的運用。
四、表現(xiàn)評估
在基于表現(xiàn)的評估中,學(xué)生被要求按照規(guī)定的方式行事,或做出原創(chuàng)的產(chǎn)品或回應(yīng)。一些超常教育研究人員提倡使用基于表現(xiàn)的評估作為一種比能力測試、成就測試或評級量表更真實的天才評估方法。在基于表現(xiàn)的評估中需要完成的任務(wù)可能從寫一篇短篇小說或一個電腦程序,到創(chuàng)建一個政治策略或一個籌資計劃?;诒憩F(xiàn)的評估所產(chǎn)生的成績或產(chǎn)品通常是用評估標準來判斷。一般來說,天賦和智力行為的復(fù)雜概念化,比如好奇、專注、堅持、發(fā)現(xiàn)問題,與傳統(tǒng)上用于評估天才學(xué)生的工具相比,在基于表現(xiàn)的評估中可能更容易、更精確地評估真實任務(wù)的完成。因此,使用基于表現(xiàn)的評估可能會發(fā)現(xiàn)更多的超常兒童,而這些兒童可能在傳統(tǒng)測試中沒有被發(fā)現(xiàn)。盡管表現(xiàn)評估有許多優(yōu)點,但同時在使用方面也存在一些挑戰(zhàn)。首先,對評估分數(shù)(即有效性)的使用和解釋因缺乏明確的測量內(nèi)容而比較困難。此外,一些學(xué)者注意到,使用表現(xiàn)評估,相對于使用標準化能力測試和成就測試確定的天才學(xué)生的學(xué)業(yè)成績上有很大差異,且準確性不不如以上兩種。因此,表現(xiàn)評估往往用于補充作用,即識別那些不同于傳統(tǒng)評估工具識別出的天才學(xué)生群體。
五、動態(tài)評估
在動態(tài)評估中,評估個體對適應(yīng)性教育干預(yù)的反應(yīng),以確定他們的學(xué)習(xí)能力,而不是他們目前的成就狀況。動態(tài)評估主要關(guān)注學(xué)生在接受針對其具體弱點的教學(xué)后,在能力測試或成就測試中提高成績的程度。在現(xiàn)有多種形式的動態(tài)評估中,通常遵循一種測試前指導(dǎo)后測試的形式,即首先對學(xué)生進行測試,然后根據(jù)測試結(jié)果向他們提供指導(dǎo),然后再次進行測試。通常,非語言測試,如RPM,被用作前測和后測階段的評估工具。自20世紀90年代以來,動態(tài)評估在超常教育領(lǐng)域的使用反映出,與傳統(tǒng)上使用的測量工具相比,它會更公平地評估天才學(xué)生,特別是那些來自少數(shù)民族或因家庭階層原因沒有接受良好教育的學(xué)生,他們可能經(jīng)歷的教育劣勢會讓其在一開始的競爭中處于不利地位。此外,動態(tài)評估對超常教育干預(yù)的規(guī)劃可能有效,因為它可以收集關(guān)于需要后續(xù)注意問題的具體信息。但是與使用動態(tài)評估作為鑒別超常兒童的方法相比,它對超常教育的規(guī)劃和干預(yù)有效性還需要進一步研究。
參考文獻:
[1] 戴海琦&張鋒&陳雪楓.心理與教育測量:暨南大學(xué)出版社,2011:231-232
[2]Fives C J, Flanagan R. A review of the universal nonverbal intelligence test (unit) an advance for evaluating youngsters with diverse needs[J]. School Psychology International, 2002, 23(4): 425-448.
審核:馬智慧