期刊在線咨詢服務，立即咨詢

投稿策略

期刊推薦

雜志分類

首頁學術雜志科普訂閱 SCI期刊投稿經驗文秘服務論著出書出版社

首頁 > 精品范文 > 教育測量與評價論文

教育測量與評價論文模板(10篇)

時間：2022-08-14 12:01:36

導言：作為寫作愛好者，不可錯過為您精心挑選的10篇教育測量與評價論文，它們將為您的寫作提供全新的視角，我們衷心期待您的閱讀，并希望這些內容能為您提供靈感和參考。

教育測量與評價論文

篇1

一

高中語文人教版“表達與交流”模塊對高中寫作教學無疑具有指揮棒的作用。由五本課本中“表達與交流”內容編排的分析，我們可以看出教材注重什么淡化什么。具體為必修一：心音共鳴――寫觸動心靈的人和事，親近自然――寫景要抓住特征，人性光輝――寫人要凸顯個性，黃河九曲――寫事要有點波瀾。必修二：直面挫折學習描寫，美的發現學習抒情，想象世界學習虛構。必修三：多思善想――學習選取理論的角度，學會寬容――學習選擇和使用論據，善待生命――學習論證，愛的奉獻――學習議論中的記敘。必修四：解讀時間――學習橫向展開議論，發現幸福――學習縱向展開議論，確立自信――學習反駁，善于思辨――學習辯證分析。必修五：緣事析理，學習寫得深刻；謳歌親情，學習寫得充實；錘煉思想，學習寫得有文采；注重創新，學習寫得新穎。

不管從標題上，還是從篇目內容及課后練習上，認真分析比較，我們都可以歸納出“表達與交流”的三大內容：一談如何寫好記敘，描寫，抒情，議論，二談“虛構”與真實，側重虛構，三談好文章的四項指標――深刻、充實、文采、新穎。沒有涉及它們與文體的相關，更沒有涉及文體的理論知識與實際操作指導。必修教材的“表達與交流”忠實地執行了我國《語文課程標準》的要求。我國《語文課程標準》并不特別強調文體，小學以敘述文為主；初中有明確的文體要求：“寫記敘文，做到內容具體；寫簡單的說明文，做到明白清楚；寫簡單的議論文，努力做到有理有據；根據生活需要，寫日常應用文?！逼胀ǜ咧兄灰缶C合運用記敘、說明、描寫、議論和抒情等表達方式，并沒有明確的文體規定。這反映出《語文課程標準》淡化文體意識的價值取向。

美國高中作文教學卻與我們不同，文體教學在美國高中作文教學中有著重要地位，在作文教學的幾大模塊中占有相當大的比重。

如在作文教學綱要和指導觀念里，實用文體的寫作訓練和寫作基本能力訓練與表達方式的訓練共同組成美國的寫作教學的三大內容。這三大訓練有多種訓練體系，有單向的也有綜合的?！拔捏w”意識和實際指導在這些體系中隨處可見，如“思維―表達訓練體系”主要進行思維和文體寫作的訓練，其他還有一般文體寫作訓練體系、實用文體寫作訓練體系。如美國加利福尼亞州的《公立學校英語課程標準》明確要求學生寫敘述文、文學評論、研究報告、勸說文、技術性文章及常用應用文，對每一文體都有明確規定。

在實際教學操作中，文體教學得到了同樣的重視。

如三冊《美國語文》（2004年同心出版社出版的《美國語文―――美國著名中學課文精選》，以下簡稱《美國語文》）是中國大陸第一套系統引進的西方著名中學語文教材。文體類型（除編譯時由于篇幅關系刪去的戲劇、詩歌外）統計如下：

文體類型具體類型舉例：

（1）小說：短篇小說、科幻小說、長篇小說；

（2）散文：分析散文、諷刺散文、說明散文、思考性散文；

（3）其他類：日志、神話、傳說、故事、敘述文、布道、自傳、勸說文、演講、格言、書信、通告、游記、回憶錄等。

課后寫作練習文體訓練類型舉例：

（1）想象、娛樂、感受類：神話、短篇小說、科幻小說、電影情景、人物傳記、日記、續寫、改寫、廣告、網頁制作、格言等；

（2）通告、闡釋、描述類：通信、通告、新聞報道、報告、描述性信件、摘要、訃告、課程描述、競賽公告等；

（3）勸說、建議、說明類：說服性的短文、給校長的建議、建議專欄、收藏者指南、提議、有說服力的信條等；

（4）分析、評論類：文學分析、社論、批判性回應、說服力評價、比較研究等。

與淡化文體教學對應的是中國作文評價標準是面向文學性、詩意和哲理性很強的記敘文、議論文、說明文的通用標準；與注重文體訓練對應的是美國評價標準鮮明地體現為分文體定標準。這種分文體制訂評價標準的做法是較為嚴謹的。它能充分反映評價學生駕馭不同文體的能力，較之抽象地評價內容充實否、結構完整否、符合要求的“通用”標準否，更能起到實際的評分指導與規范作用。

我認為美國作文教學對文體教學的重視，是美國作文教學卓有成效的原因之一。在美國教學中最令全球教育界驚奇的事就是美國人普遍具有良好的寫作能力，只要受過普通教育的美國人，都能把自己要說的話寫在紙上且表達清楚，同時盡可能遣詞造句，使意義更準確。而這種情況，反映的正是美國高中作文評價有相當高的效度。

美國作文教學之所以卓有成效，注重文體教學和注重效標效度的分文體制訂評價標準的作文評價功不可沒。這樣的結論不是主觀臆測，而是通過客觀分析得出的。了解美國文體教學與分文體制訂評價標準的作文評價，并對評價效度進行分析，我國作文評價的效度問題亟待解決。

二

怎么改進甚至改革高中作文教學呢？作文成績與寫作能力是否成正比呢？

舉個比較絕對的例子，假如高中作文教學只有新詩教學，作文練習與測評題只有新詩形式的測評題，有這么一個可能結果，老師抱怨作文難教，學生抱怨作文難學難寫、沒東西可寫、太多束縛不自由……還有一個可能結果是，作文測評成績不錯的高中畢業生在社會上不會寫讀書筆記，不會寫文學評論，不會寫報告，不會寫社論，不會寫計劃書，不會寫基本的商業策劃，不會寫比賽公告……作文測評成績不好的高中畢業生在社會上卻成了新興作家或者公司的文案高手……于是作文教學改革呼聲四起，興起了半命題寫詩、話題寫詩、材料寫詩、漫畫寫詩、不定題材寫詩、生活化寫詩、心靈化寫詩、學生詩作互評、多就少改詩、總評詩、面評詩、每日一詩……

當然，上述是一個較為絕對的例子，可事實是，這個絕對例子與當下高中作文教學內容的關系只不過是五十步與百步的差別。高中作文教學中并未有更多樣的文體介紹和指導，在大部分學生的腦海中，他們知道的文體就只有文學性質的記敘文、散文、論點論據論證式議論文、詩歌和戲劇，就在這有限的三四個文體中選擇，較之于事實上豐富多樣的文體而言，“文體不限”能算是真正意義上的文體不限么？腦海中根本就沒有多少文體概念知識，何談文體不限的選擇呢？在記敘文、散文、論點論據論證式議論文、詩歌和戲劇范圍內分文體定標準的作文評價是否是真正意義上的分文體定標準作文評價呢？如前文所示美國中學文體訓練類型涵蓋了工作崗位上大部分的文體寫作，培養了美國人而不是美國學生普遍良好的寫作能力，而大部分接受過高中作文教學的中國高中畢業生，在進行工作崗位上基本的文案寫作時一般都是初次接觸，能力匱乏。這不僅是高中語文作文教學中文體教學缺失造成的后果，還反映了對應于淡化文體教學的淡化文體評價的作文評價的低效度。

任何測評都涉及效度。效度是指所測量到的結果反映所想要考察內容的程度，測量結果與要考察的內容越吻合，則效度越高；反之，則效度越低。在作文教學中或者在升學考試中指作文測評的分數反映學生作文真實能力的程度。在判斷作文測評是否有效性時，在考慮到測評的內容效度的同時還必須考慮到效標效度。

內容效度最容易理解，它關心的是測量的內容。比如某一個學段進行詩歌寫作教學，內容效度就會考察詩歌寫作測題是不是與這個學段教授的詩歌寫作知識、方法和技能有正相關。

效標效度稍微復雜些，是指當前一項測驗結果與作為效標的資料或數量之間的相關程度。效度的高與低，需要有一定的參照點加以考查，尤其是能力的測試。實際上能力都是無法測量的，因此我們只能確定一個或幾個能反映能力的標準，然后做間接的比較。這種人為確定的效度標準簡稱“效標”。效標效度關心的是測量結果和另外一個效標（criterion）的符合程度。比如，據說微軟公司招人的時候會考一些類似腦筋急轉彎的問題，像“紐約有多少個水井蓋”之類。考察者并不真的關心答題者是不是真的知道紐約有多少個水井蓋，他關心的是答題者以后的工作業績（相當于效標）。那么考題到底能在多大程度上預測工作業績呢，或者說這些考題和工作業績的相關程度到底如何呢，這就是效標效度。比如，在美國高中作文教學進行的同時，進行多種文體的訓練與測評，這個測評，除了關心測評題與教學內容的相關程度外，更關心學生實際生活和工作中的寫作能力及發展。測題到底能在多大程度上預測寫作能力呢？或者說這些測題與日后的寫作能力的相關程度到底如何呢？這就是效標效度。

內容效度和效標效度的區別首先是調查者（investigator）的觀察的取向（orientation）不同。使用內容效度的調查者，關心的是測量的得分。比如教師對學生進行寫作測驗，那么學生在這張試卷上的得分正是教師所關心的。使用效標效度的調查者，他關心的是效標的得分。比如上面舉的招聘的例子，公司并不真正在乎你在招聘試題上的得分，他在乎的是你以后的工作業績（相當于效標），上面舉的作文測評的例子，教師還關心學生在以后的生活和工作中的寫作能力（相當于效標）。

這是兩種效度在觀察重心上的區別，另一個明顯的區別就是推論（inference）的程度的不同。對使用內容效度的測量者來說，基本上不存在推論。還以作文測題為例，作文成績高分就說明這學生作文能力好，教師不需要進行推論，作文成績得分直接說明問題（如果要引申到學生的學習態度就是在進行推論了）。在效標效度的例子里，推論是很明顯的。招聘試題上的得分真的能預測將來的工作業績嗎，詩歌寫作成績好真的能預測將來生活和工作中的寫作能力嗎？局限于記敘文、散文、小說、論點論據論證式議論文和詩歌的寫作成績好，真的能預測將來的寫作能力嗎？這時候推論的意味已經很強烈了，實際上效標效度就是用來衡量這種推論的可靠性的。

測量者關心的是測量得分時，用內容效度；測量者關心的是效標得分時，用效標效度，也許還需要解釋一下，這兩種效度并非只能用于不同的作文測題，而是取決于測量者如何使用作文測題。比如，同樣是一套或一系列作文測題，兩種效度都可以用來考核它，這取決于施測者如何使用這套或者一系列作文測題。如果施測者只想從中知道學生對相關的寫作知識和能力的掌握情況，那么他應該關心這套或這個系列作文測題的內容效度如何；如果施測者想以此推斷學生將來工作生活中的寫作能力，那么他應該關心這套或者這個系列的寫作測題的效標效度如何。

在關注效標效度時，不能忽略了同時效度和預測效度。它們是在時間上對效標效度進行的分類。它們的區別是時間上不同，同時效度的效標和原測量工具是同時施測的，而預測效度的效標是在原測量工具之后施測的。比如學習期間正式進行的作文寫作測驗的同時效度的效標是與這些測驗并行的學生寫作練習成績和老師觀察評價等，而預測效度的效標則可以是期末考作文成績，高考作文成績和生活工作中的寫作能力。

前文已經說道，效標效度的使用者真正關心的是效標上的結果，因而待檢驗的測量工具其實是作為效標的替代物出現的。為什么要使用替代物呢？其理由在預測效度這里很明顯，效標是作用于將來的，我現在要知道結果就必須使用替代物。比如要知道學生在將來正式高考時的可能成績，那么我們需要使用有較高的預測效度的模擬試卷。又或者要知道學生將來寫研究報告的能力，那么教學時應該使用有較高的預測性的作文測題；這兩個例子里的模擬試卷和寫作測題都是為了實現預測的目的而必須使用的替代性的測量工具。

結合以上關于內容效度和效標效度的分析，我國作文教學和作文評價的現狀如下：高中作文教學模塊“表達與交流”有三大內容：一談如何寫好記敘，描寫，抒情，議論，二談“虛構”與真實，側重虛構，三談好文章的四項指標――深刻，充實，文采，新穎。作文評價對應于這三大內容的評價標準。那么從理論上說作文評價已有了較高的內容效度。可是內容效度高并不代表作文評價的效度高，并不能真實反映作文教學的成效如何，是否科學合理。在作文教學中，文體教學的嚴重缺失，文體意識嚴重匱乏導致學生日后生活中自由寫作思維極為狹隘，沒有可供自由選擇的文體寫作，駕馭文體能力相當乏弱導致學生日后無法快速應對豐富多樣的文體寫作，這反映了我國高中作文教學評價相當低的效標效度。

事實上，高中畢業后大部分人都有這樣的經驗，開始社會生活、走上工作崗位后，沒有多少人會繼續進行我國高中作文類型的寫作，例如寫文學性、詩意、哲理性很強的記敘文、散文、議論文，反而是當下高中作文教學所淡化的形式規范性很嚴格而且思維能力要求各具特色的其他文體寫作特別是實用文體寫作成了很多人的日常寫作，可是在作文評價過程中，忽視對效標效度的分析，并沒有把駕馭這些文體的寫作能力當做預測效標來分析和重視。缺少這種效標效度分析的作文評價就無法發現當下作文教學成效低微，學生應對生活與工作的實際寫作能力低弱的真正原因。

參考文獻：

[1]黃全愈.高考招生制度改革的追問[J].全球教育展望，2005（5）.

[2]陳文中.外國大學入學作文考試的啟示[J].中學語文教學，2004（4）.

[3]周鸞飛.近五年我國高中教學作文評價的研究[J].湖南師范大學碩士學位論文，2009.5.

[4]賀義廉.高考備考作文訓練的現狀與誤區[J].當代教育論壇，2008第5期.

[5]王選遨.構建符合課程標準要求的寫作教學新思路[J].語文教學通訊高中版，2005（3）

[6]朱曉斌.西方寫作教學研究的新進展[J].心理科學，2001，VOL24（4）.

[7]張娟.我國高考作文命題及評價回歸生活的訴求[J].教育測量與評價，2008.9.

[8]黃全愈.“高考”在美國[M].廣西師范大學出版社.

[9]瞿寶奎.教育學文集?教育評價[M].人民教育出版社，1989.

篇2

隨著知識經濟時代的到來，科學技術和創新能力已成為國家間競爭的核心要素。高校作為國家科技創新體系的重要組成部分，扮演著越來越重要的角色。作為科研生產活動的主體，高校教師的科研生產力在很大程度上影響著高校整體的科研產出水平和創新能力。

因為科研產出具有不確定性（即較多的投入并不一定能夠獲得相應的產出結果，在自然科學研究中表現得尤為明顯）、多樣性、連續性（即本期的研究成果可能會影響下一期的項目申請）、直接傳播性、社會影響深遠性等，所以，教育界對于高校教師科研生產力的測量指標莫衷一是。

一、概念界定

科學研究是科學工作者生產知識、應用知識的活動，這種活動屬于高度社會化的一般勞動，使人類擁有認識和改造自然的巨大力量，反映了人與自然的關系，應該歸屬于生產力的范疇。學者趙紅州認為，社會的科學能力應該屬于特殊的生產力，也就是科學領域的生產力或科研生產力。謝彩霞等人指出，科研生產力由科研生產要素構成，整個科學研究過程離不開科研生產要素。姚東瑞進一步指出，科研生產力作為科學研究活動的一種產出能力，既包括通過發現、創造而實現創新理論、生產知識與發展科學的能力，又包括通過整合和應用而實現技術創新、知識運用和轉化的能力。葉鐘靈就美國對科研生產力的評價指標進行了綜述，按研究開發工作的成果進行統計，常見的指標有專利發明數、論文出版數、成果得獎數、論文引述數等?？蒲猩a力是科學勞動社會化的必然結果，結合已有研究，本文中的科研生產力是指科學研究活動的產出能力，具體表現在產出的數量和質量上。

二、文獻綜述

（一）數量測量

從國家層面上看，國外對高校教師科研生產力的評價非常重視，尤其是美國和英國。美國主要是從教學、科研以及服務三個方面對高校教師進行評價，其中科研評價包括學術研究和科研項目。學術研究包括舉行學術報告、展覽，發表學術論文、專著，申請專利等；科研項目包括開展各級政府部門的縱向基金項目研究，為社會上的公司、企業進行人員培訓，提供技術服務等。英國對高校教師的科研評價也比較系統，設有英國大學科研評價體系，由專家組按照統一的標準，依據達到國內或國際先進水平的成果數量，將評價結果分為七個等級同。澳大利亞科研評價體系則包括文獻計量指標和非文獻計量指標。文獻計量指標包括出版物（賦有權重）、引用、展現科研特色的結構指標（包括出版物的領域分布、合作級別、科研類別）。非文獻計量指標包括常用非文獻計量指標（科研人員數量、科研時間、外部資金、研究生數據、榮譽和獎勵、演講、國際訪問），適用于人文社會科學的非文獻計量指標（與校外機構的研究合作產生的方案以及合作發表的出版物、參與大學管理、為社會提供學術服務等），以及適用于創造性藝術學科的非文獻計量指標（舞蹈家、演員、音樂家、劇作家在公開場合的表演，建筑師和設計師的建筑或者創造等）三個方面。

國外研究者認為，雖然用出版物的數量來衡量高校教師的科研產出有諸多局限性，但是從數據的可得性以及可靠性出發，出版物的數量是一個很好的評價高校教師科研產出的指標。出版物主要指發表的論文和所著專著兩個方面。

國內學者在測量高校教師科研生產力時，也傾向于采用出版物的數量作為重要指標，但是，考慮到學科性質的不同以及科研產出的多樣性，在借鑒國外經驗的同時，國內學者對高校教師科研產出的測量指標做了進一步整理，主要從指標分類、指標篩選兩個方面進行。他們認為，科研產出主要表現為學術專著、、專利授權、成果鑒定、技術轉讓等方面。

1.指標分類

有學者根據科技績效評價產出指標性質，將指標分為源生指標、追加指標和派生指標三類。源生指標包括論文、專著、專利授權、成果鑒定、技術轉讓、人才培養等；追加指標建立在源生指標的基礎之上，包括科技獎勵、論著引證、文章被索引及摘錄情況等；派生指標是建立在優秀的源生指標和優秀的追加指標基礎之上的，包括學會、研究會、專業期刊的兼職、獲得榮譽稱號等。學者劉丹平、周建方等人采用層次分析法將高校教師科研能力評價指標體系分為目標層、準則層和指標層。目標層即高校教師科研能力評價，準則層包括科研項目、科技成果、論文、論著、專利與著作權、科研綜合能力6個方面，指標層包括國家級科研項目、省部級科研成果、三大檢索論文、學術專著、發明專利、專業創新能力、學科建設和團隊合作精神等24項。

2.指標篩選

在各類指標中可能存在一些次要的評價指標，因此，需要對這些指標進行篩選，分清主次。通常使用的篩選方法主要有系統分析法、文獻資料分析優選法以及應用數理統計法等。靳希、張火春和姚力等人在總結國內外有關業績考核工作經驗的基礎上，根據專業技術人員業績考核的目的，高校教師從事科研工作的特點以及模型設計的基本原則，建立了教師業績考核的指標體系。這個體系包括研究任務、科研專著、科技論文、鑒定科技成果、獲獎科技成果、專利成果以及研究效益7項指標。在這7項指標的基礎上，根據科研績效定量評價體系的設計原則，賀天偉和張景林增加了培養人才這一指標。鄭秀才從承擔的科研任務和取得的科研成果兩個方面綜合設定了高校教師科研績效評價指標：科研項目及經費、科研論著（期刊和專著）、科技成果（專利等）、科技成果應用、科技成果獲獎。胡金秀、周國強等人從縱向科研立項、科研經費、成果鑒定、科技獎勵、學術論文、專利及計算機軟件、著作、對合作完成科研業績的分配這幾個方面來考察科研績效。胡俊在分析了國內外教師科研業績以及高校教師科研特點的基礎上，建構了包括學術論文、著作、鑒定成果、技術轉讓等在內的新的指標體系。

為使對高校教師科研生產力的評價科學、合理、全面、有效，在已有研究的基礎上，學者們進一步完善了科研生產力的評價指標體系。劉仁義選定以下指標作為科研產出指標：學術論文，學術著作，專利申請與授權，科技成果鑒定，研發成果應用和其他科技服務，人才培養，科技獎勵，論著被引、被索及被摘，學術兼職，縱向項目，縱向科技經費，排名與貢獻率，這些指標下又分二級指標，以計算教師的科研產出。吳小妹通過專家訪談和問卷調查的方式，對高校教師科研能力指標框架進行了修正，其中，科研產出指標又分為、發表專著、獲取專利、獲得獎項、研究報告、項目資助6個二級指標，這6個二級指標下又分論文級別、作者排名、出版社等級、專著字數等15個三級指標。張宏琴在對當前國內許多高校正在使用的評價體系進行考察的基礎上，提出了科學研究指標、成果指標、學術論文指標、人才培養情況、社會工作情況（指學術講座、黨政職務）等適用于教學研究型大學的高校教師科研績效評價指標體系。

（二）質量測量

國外學者考慮到出版物之間存在著質量差異，高校教師在一本引用率很高的期刊上發表文章和在一本幾乎沒有人引用的期刊上發表文章所付出的努力和時間是不同的，因此，僅以出版物的數量來衡量高校教師的科研產出是片面的。于是，不少學者在計算出版物數量的基礎上增加了期刊質量權重以及文章引用率，英國學者杰蘭特·瓊斯和吉爾·瓊斯為了區分文章的質量，將出版物分為學術期刊上的論文、學術期刊上的書信、專業期刊上的文章、流行雜志上的文章、專著、書籍、官方報告、對編輯工作的貢獻8類。還有學者認為，不同的學科面臨著不同的文章發表的競爭壓力，因此，不同學科學者的發表文章數量應該用競爭壓力進行修正。而競爭壓力可以用與該學科相關的期刊提供的空間和教師的發表需求之間的比值計算。

篇3

中圖分類號：G641

文獻標識碼：A

文章編號：1672-0717（2015）01-0059-05

收稿日期：2014-11-30

基金項目：湖南省教育科學“十二五”規劃2012年度項目“高校有效學生學業評價研究”（XJK012CGD002）；湖南省社科基金項目“高校發展性學習評估的國際經驗與借鑒”（13YBA077）；全國教科規劃教育部重點項目“高校學業評估的國際比較研究”（DIA130302）。本文同時受湖南大學青年教師成長計劃經費資助。

作者簡介：劉聲濤（1976-），女，江西萍鄉人，教育學博士，湖南大學講師，主要從事高校教學與學習評估研究。

《高等學校章程制定暫行辦法》實施以來，教育部核準了多所大學的章程，這些章程對學生學業評價工作的表述高度一致，即：學生公正地獲得學業上的評價。這個表述中有兩個看似平常實則復雜多義的概念：公正、學業評價。博登海墨（Edgar Bodenheimer）說：“公正有一張普洛透斯似的臉，變幻無常，隨時可呈不同形狀，并且有極不相同的面貌。當我們仔細查看這張臉并試圖揭開隱藏其表面之后的秘密時，我們往往會深感迷惑?！盵1]在不同的時代與人類活動中，人們對公正的涵義有不同的理解，不同的學者對于公正也有不完全相同的闡述，迄今尚未形成一個統一的公正論。教育領域中的評價是一個正在發展中的概念，其內涵在不斷地擴大與豐富中。國際上，學生學業評價近幾十年正在產生教育評價歷史上從未有過的變革[2]。當公正與學業評價兩個復雜的概念在一起時，有必要了解高校行政管理人員、教師、學生如何理解公正評價學生學業，這種理解是否有偏差，如果有偏差那么更合適的理解又是什么。章程是高等學校依法自主辦學、實施管理和履行公正職責的基本準則，探討上述問題有益于高校章程制定及以章程為依據來辦學。

一、對高校公正評價學生學業的實際理解

有三方面的證據表明，當前我國高校學業評價相關群體主要將公正評價學生學業理解為通過以考試為主的方式來給予學生應得的分數或等級的活動。第一方面的證據來自于學生調查。2014年1月，筆者在某高校對大學生進行了學業評價書面調查。調查包括三個問題：（1）大學期間，你的學業有沒有得到公正的評價？（2）請給出你或同學的學業被不公正評價的例子；（3）你認為被不公正評價的原因是什么？學生針對這三個問題主要圍繞教師如何考及如何評分作答。第二方面的證據來自于高校相關政策文本的分析。有研究者對E大學學生評價管理機構的管理職責、課程學習評價規定、學生實習評定和畢業論文評定的相關規定、畢業資格和學士學位授予資格的政策文本進行分析，發現我國現行高校對學生評價的理解與要求是以專業知識為主要評價內容，以考試為主要手段進行考試成績鑒定[3]。第三方面的證據來自于研究文獻的內容分析。以“高校、公正、評價”或“大學、公正、評價”為關鍵詞在CNKI數據庫中查詢到論述高校公正評價學生學業相關問題的3篇論文，這些論文對公正評價學生學業的界定都是給予學生客觀公平的學業成績。可見，人們對于高校公正評價學生學業的理解與實踐主要是圍繞學業考試和評分進行，評價即考試，公正即評分準確。

注重考試和評分的學業評價活動發揮了評價的測量功能：收集并量化信息。從測量功能角度理解學生學業評價并不奇怪。我國考試文化盛行，在不少人看來，學業評價即考試是自然而然的。首先，考試在我國有長期的歷史。1930年教育評價專家泰勒（R.W.Tyler）開始在教育領域使用評價一詞，此前評價學習的術語就是考試和測驗，而西方的考試和測驗發展的源頭正是我國的科舉制。其次，我國人口眾多，經濟尚欠發達，社會誠信體系不成熟，考試依然是對社會有重大影響力的人才選拔手段。

測量意義上的公正評價學生學業要求評分準確。簡單地說，公正是在一定社會范圍內通過對社會資源的公平合理分配使每一個成員得其所應得[4]。測量意義上的學生學業評價分配什么？最容易被想到的就是學業評價的直接分配――分數或等級。直接的分配類似于代幣，用來獲得真正的分配，如保研資格、獎學金、工作機會等社會資源或和社會資源密切相關的東西。分數或等級是學生學業成就客觀真實狀態的數字表征，公正則意味著數字表征準確或地位表征準確。數字表征準確指數字完全和學生學業成就客觀真實狀態相符。因為公正主要和分配有關，數字對學生學業成就在其團體中所處位置表征準確也能確保學生在分配時得其所應得，這就是地位表征準確。本文中將數字表征準確或地位表征準確統稱為準確。

二、測量視角下公正評價學生學業的挑戰

研究者若對測量意義上的學業評價的基本技術有更多的了解和思考，會發現準確評價學生學業在測量的各環節上都面臨著挑戰。

首先是收集哪些方面的信息。學業評價需要收集學生在預期學習成果上的表現信息。高校中的學業評價主要是課程學業成就評價。為了保護高校教師的學術自由，同時也因為高校課程多且不斷變化，課程應該有怎樣的學習成果由教師自行決定。在制定高校學術標準和質量標準方面世界領先的英國高等教育質量保障署（Quality Assurance Agency for Higher Education， QAA）也僅是在學科層次上制定基準，不再細化到專業、課程層次。表層上，教師理解課程、設定合適的教學目標的能力以及個人風格等方面的差異導致課程目標多樣化。深層上，課程到底該取得何種學習成果及價值判斷，原本就是一個難有統一答案的問題。因而，不同教師授課的同一門課程上被評價的很可能是學生不同的學習成果的表現。

其次是用什么評價方法去收集信息。按學生在評價活動中要做出的反應，測量學意義上的學業評價可分為選擇――反應評價和建構――反應評價。選擇――反應評價包括選擇題、判斷題、匹配題等需要學生找出答案的評價形式，建構――反應評價包括論文題、表現性測試、檔案袋評價等需要學生自己產生答案的評價形式。每種評價方式都有其適用情形及局限。選擇――反應評價能考察學生大范圍的知識掌握情況，易于計分，但難以考察高層次能力；建構――反應評價能引發學生在高層次能力上的表現，但難以對學生的真實狀況做準確推論，難以計分。迄今為止，從測量技術上沒有找到能很好地克服每類評價方式局限性的方法。

再次是收集多少信息。由于用于信息收集的時間有限，實際工作中只能在預期學習成果中選擇若干并設計有限的評價任務，因而學業評價只能測量學生特定的、有限的行為樣本。測量實質上是對學生的真實狀態作出推論，推論基于有限的行為樣本，同時推論本身會有或多或少的誤差，這些都導致評分有誤差。

最后是收集到的信息如何量化。選擇――反應評價具有易于計分但難以測量高層次能力的特點。高等教育的重要教學目標，如理解分析綜合能力、溝通合作能力、自主學習創新能力等都需要借助建構――反應評價方法來評價。教育測量學中，建構――反應評價的評分者一致性受到高度關注。因為高等教育的重要教學目標難以量化，人們希望至少不同評分者對同一行為樣本的評分不要相差太遠。但這種對評分者間一致性的期望也面臨挑戰：評分者的標準設定或對已有標準的理解不盡相同，同時教育測量學已經證實學業評價中各種心理效應導致的評價偏差客觀存在且難以克服?；谠u分的困難，波帕姆（W.James Popham）等著名教育評價專家都認為應對論文題或檔案袋評價的使用持謹慎態度[5]（P139）。

事實上，對測量技術有更多了解和反思的學者對考試有著冷靜而客觀的認識。波帕姆認為應該降低教師對分數能反映學生實際成就水平的迷信[5]（P28）；沃爾弗德（Barbara E.Walvoord）建議放棄擁有完美、簡單的等級評分體系的幻想，接受它會有缺陷和限制的現實[6]（P10）；劉易斯（Harry R.Lewis）認為分數決不可能成為準確比較不同學科成績的標尺，即使在一門課程內，分數也是不準確的[7]；韋墨（Maryellen Weimer）指出分數能夠精確地衡量與客觀評價學習的認識是錯誤的[8]。

可以說，準確評價學生學業是一種誤解和想象，但當前我國高校卻對它有著過度的依賴和關注，并且高校教和學中的很多負面現象都和這種依賴和關注有關。

盡管多數教師不能從測量技術的角度說清楚給學生準確評價學業有多困難，但是他們會感受到這點，尤其是面對建構――反應題時。有的教師會因沒有合理評價學生而內心不安，還有教師擔心評分不合理導致學生投訴。為避免評分可能帶來的麻煩，高校教師經常使用以下策略：（1）抬高分數。給全體同學更高的分數，盡管這對于優秀的學生不公正，但可以避免因評分過低而被學生投訴；（2）對學生按正態分布評分。正態分布是眾所周知的能力分布，按正態分布分配不同分數等級的人數比例，這樣使得分數看起來很正常；（3）盡量用選擇――反應題。選擇――反應題好評分，在理工科的測驗中普遍使用；（4）秘而不宣的標準與任務。若公開標準與任務，教師擔心學生通過不同的渠道做準備，導致分數看起來不符合學生水平。

一直以來，大學生學習研究不斷地證明著學業評價對于學生學習的影響[9]。學業評價過于依賴與關注考試對學生的負面影響包括：（1）膚淺學習。選擇――反應評價主要考查記憶、再認等低層次的認知能力，這只需要學生的膚淺學習即能應對。即便是形式上的建構――反應評價，若沒有對題目及評分進行精心設計，也可能只是考查學生低層次能力。（2）突擊學習?？荚嚢l生在學習告一段落后，再加上考察低層次能力，學生完全可以通過突擊學習通過考試，部分學生甚至還能獲得高分。（3）舞弊。既然評價注重的是分數而不是學習，學生就會想方設法獲得分數，包括以舞弊的方式。（4）對課程的誤解。事實上，學生是根據學業評價而不是教師的課程介紹來定義課程[10]。一門只要求死記硬背的課程在學生眼中就是枯燥無味、干巴巴的。不合適的學業評價會讓學生對真實的成人智力世界產生誤解。（5）失去通過學業評價調整自己學習的機會?？荚囋趯W期末進行，沒有反饋，而反饋被認為是改進學習的核心要素。

三、高校公正評價學生學業：以改進學習為首要目標

面對測量意義上公正評價學生學業的挑戰，自然要提高測量技術，以不斷提高對學業的測量能力及測量準確程度。更重要的是，要意識到并承認考試固有的局限性。承認這種局限性不僅是正確使用考試的關鍵，更是一種基本的科學態度，它告訴我們要改變對考試與分數的過分依賴與關注，正確認識公正評價學生學業的內涵。

首先要正確認識學業評價的內涵。在過去的幾十年中，學業評價被不斷地審視與反思。早在1930年，泰勒開始在教育領域使用評價概念，提出評價比考試和測驗有更多的功能和目的，認為教育評價僅用于檢測學生的成就是不夠的，同時也要關注課程內容、課程形式、學生活動、學習的多種結果。20世紀60年代初，克龍巴赫（Cronbach，L.J.）建議評價者們重新確定評價的概念――不是根據競爭的成績，而是作為一個搜集和報告對課程研制有指導意義的信息過程，強調評價的診斷和反饋作用[11]。可見，在評價的最初發展階段，學者主要就“什么需要被評價”及“評價起什么作用”擴展了評價的含義，認為評價的功能是信息收集及分析反饋，這一功能不僅學業成就檢測上需要，與學習相關的多項工作上都需要。在此階段，教師被認為是評價的組織實施者及評價信息的分析使用者。1968年，布盧姆（Benjamin Bloom）將形成性評價的概念用于學生學習，認為應在學生學習過程中通過檢測診斷學習中的問題。形成性評價主要就“什么時候評價”擴展了評價的含義。20世紀80年代后，社會經濟發展不斷對人才培養工作提出更高要求，同時認知心理學等學科揭示了學生在學習中發揮積極主動性的作用，大量學者開始進一步挖掘評價在學習中所能起的作用。學者主要就“評價的核心功能及其實現途徑”、“學生在評價中的角色”擴展評價的含義。評價依然是信息收集及分析反饋工具，但這一工具被認為應該是以改進學習為首要目標。不同學者或研究組織用不同的名稱來稱呼這種以改進學習為首要目標的評價，如學習導向評價、為了學習的評價等，并且總結了這類評價的特征。英國的評價改革研究小組（Assessment Reform Group，ARG）認為，為了學習的評價應該是：有效的教學設計中的一部分；關注學生如何學習；課堂活動的核心內容；教師需要掌握的關鍵專業技能；建設性的，因為任何評價都會帶來學生情緒、情感的影響；考慮到學生學習動機的重要性；促進對學習目標的理解，在評價標準上應該達成共識；保證學生得到如何取得進步的建設性指導；發展學生自我評價的能力，促進他們進行反思和自我管理；認可學生各個方面的成就[12]。不同學者或研究組織總結的為了學習的評價的特征大同小異，從這些特征中可以明顯看出為了學習的學業評價從目的到形式完全不同于考試。

其次要正確認識學業評價中公正的內涵。為了學習的學業評價分配什么？分配的是能改進學生學習的信息以及根據這些信息所確定的合適的教育。聯合國教科文組織的著名報告《學會生存――教育世界的今天和明天》在談及教育中的機會平等時指出：“給每個人平等的機會，并不是指名義上的平等，即對每一個人一視同仁，如目前許多人所認為的那樣。機會平等是要肯定每一個人都能受到適當的教育，而且這種教育的進度和方法是適合個人的特點的?！盵13]應像理解教育中的機會平等一樣理解學業評價中的公正，因為它們有著共同的使命――讓學生學會生存，獲得發展。

澄清學業評價工作的首要目標不僅是評價內涵擴展和豐富的結果，還是使評價活動有效的要求。選拔、甄別、診斷、鑒定、認證、發現、發展、管理等等都是評價可能具備的目標。研究者認為，包括學業評價在內的評價活動之所以很困難就在于評價可以同時具備多種目標[14]，但難以同等良好地實現所有目標，得到最重視的目標決定評價的內在結構與外在形式。這也就是為什么在學業評價的研究文獻中總是可以看到學者指出對某些評價功能和目標“過于重視”、“過于關注”、“過于依賴”、“過分強調”，認為對某些評價功能和目標應該“突顯”、“強調”。評價工作需要確定首要目標，并從這個首要目標出發設計評價，以確保首要目標的達成而不是其它。

人們依賴考試一方面是對考試的局限性了解不夠，另一方面是強調了學業評價在人才培養中不合適的目標――管理。當前我國高校中的學業評價，與其說是一種教育方式，不如說是一種管理方式。在高校管理中，考試是高效且便利的以考促學的工具。高校中的學業考試是高利害的，因為它和畢業及各種榮譽有關，這樣的考試自然能促使學生學習。但我們必須追問，有沒有導致正確的學習？不管考試在管理上多么高效和便利，它終究是以犧牲學生的利益為代價。正是對于以管理為目標的學業評價的依賴，人們很難看到它和改進學生學習的關系。只有把學生的利益放在第一位，而不是把管理的效率和方便放在第一位，才能正確理解公正評價學生學業的內涵。

為了學習的學業評價在國外高校人才培養工作中正在發揮著重要作用。首先政府部門和相關組織明確將以改進學習為首要目標的評價寫進政策文件中。美國高等教育協會（The American Association for Higher Education，AAHE）制定的良好學生學習評價活動的第一條原則是：評價學生的學習必須從教育的價值開始[6]（P171）。QAA明確要求：評估實踐應促進有效學習[15]。其次學者積極進行理論研究，并和教師一起進行學業評價改革。如，美國學者安吉洛和克羅斯（Anglo，T.&Cross，P.）等在20世紀80年代組織的課堂研究項目；澳大利亞學者南丁格爾（Nightingale，P.）等在20世紀90年代中期組織的大學教學促進項目（Committee for the Advancement of University Teaching，CAUT）。這些項目均是由評價專家組織及指導教師進行學業評價改革行動研究，在實踐中發現問題，解決問題，形成豐富的學業評價資源。如，學業評價方法、學業評價范例供更多教師使用，并致力于在高校形成以改進學習為目標的評價文化。相比之下，我國對高校學業評價的認識及實踐還停留在考試階段，高校中盛行的依然是考試文化而不是評價文化。

四、結語

在各項教育改革中，評價均被視為最難點或瓶頸。評價的首要目標選擇不當是評價不能取得預期效果的重要原因之一。長期以來，我國高校學業評價均承擔著測量者的角色，人們認為公正評價即公正評分。在這種情況下，需要從政策層面對人們的認識和實踐進行正確引導。翻看我國《教育法》，可以發現教育部已核準的章程中，對學生學業評價工作的表述基本上和《教育法》中的表述一致。章程要與教育法保持一致無可厚非，但保持一致并不意味著原封不動，其遣詞造句若能有利于糾正對高校學業評價即考試的片面認識，引導高校進行有利于改進學生學習的評價則更有益于高校提高人才培養質量。即使對學生學業評價工作沿用和教育法一致的表述，也需要高校相關群體正確認識與實踐公正評價學生學業，讓學生真正從學業評價活動中受益。

參考文獻

[1] [美]博登海墨.法理學――法哲學及其方法[M].北京：華夏出版社，1987：238.

[2] 崔允t.促進學習：學業評價的新范式[J].教育科學研究，2010（03）：11-15.

[3] 沈曉麗.我國普通高校學生評價實踐研究――以E大學為個案[D].華東師范大學碩士學位論文，2008：摘要.

[4] 洋龍.平等與公平、正義、公正之比較 [J].文史哲，2004（04）：145-151.

[5] [美]W.James Popham.促進教學的課堂評價[M].北京：中國輕工業出版社，2003.

[6] [美]Barbara E.Walvoord & Virginia Johnson Anderson.等級評分――學習和評價的有效工具[M].北京：中國輕工業出版社，2004.

[7] [美]哈瑞.劉易斯.失去靈魂的卓越[M].侯定凱，等譯.上海：華東師范大學出版社，2012：117.

[8] [美]瑪麗埃倫.韋默.以學習者為中心的教學――給教學實踐帶來的五項關鍵變化[M].洪崗譯.杭州：浙江大學出版社，2006：82.

[9] Nightingale，P.，Te Wiata，I.，Toohey，S.，Ryan，G.，Hughes，C.，and Magin，D.Assessing Learning in Universities.Sydney：University of New South Wales Press，1996.117.

[10] David Carless，Gordon Joughin，Ngar-Fun Liu.How Assessment Supports Learning：Learning-oriented Assessment in Action[M].Hong Kong University Press.2006：2.

[11] 王萍，高凌飚.“教育評價”概念變化溯源[J].華南師范大學學報（社會科學版），2009（04）：39-43.

[12] Assessment Reform Group.Assessment for Learning：10 Principles[R].Cambridge：University of Cambridge，2002.

篇4

隨著高校擴招，我國的高等教育進入大眾化階段，越來越多的學生有機會走進大學校園接受高等教育。然而，越來越多的人開始懷疑我國高校培養的這些學生的質量，這些學生是不是高質量的人才？他們能不能滿足社會各界對人才的需要？他們還是所謂的“天之驕子”嗎？

這些疑問漸漸地不再是疑問了，人們看到當代大學生的素質正在逐漸降低，一方面社會各行各業對人才的需求如饑似渴，另一方面越來越多的大學生失業。本科畢業不好找工作就考研，碩士畢業不好找工作就繼續考博，博士畢業呢？如今我國的高等教育廣受詬病，“讀書無用論”一再泛濫，廣大教育界師生一直在探討如何能提高我國高等教育的質量，如何讓高等教育真正培養社會所需要的人才。

我們知道，高考具有“指揮棒”的作用，即“考什么，就學什么；怎么考，就怎么學”。到了高等教育階段之后，考試仍然發揮重要的作用，卻已不是對學生考核的唯一方法，對學生的評價也不能僅僅看分數了。既然考核評價機制的改革有助于提高我國高等教育的質量，我們首先要全面了解考核評價機制的含義、內容和作用。

考核評價機制包括考核和評價兩方面內容，考核是考察核實、研究考證之義，評價是衡量、評估價值之義，一套完整的考核評價機制要有完善的考核方法，并根據考核的結果做出評價?？己嗽u價機制的作用有三個方面：

第一，考核評價機制是測量教育教學效果的工具，教學質量的判定既有定性描述又有定量分析，考核評價機制就是教育效果的測量工具。舉例來說，考試是一種重要的考核方法，分數是評價教學效果的重要媒介。第二，考核評價的結果是對教育教學信息的反饋。考核評價的結果可以為教育教學系統反饋重要的信息。這種信息反饋給教研人員，能使教研活動更具針對性和實效性；這種信息反饋給教師，能使教師及時改進教學方法，提高教學效率；這種信息反饋給學生，為學生改進學習方法提供依據。第三，考核評價機制對教育教學的發展具有重要導向作用。學生會根據考核評價機制的要求進行學習，教師會按照考核評價機制的要求進行教學，學校會按照考核評價機制的要求布置教學任務，什么樣的考核評價機制就會使教育教學教學機構培養出什么樣的學生?？己嗽u價機制導向作用的突出表現之一是高考的“指揮棒”作用。

因為考核評價機制對教育教學有如此重要的影響，所以改革考核評價機制對教育質量的影響也是巨大的。相比于初、中等教育，國家和社會對高等教育的質量更為關注，因為高等教育培養的人才直接面向社會需要，完成高等教育的學生會直接進入社會、參與社會。因而，本文著重分析改革考核評級機制對提高我國高等教育質量的作用。

長期以來，我國高等教育系統中對學生的考核評價機制存在諸多不合理之處，這些不合理之處表現在以下五個方面：

（一）考核形式單一，缺乏多樣性。目前我國高等教育階段對學生的考核仍然以考試為主，而且多數是閉卷的筆試，除外語類的其他科目考試基本沒有口試。筆試多是期末一次性考試，考試成績的偶然性較大，很少有平時的考試，這種考核方式與應試教育的考核方式沒有差別，并不能真正考察教育教學的效果?？荚囋谄谀┻M行，削弱了考試對教育教學信息反饋的作用。雖然許多高校都設有平時成績這一項，但平時成績名存實亡，平時成績的多少由老師給定，有些老師以出勤定成績，有些老師甚至不考慮出勤情況，完全忽視對平時成績的考察，多數情況下平時成績成為老師為不及格學生提分的工具。另一方面，增加平時的考核內容會增加老師的負擔，由于學校缺少對平時考核的監督檢查，在缺少監督的情況下，多數老師對平時的考核很懈怠，平時成績儼然已成為“雞肋”。論文是對學生綜合運用知識能力的考核，但僅有少數課程以論文的形式就行考核，而且論文多是期末交，缺乏對平時學習效果的考核。

（二）考試內容以記憶性知識為主，缺少對學生創新性和對知識運用能力的考核。閉卷考試的題型固定，分值固定，考試的知識點多為記憶性的。很多老師在考前為學生劃重點，讓學生加強記憶，甚至有些老師通過漏題的形式提高學生的成績。這樣的考試形式使記憶能力強的學生能考得好成績，很多學生依靠考前的突擊式的背書就能考高分，而記憶能力差的學生就會吃虧，而且這樣的考試也不能考察學生的分析能力和創新性，對知識缺乏應用。

（三）我國嚴進寬出的高等教育模式使考核缺乏嚴格性。學生一旦進入大學，意味著不再需要像高中那樣刻苦學習，“六十分萬歲”的思想頗為流行，如果僅僅是為了拿畢業證和學位證，大學可以說無學習壓力可言。對于辛辛苦苦考上大學的學生來說，如果因為考試不及格而無法畢業，別說學生，就是家長和老師恐怕都無法接受，因而老師自然而然就降低了考試判分的嚴格性?？荚嚨膰栏裥越档?，再加上伸縮性極強的平時成績，學生很容易就能及格，這樣的考核根本不能真實反映高等教育的效果，教育質量怎能提升？此外，學生的自由選課權給老師造成一定的壓力，如果一個老師給分低了學生就不選他的課了，這在一定程度上使考試客觀性和嚴格性受到影響。

（四）對學生的評價過度依賴考試成績。學校評獎學金、保送研究生、評優秀班干部、推優入黨都和考試成績掛鉤，這一方面使得成績好的同學追求更好的成績，造成類似應試教育的效果，另一方面使得成績不好的同學放棄對好成績的追求，學生對待考試成績的態度“兩極分化”，使考試失去激勵作用。無論是哪個結果，都無法發揮考試應有的作用，考核評價機制檢測教育教學效果和反饋教育教學信息的作用嚴重削弱。

（五）對于期末一次性的考試，考完后學生只知道自己考了多少分，而究竟哪些題做錯了，哪些知識點丟分則完全不知道，由于一門課考完后就不再學了，學生也就不去想到底哪兒出錯了，這樣不利于學生全面掌握知識。學校沒有相關的規定要求老師向學生完整地反饋考試結果，學生也很少主動向老師索要，老師則更不會主動去勞神費心地為學生提供分析。

我國高等教育考核評價機制存在的這些問題嚴重影響我國高等教育的質量，考核評價機制在我國高等教育教學中發揮的作用不容忽視，因而，構建科學的考核評價機制勢在必行。根據我國高等教育考核評價機制存在的問題，為了達到高等教育質量的提升的目的，改革考核評價機制應該包括以下五個方面：

（一）考核形式的多樣化，注重平時成績的考核。高校應該增加平時成績在綜合成績中所占的比重，并增加平時成績考核的多樣性，利用平時小論文、課堂展示、課程設計、課堂討論和小組合作等形式進行考核。平時成績的考察能增強考核評價機制反饋教育教學信息的作用，并能減少期末考試一考定成績的偶然性，真實反映學生在教學過程中學習情況。利用口試的形式全面了解學生對知識的掌握和運用能力。期末考試應更多利用論文、案例分析、開卷考試等形式，綜合考察學生的各項能力，尤其是注重利用論文作為考核的方式，論文的寫作需要查閱大量相關文獻，能綜合考核學生的理解、分析和寫作能力。

（二）考核內容的全面性與科學性。要減少對記憶性知識的考核，增加對知識運用和分析能力的考核；試卷中減少客觀題比例，增加主觀題比例，考察學生運用所學知識進行論述和案例分析的能力。發達國家高等教育階段對學生的考核很少涉及記憶性內容，更側重綜合能力的考核，這一點值得我們學習。

（三）增強考核的嚴格性和客觀性。要想通過考核檢測教育教學效果和反饋教育教學信息，必須增強考核的嚴格性和客觀性。要統一判分的標準，不能因人而異，判分要嚴格依照判分標準，對于主觀題，老師要根據學生答題內容公平地給分，不能通融不及格的學生?？己藝栏窳?，學生們自然不敢懈怠，考核的目的也就達到了。不僅期末考試要嚴格，平時考核也要嚴格，考核方式一旦確定，老師和學生都要嚴格遵守考核規定，對于違反規定的，學校要依照規章制度予以懲罰。

（四）評價學生不能單純依靠學習成績。學習成績固然是評價學生的重要工具，但是對于高等教育階段的學生，其綜合素質不僅表現在學習成績方面，還表現在思想上和道德上。評價學生要考慮其參與社會實踐的程度，思想道德的發展和其他學術成果等，關注其綜合素質。鼓勵大學生參與社會實踐，培養自身興趣愛好，提高自身解決問題的能力。

（五）老師要把考核結果及學生存在的問題反饋給學生。大學生通常只知道自己考試得了多少分，至于哪些知識點上丟分則不知道，加之一門課只學一學期，考完后學生們也不想知道到底哪些知識點沒學好。因此，要想讓學生學好，必須把考核結果完整地反饋給學生，使學生真正明白。

我國的高等教育正處在快速發展階段，而考核評價機制卻沒有跟上高等教育發展的步伐，考核評價方式與初、中等教育階段沒有太大的區別，落后的考核評價機制制約了我國高等教育質量的提升，不符合培養高質量人才的要求。因而必須改革我國高等教育的考核評價機制，引導高等教育發展，通過考核提高學生學習的積極性，全方位培養學生能力，公正、客觀地評價教育教學效果，發揮高等教育培養高端人才的作用。

[參考文獻]

[1]胡海霞，李鋼.談教學型高?？己嗽u價機制下的考試制度[J].考試周刊（考試研究版），2010（9）：1-3

[2]楊愛英，宋揚.高等教育考核方式改革初探[J].常州信息職業技術學院學報，2009（2）：19-20

[3]趙麗娟，孟憲國.淺論素質教育考核評價體系之構建與創新[J].齊齊哈爾大學學報(哲學社會科學版)，2005.7：151-152

篇5

一、活動背景

光污染是繼水、氣、聲和渣污染之后的一種新型污染，主要包括白亮污染、人工白晝和彩光污染。光污染的影響首先在于破壞天文觀測環境，歷史上天文臺因此而被迫搬遷的案例屢見不鮮。英國格林尼治天文臺早在1948年就為躲避光污染和大氣污染而遷往東南沿海環境優美、觀測條件更好的赫斯特蒙蘇堡地區。在美國、加拿大、日本、西班牙、葡萄牙等國，多個著名天文臺都曾幾次遷址。我國紫金山天文臺的觀測工作也全部轉移到了其他觀測站點，紫臺園區則已改建為天文博物館，以天文科普和天文旅游為主，僅保留了少量與太陽觀測有關的科研工作。

光污染的影響其實并不局限于天文觀測。居高不下的學生近視率、迷途的海龜幼崽、撞上玻璃幕墻的飛鳥、爆發性增殖的水藻、能源緊缺與氣候變暖，這些看似并無關聯的人與事，其實背后都與燈光之擾息息相關。

作為長三角地區的重要城市之一――無錫的光污染較為嚴重。在距市中心三陽廣場約6.2公里遠的天一中學校園里，天空是白的是灰的是橙的是多彩的，北斗七星中的天權是看不到的，獅子座的鐮刀是認不全的……在距三陽廣場16.9公里遠的斗山山頂，連仙女座大星系M31和獵戶座大星云M42都僅能勉強分辨，山腳下的路燈和遠近城鎮的光源清晰可見，天空泛著淺淺的灰白色……在與市區間隔有10公里的太湖十八灣地區竟連天頂附近的銀河都徹夜不現，三角座星系M33也必須要通過雙筒鏡才能被觀察到……

為提高學生及公眾對光污染的認識，學校針對性地引進了一批測光儀，并依托天一天文社加賀谷穰工作室（文化宣傳部）、達蓋爾工作室（學術委員會）、伽利略工作室（普及委員會）和斯科特工作室（項目辦公室），設計了“多層次城市夜空光度測量科技教育活動”，策劃并實施了多個文宣、教育、科普和研究性項目。

二、活動目標

知識與技能：

1.理解夜空光度、光污染的概念，了解導致夜空光度增大的主要原因。

2.掌握夜空光度分級的方法，并能運用器材測量夜空光度值。

3.了解背景光對天文觀測的影響，

學會設計反映此原理的科普實驗。

過程與方法：

1.開展觀星活動、光污染攝影與夜空光度測量活動，掌握天文觀測及夜空光度測量的基本方法。

2.了解策劃、組織活動的過程，學會科學研究的一般方法，實驗設計的一般結構。

情感、態度和價值觀：

1.了解城市對自然地理環境的改變，不合理的城市亮化帶來的環境問題，敢于解決問題。

2.在活動中，提升科學素養，發展科學思維、合作創新精神。

三、參與對象與活動形式

活動對象以天一天文社社員為主體，包括國際分社約40人，少年分社約40人，高中分社約70人，榮譽分社約20人。此外，還包括無錫市中小學天文聯合會（錫天聯）下屬成員學校約150人，以及其他相關單位的學生約300人。

活動主體――天一天文社社員參與了“多層次城市夜空光度測量科技教育活動”的全部項目、環節的活動，包括項目研究、實驗設計、科普觀測和攝影活動。錫天聯成員學校、無錫市少年宮等其他相關單位的學生主要參與了科普觀測和攝影活動。

四、活動的重點、難點、創新點

活動重點：搭建天文研究平臺，以光污染研究為抓手，調動學生積極性，讓更多的學生參與到天文活動中來。

活動難點：城市夜空光度測量研

究，光污染相關實驗設計。

活動創新點：由中學發起并組織

的使用國際頂尖測光儀對城市進行高覆蓋度的夜空光度測量研究，夜天光監測站點建設在世界范圍內都具有唯一性；由中學生開展科普實驗設計與教材編寫同樣具有開創性；以光污染為主題的攝影大賽在當今世界也是少見的。

五、可利用的各類科技教育資源

1.技術指導：中科院紫金山天文臺科普部、北京師范大學天文系高爽老師、國家天文臺劉博洋博士等以技術顧問的身份，參與了“城市夜空光度測量”的相關活動指導。此外，南京大學、中國科技大學、北京天文館的專家教授們也曾多次來校指導天文課程建設。

2.團隊建設：錫天聯成員學校、無錫市少年宮等作為天一天文社緊密的合作伙伴，不僅為開展與夜空光度相關的科普活動提供了場地與學生支持，而且還有一批教師參與共同開展天文教研活動，形成了教研團隊。

3.資金支持：天一中學為開展天文教育投入了大量的資金，已多批次采購天文實驗器材如望遠鏡、測光儀、相機、野營設備、圖書等，并已建設完成天文創新實驗室一間；天文創新實驗室作為學校“STS綜合創新課程基地”的重要組成部分，還得到了省市區各級教育部門的專項建設資金支持；錫天聯成員學校、無錫市少年宮等單位也配套投入了相關的天文基地建設。

六、活動內容

“多層次城市夜空光度測量科技教育活動”的全部項目、環節的活動，包括項目研究、實驗設計、觀測實踐和攝影活動等多個層次，分別由天一天文社斯科特工作室（項目辦公室）、伽利略工作室（普及委員會）、達蓋爾工作室（學術委員會）和加賀谷穰工作室（文化宣傳部）等四大工作室具體負責。表1為各工作室的智能類型列表。

（一）主題活動一：城市夜空光度測量（項目研究）

1.選題背景及意義：

無錫作為長三角地區的重要城市之一，經濟發達，城市光污染情況總體比較嚴重，但是不同區域的污染程度也存在明顯差異。夜空光度是衡量城市光污染程度的重要指標，通過使用專門的測光儀器，對無錫城區進行高覆蓋度的光度測量，從而了解無錫城區整體的污染程度，不同區域的污染水平差異，以及分析光污染產生的背景，并嘗試提出防治的建議，有利于提高公眾對光污染的認識，也能為城市管理部門在優化城市燈光設置時提供參考。

2.活動過程和步驟：

（1）編寫《無錫市夜空光度測量指導》方案。指導學生收集、整理與夜空光度測量相關的研究論文及其他材料，對“光污染”“夜空光度”等概念進行界定，并組織編寫《無錫市夜空光度測量指導》方案，就測量時間、地點、方法及報告填寫的格式予以統一規范。

（2）撰寫開題報告。指導學生撰寫《無錫城市夜空光度測量》開題報告，對研究背景、要解決的問題、選題意義及研究價值，核心概念的界定、相關現狀、參考文獻，研究目標、研究內容、研究假設，研究思路、研究計劃，預期成果等內容進行項目論證。經論證后的項目被中國教育學會地理教學專業委員會研究性學習課題專家組立項。

（3）開展測量活動。指導學生開展城市夜空光度測量活動，具體步驟有：

①儀器編號：為支持本課題組

的研究工作，學校從加拿大購置了9臺SQM測光儀，并予以編號（以分辨儀器本身存在的機械誤差）。

②路線設計：將無錫市區劃分為

不同的片區，并設計好測光的具體行

進路線和測光任務。

③實地測量：將課題組成員分成不同的小組，每組由3人組成，分別負責儀器操作、數據記錄和坐標定位，每個坐標點測5個數據，以減小誤差。

④數據處理：將測光所得的數據（經度、緯度、時間、測光值）輸入EXCEL表格，進行誤差分析，取平均值，得到各坐標點夜空光亮度的最終值。

（4）撰寫結題論文。指導學生根據開題報告中預期成果的要求對收集的數據進行不同角度的分析，并將結論撰寫成結題論文《無錫城市夜空光度測量研究》。結題論文主要結構包括：夜空光概述，測量儀器及方法，數據分析及測量結果（數據測量與分析步驟、夜空光亮度的地區分異、夜空光亮度的地區變化、夜空光亮度的地平高度及方位分異、夜空光亮度的時間變化），反思及討論等。于2015年第4期《地理教學》雜志。

3.活動效果及呈現方式：

活動進行過程中及之后，我們得到了諸多媒體的關注：指導教師受邀赴上海復旦大學為2015年第六屆全國天文社團發展論壇作了《也談高中天文社團建設》的專題報告，赴江陰為2015年第二屆無錫市高中生峰會作了《城市天文學》的專題報告。項目組還收到了國際天文學聯合會普及工作委員會及香港大學物理系的邀請函，受邀加入國際夜空光度監測網絡并赴香港大學開展項目交流與培訓。

在前期活動的基礎上，天一天文社發起成立了錫天聯、無錫城市夜空光度監測網絡兩個組織，吸引了南菁中學、青陽中學、山明中學、旺莊實驗小學等多家單位參與，將在無錫建設若干城市夜空光度監測站，并以此為抓手，開展進一步的天文教育活動。

（二）主題活動二：光學相關實驗設計（科普實驗）

1.選題背景及意義：

激發學生對科學的熱情，培養并學習掌握科學研究的方法與技能是我國進行素質教育的目的之一?？茖W研究的方法和技能至少應包括：分析和觀察周圍世界的技能，發現問題、提出問題、作出假設、安排實驗的技能，真實地記錄觀察結果與數據的技能，按照正確方法處理數據的技能。

天文因為不屬于中小學必修課程而不被大多數學生所了解，中學階段非常缺乏天文科普實驗或科技制作的教學內容，非常有必要利用天一天文社的資源優勢整理、設計一些科普天文實驗或制作，這些源自我們身邊的天文科學知識將極大地激發學生對天文的興趣，增加他們對天文的認識，促進天文知識在基礎教育階段的普及。

2.活動過程和步驟：

（1）編寫“光學相關實驗設計”模板。指導學生學習《高中物理實驗手冊》等專業書籍，在此基礎上，編寫“光污染相關實驗設計”模板：活動目標、概念與方法、材料準備、活動步驟、活動建議、活動拓展等，同時，設計一份樣稿《在微光中辨認顏色》。

（2）開展“光學相關實驗設計”。指導學生開展“光學相關實驗設計”，具體步驟有：

①創意征集：發動學生提出光學

相關實驗（及制作）設計的創意，組織人員從投稿的創意中精選可操作性較高的方案。

②方案編寫：制訂編寫計劃，并為課題組每一位學生分配編寫方案（草案），指導他們根據模板和樣稿的格式及要求進行方案編寫。

③實驗驗證：將課題組成員分成不同的小組，每組2人，以小組為單位對所編寫的方案進行實驗驗證。

（3）組織“光學相關實驗設計”比賽。面向全校師生組織開展“光學相關實驗設計”比賽，吸引對天文有興趣、樂于動手實踐的學生參加“在微光中辨認顏色”“彗星為什么長尾巴”“簡易望遠鏡制作”等比賽，并評優頒獎。

（4）舉辦“光學相關實驗設計”科普活動。面向錫天聯成員學校、無錫市少年宮及無錫地區其他中小學、幼兒園開展“光學相關實驗設計”科普活動，針對不同年齡階段的受眾舉辦光污染科普講座或科普游戲。

3.活動效果及呈現方式：

學生編寫的“光學相關實驗設計”將被編入校本教材《中小學生天文學習指南3》，這是一本專門介紹天文相關科普實驗及科技制作的教材，受眾定位為中小學天好者及天文指導教師。

上述科普實驗及科技制作被引入天文社“宇宙意識”少兒天文科普項目及“天文全球化”社區天文科普項目，作為寓教于樂的教學素材向少年兒童及社區的天好者推廣。

（三）主題活動三：星空光害旅行團（觀測實踐）

1.選題背景及意義：

對業余天好者來說，觀星是極大的樂趣所在。然而，嚴重的光污染正將燦爛的星空從我們身邊

奪走。

為便于普通學生及其他業余天好者通過對比觀測，直觀地了解無錫各地的光污染情況，我們依托天一天文社組織的“天一觀星營”項目，開展了“星空光害旅行團”活動，帶領旅行團的團員們利用晚上的時間，去往錫城不同的地點，實地觀測、考察并對比分析星星的數目，從而普及光污染的防治意識、夜空光度的概念。

2.活動過程和步驟：

（1）編寫觀測方案。指導學生編寫觀測方案，使用最常見的目視極限星等法，即通過肉眼能觀察到的最暗星等來進行估算：選擇2個或2個以上地平高度大于40°的定標天區，數出該天區內能觀察到的恒星數目，與國際流星組織提供的表格對應來確定極限星等。同時，為便于零天文基礎的團員參與，我們設計了簡易觀測法，請同學們觀測標志性星座所在天區的恒星數量，來比較不同地點的光污染程度。

（2）開展觀測實踐。帶領旅行團的團員們利用晚上的時間，去往無錫城不同的地點，實地觀測、考察并對比分析星星的數目。具體觀測過的地點有太湖廣場、馨和苑廣場、天一中學、斗山、保利廣場、崇安寺廣場、南禪寺廣場、安鎮高鐵新城、太湖十八灣等。（見圖9、圖10）

3.活動效果及呈現方式：

通過“星空光害旅行團”活動，結識了一批無錫地區的成年及未成年業余天好者。以此為抓手，天一天文社發起成立了“無錫市業余天

好者協會”QQ群。以此活動為素材撰寫的《星星都去哪兒了》發表在《天好者》雜志2016年第2期。

（四）主題活動四：光污染攝影大賽（文化藝術）

1.選題背景及意義：

為推動公眾思考光污染在無錫及其所在社區的狀況，讓公眾參與光污染活動，我們發起了“光污染攝影大賽”活動。邀請公眾使用攝影設備捕捉各種光污染的畫面，從而了解及思考無錫地區乃至全世界日益嚴重的光污染問題。比賽主題分為：光污染與生態、光污染與健康、光污染與能源、光污染的分布、光污染的來源等。評選標準主要有：攝影照片視覺美感、作品說明表達技巧、光污染意涵、手法創意等。

2.活動過程和步驟：

指導學生起草“光污染攝影大賽章程”，包括組織單位、大賽目的、比賽主題、參賽資格、參賽設備、照片格式、相關權益、比賽日程、評選規則等。

章程起草完畢后，通過錫天聯官網、錫天聯微信公眾號（AUWS2015）、無錫市業余天好者協會QQ群（91462404）、牧夫天文論壇無錫天協專版等渠道向外比賽信息。

投稿截止后，組織專家對作品進行評審，并舉辦頒獎儀式。

3.活動效果及呈現方式：

通過光污染攝影比賽，一方面間接了解了無錫地區光污染的來源、分布情況，另一方面，在公眾中對光污染進行了有效的宣傳與普及。光污染攝影作品還被制作成海報，用于專題展覽。

七、活動可能出現的問題及解決預案

1.項目研究中的技術問題：

考慮到光污染問題在大陸地區的研究仍處于起步階段，即便在世界范圍內也未引起足夠的重視，我們在開展夜空光度測量時會遇到各種各樣的技術問題。對此我們的解決方案主要是：

（1）開題報告與測量指南兩個指

導性文件必須花大力氣保證質量，保證指導性和可操作性。

（2）爭取學校在測光儀采購上的

支持，以及年級組、班主任在學生活動時間上的支持。

（3）遇到實在難以解決的技術問題，請教中科院紫金山天文臺等相關研究機構。

2.科普實驗中的素材問題：

中學生的專業知識儲備畢竟是有限的，對生活的觀察能力也仍有待提高，這直接導致了科普實驗素材的缺乏。對此我們的解決方案主要是：

（1）大量、深度閱讀中小學階段及國外的實驗手冊，學習實驗編寫的一般結構，積累與光學相關的實驗和科技制作素材。

（2）通過天文科普書籍和天文歷

史故事，尋求實驗和科技制作素材。

（3）面向全校發起光污染相關實

驗和科技制作素材的征集活動。

3.觀測實踐中的安全問題：

夜間開展天文觀測實踐活動遇到的最大挑戰是人身與財產安全問題，很多學生、家長或教師不支持天文活動也主要是對此有深深的顧慮。對此我們的解決方案主要是：

（1）與參加活動的學生簽訂合同，

并要求學校同意、學生簽字、家長簽字。

（2）統一、強制購買意外險，分擔風險。

（3）與有資質、口碑好的旅行社合作，聯系包車或食宿。

（4）對每一個觀測地點進行事先

的實地探訪，確保觀測地的安全性，遠離陡坡與水體。

4.攝影大賽中的發動問題：

攝影大賽看似簡單，就是摁一下快門的事。但真正要發動公眾參加，激發大家的熱情卻并不是一件簡單的事。對此我們的解決方案主要是：

（1）通過錫天聯成員學校的天文

指導教師，發動學生中的天好者參賽。

（2）通過官網、微信公眾號、QQ群等網絡平臺推送攝影大賽比賽通知。

（3）積極聯系贊助，為獲獎選手準備證書、獎杯及獎品。

八、效果評價標準與方式

在評價的過程中，堅持“主體多元”“方式多樣”“向度多維”等原則。

1.主體多元：

在活動過程中，要求學生首先進行自評和互評，不同組別之間也可以進行他評。這有利于加深學生對評價標準的認識與理解，可以促進學生自我反思和自我發展。教師在此基礎上，對學生自評、互評及他評進行再評價，保證了評價的指導性。

2.方式多樣：

在活動過程中，靈活運用即時評價與延時評價。即時評價有利于表揚先進，糾正缺陷；延時評價則體現了尊重、關愛與期待。此外，還將口頭評價與書面評價，一次評價與多次評價，診斷性評價、過程性評價與終結性評價等多樣化的評價方式相結合，以保護學生的積極性，強化學生的成就感。

篇6

《教育的樞紐》主要有七個主體章節，主要從公眾關注的熱點、難點問題入手，對中國高考的一系列重大事件進行解讀，并以云南省考試招生工作改革為主旨，詳細介紹了中央及云南省內教育改革和發展計劃。在個別章節，作者倡導崇尚實學、突破創新的教育風氣，主張從現代教育的本質和發展趨勢出發，提出新時期中國教育發展的新思維，建立符合中國文化特征、符合中國民眾意識、符合時代需要的中國特色社會主義現代教育制度。顯然，這也是華山先生的現代教育理想，它并非單純意義上的改革思路，而是于其中貫穿著的現代教育文化意識。在此基礎上，他列舉了大量事例，運用對比、互證等方式，總結研究出了眾多招考改革經驗和成果。

讀華山先生的《教育的樞紐》，還產生一些感慨。他說，“文章薈萃了一些實踐經驗，收藏了一些辛勤付出、聚集了一些關心呼聲，大多論述的是中國教育改革，都是以當事者的身份在解釋、評述、分析和探索教育的發展與改革，既表達了自己對中國教育改革成果的欣悅，也展開了自己對中國教育未來發展的憧憬?！泵孔x這段話，我都不禁怦然心動。這何嘗不是我們每一位關心中國教育改革和發展者的心聲呢！

推薦書目：《教育的樞紐》

作者：朱華山

出版社：云南教育出版社

篇7

一、第三方評價機構下的大學排名

對高校辦學水平、效益和質量的評估，歷來是一個難題。要搞好高校評估，一方面需要專業化的人士進行專業化評估，另一方面需要一個專業化的機構來實施。而當前我國在這方面還嚴重缺乏專業化的第三方評估機構，而且他們的重要工作還是放在大學排行榜上[3]。

1987年，中央教育科學研究所的蔣國華教授等在《科技日報》發表了中國第1個大學排行榜。1987年至今的近30年來，大學排名得到社會的高度關注，也是高教領域近年來的一個研究熱點?？傮w來看，目前國內近20個曾經進行過大學排名研究的高等教育評價機構中，有穩定的評價指標體系、能夠連續發表大學排名的評價機構只有中國管理科學研究院、網大（中國）有限公司、中國校友會網、武漢大學的中國科學評價研究中心、上海交通大學高等教育研究院世界一流大學研究中心、浙江大學教育學院、中國人民大學高等教育研究中心等7家，其中擔負著“裁判員”角色的所謂第三方高等教育評價機構，只有中國管理科學研究院、中國校友會網、網大（中國）有限公司3家。作為從理論上所謂能滿足“公正”、“公平”、“公信”的第三方教育評價機構，以上三大排名雖然產生了廣泛的社會影響，但也經常受到各方面的質疑，無論是其指標體系的選擇、權重的確定，還是其評價的原則和傾向性等，都無法滿足人們的各類需要。因此，在大數據時代，如何把握各項信息，以更客觀地對大學的基本情況進行描述，是我們在未來需要迫切解決的問題[4]。

二、三大大學排名評估體系的特色分析

（一）中國管理科學研究院的大學排名傾向于評價大學近期的數值總量

中國管理科學研究院的大學排行榜重點強調評價大學數值總量，強調外延發展和數量取勝。因此，這種大學排名對合并成功、持續擴招的大學的名次提升很有益處，變相地支持了政府的合并、擴招政策；鼓勵迎合了創辦世界一流大學、一流學科的需要，是與高教政策互相呼應的（蔡言厚，2013）。該排行榜自誕生以來，獲得了社會較大的關注，也得到了不少肯定和支持。在評價過程中，該排行榜發現目前國內所有的數據庫都不能滿足評價的需要，因此，中國管理科學研究院《中國大學評價》課題組研制出了專門用于評價大學和科研機構的科學引文數據庫（SCD），這是很有特色和優勢的一個方面[5]。

（二）中國校友會網的大學排名傾向于評價大學近期的數值質量

中國校友會網的大學評價指標體系有三個特點：一是在科學研究的三級評價指標中，不采用一般論文指標，而是采用國家級獎勵成果，特別是“國家重大獎勵成果”指標；二是在人才培養的三級評價指標中采用了“畢業生質量”這一指標；三是為了改變目前重理輕文的現象，平衡自然科學中的兩院院士，在社會科學的評價指標中引入了“中國杰出社會科學家”。該排行榜的三級指標與時俱進，凡是能夠反映高等教育質量水平的新信息都可以隨時納入三級評價指標參數中，有鮮明的時代特色。但是，該排行榜的三級指標數據受到政府信息公開程度的限制，很多好的設想由于政府信息不公開而無法實現[5，6]。

（三）網大（中國）有限公司的大學排名傾向于評價榜單前一年大學的數值均量

網大（中國）有限公司的評價思想很重要的一點是強調評價大學數值均量，鼓勵大學走內涵發展的道路。這種評價思想得到了不少沒有進行過大規模合并的高校的支持，也為廣大高考學生提供了另一個選擇大學的參考角度，使該排行榜具有相當的市場。網大排名堅持精英教育思想，在論文等評價指標上，理工學科選擇兩個國際數據庫的數據，而人文學科選擇一個國際數據庫和一個國內數據庫的數據（蔡言厚，2013）。由于國內外數據的差異，有關指標有利于以人文學科為主體的學校，不利于以理工學科為主體的學校，因此，評價的公正性受到挑戰[5]。

三、趨勢與展望

（一）相互交融，你中有我，我中有你

在我國第三方高等教育評價機構的大學排名指標體系中，2010年以前中國校友會網和網大（中國）有限公司都采用各類投入指標，相互交叉的數量較多。在產出指標中，中國管理科學研究院和網大（中國）有限公司都采用科研論文指標，反映學生變化的產出指標僅在中國校友會網的“中國大學排行榜”中出現。從2010年起，中??管理科學研究院開始使用投入指標，引入全國百篇博士學位優秀論文、各類國際性全國性競賽獲獎數等。中國校友會網從2008年開始，為了平衡以工學為主的學校與以理學為主學校的評價指標，增加《自然》、《科學》等頂級論文指標，在不久的將來可能增加ESI的論文指標。這些都是三個大學排名評價指標相互交融、你中有我、我中有你的體現[5]。

（二）多樣性發展，既排綜合，也列單項

第三方高等教育評估機構的評價內容，正在從綜合排名向學科門類、學科、專業和核心競爭力單項指標排名發展。比如，中國管理科學研究院的學科、專業排名，中國校友會網的高校杰出校友排行榜和高?？茖W貢獻力排行榜，網大（中國）有限公司的錄取新生質量排名。中國管理科學研究院和中國校友會網對高等教育的評價內容和評價產品是與時俱進的，而網大（中國）有限公司的評價內容和評價產品基本是不變的。這種變與不變各有利弊。評價內容和評價產品與時俱進的好處是使評價更符合實際和有利于大學的特色發展，但一所大學在排行榜中名次升降的真實原因不容易辨別；而評價內容和評價產品不變，則容易搞清一所大學在排行榜中名次升降的真實原因，但評價很難符合實際，不利于一所大學的特色發展[5]。

（三）各有特色，與時俱進，突出重點方向

中國管理科學研究院綜合排名的特點是以數量取勝，其實質是畢業生和論文排名，而國內論文是靠自己研制的數據庫。因此，中國管理科學研究院評價的最佳前景是學科、專業的評價。而中國校友會網由于其指導思想的開放性，指標體系彈性很大，這種評價是動態的，是與時俱進的，是能夠客觀反映一個大學發展狀況的，特別是中國校友會網的杰出校友榜和科學貢獻力榜是有生命力的。這兩個排行榜無論是為國家進行教育資源配置，還是為大、中學生選擇專業、報考大學，亦或是為各個學校選擇發展特色方向，都可以提供依據[5]。對于網大（中國）有限公司來講，由于其指導思想是“拿來主義”，其評價指標體系的模式完全是按照《美國新聞與世界報道》的評價指標體系來設計的，忽視中國的國情，而且由于其評價指標體系從2000年起基本不變，在實施過程中，聲譽調查樣本太少，信譽度不高，因而，網大排名將會遇到不少挑戰，其重點會在錄取新生質量排名、有關內涵發展指標排名上具有發展前景（蔡言厚，2013）。

篇8

當前大部分測驗只能提供單一的測驗總分或能力值，但是具有相同分數或能力值學生的認知結構（或稱知識狀態）可能不同，因此，對他們采取的教學補救措施是不一樣的。由此產生了一個很重要的問題：如何才能精確地測量出學生的知識狀態呢？認知診斷理論能夠回答該問題。

一、認知診斷的發展

理論和實際需求推動了認知診斷的快速發展。理論上，認知診斷的計量模型可以提供一個有效機制來驗證認知理論；實踐中，美國政府于2001年提出的《不讓一個孩子掉隊》的法案更是促進了認知診斷的蓬勃發展。其實早在20世紀80年代，就已經有眾多學者開始注重認知科學和心理測量學的結合對教育領域的指導作用。Glaser曾批判傳統的教育測驗缺乏對被測心理特征的關注[1]，Snow和Lohman在其編寫的《認知心理學對教育測量的影響》中曾預測，教育測驗可能會要求提供更多的學習診斷及教學指導信息。Nichols首次將認知科學和心理測量學的結合稱作認知診斷評估，并在1995年出版專著《認知診斷評估》，從而使得該名稱沿用至今[2]。Stout認為在21世紀，認知診斷將會成為新的測驗范式[3]，并得到廣泛的研究。許多認知診斷研究者先后出版專著，從各個角度詳細地介紹了認知診斷理論及其應用，其中包括：Leighton和Gierl在2007年出版的《教育認知診斷評估：理論及應用》[4]，Tatsuoka于2009年出版的《認知評估：規則空間簡介》[5]，以及Rupp等人于2010年出版的《診斷測量：理論，方法及應用》[6]。

近幾年國際和國內更是掀起了認知診斷的研究熱潮。2012年9月在南昌舉辦的第十屆海峽兩岸心理與教育測驗學術研討會出版了專著《認知診斷理論、方法與應用》，對國內的認知診斷研究起到了極大的推動作用。作者僅在CNKI輸入“認知診斷”關鍵詞查詢所有期刊后，就得到了23835條結果，而且呈逐年遞增趨勢，可以看出認知診斷研究正在蓬勃發展。

二、認知診斷的相關理論

認知診斷理論主要包含Q矩陣理論及認知診斷模型（CDM）兩部分，下面分別對這兩部分進行介紹。

（一）Q矩陣理論

Q矩陣理論的先驅是Tatsuoka教授，她認為Q矩陣理論欲確定學生不可直接觀察的知識狀態，并且運用可以直接得到的觀察反應模式（ORP）表示這些知識狀態[7]。學生的知識狀態由屬性向量表征，“屬性”表示測驗項目的特征，是學生正確解決特定項目所需要的認知加工能力和技能[8]。一個完整的Q矩陣理論包含：屬性層級結構（AHS）、鄰接矩陣（A）、可達矩陣（R）、縮減矩陣（Qr）、學生Q矩陣（Qs）、測驗Q矩陣（Qt）及期望反應模式（ERP）[9]。下面用一個具體例子對Q矩陣理論進行詳細闡述。圖1為假定的關于某份認知診斷測驗的屬性層級結構。

如圖1所示，該份測驗界定的6個屬性之間存在層級關系。例如，屬性1是屬性2和4的先決條件，即掌握屬性2之前必須首先掌握屬性1。這種層級關系是必要的，比如掌握乘法之前，必須先掌握加法。根據圖1所示結構，可以得到鄰接矩陣A陣，它是描述屬性間直接關系的矩陣，圖1的A陣如表1左側所示。由A與同階單位陣I的和A+I，通過Warshall算法可得到可達矩陣R陣，它是描述屬性間直接、間接以及和自身關系的矩陣，如表1所示。

注：A1-A6表示圖1中的6個屬性，“1”表示存在關系，“0”表示不存在關系

在得到R陣之后，可以通過刪除法[7]或擴張算法[10]導出所有可能存在的項目類別，即在圖1所示的屬性層級結構之下，一份測驗能夠編制出來的題目類型，記作縮減矩陣Qr陣，行代表屬性，列代表項目類。在圖1所示的層級結構下，最多只能出15種類型的題目，如表2所示。

將Qr矩陣轉置并加上一列全0向量（代表該學生一個屬性都未掌握）即可得到圖1下所有可能的知識狀態的集合，共有16種知識狀態。

測驗Q矩陣，即Qt矩陣是由Qr陣的列自由組合得到，但有一點十分關鍵，即自由組合中必須包含R陣，這樣才能使學生的知識狀態與期望反應模式一一對應[11]，換句話說，Qt矩陣中必須包含R陣，才能保證對學生知識狀態評估的精確性。

期望反應模式指學生在不存在任何失誤和猜測的情況下對題目的作答反應模式，即學生掌握了題目考察的屬性就能答對該題，只要有一個屬性未掌握就答不對該題。但現實中，學生在作答時或多或少都會存在一些失誤或猜測，因此，期望反應模式是一種理想化的反應模式。

對上述概念進行串聯之后，我們可以通過圖2來理解Q矩陣理論：

（二）認知診斷模型

測驗施測后，只能得到學生的作答數據，要想得到學生的知識狀態，就需要使用認知診斷模型進行估計。目前開發出來的認知診斷模型已達100多種[12]。下面僅簡單介紹幾個比較常用的認知診斷模型。

1.線型邏輯斯蒂克特質模型（LLTM）

Fischer提出的LLTM模型是認知診斷模型的雛形[13]，它是在Rasch模型的基礎上改造而成的，其模型為：

，其中θi是學生的能力參數，bj是題目的難度參數，qjk是屬性k在題目 j上的復雜度計分， K為測量到的屬性個數，ηk是屬性k的復雜度權重，d是標準化常數。LLTM用屬性復雜度的線性組合表征題目難度，屬性對題目的貢獻越大，則題目的難度也越大。

2.規則空間模型（RSM）

Tatsuoka提出的規則空間模型是一種基于模式識別和分類技術的診斷方法。該方法首先基于Q矩陣理論，分析出測驗考察的所有認知屬性以及每道題目考察了這些認知屬性中的哪些，同時還能確定學生所有可能的知識狀態種類。RSM認為學生的作答還會出現失誤和猜測兩種意外情況，這時學生的ORP會與其ERP不符，那么該如何基于ORP估計出學生的知識狀態呢？RSM根據項目反應模型計算出一組序偶R（θ，ζ），它在規則空間中是一個坐標點，稱為純規則點。θ是學生的能力參數，ζ是基于項目反應理論的一個警戒指標，表示能力為θ的學生其實際作答反應模式偏離其真實能力水平相對應的項目反應模式的程度?；贠RP，可以計算出每個學生的序偶，然后使用貝葉斯判別或馬氏距離判別可將學生判歸為某個純規則點，這個純規則點即代表了相應的知識狀態。

3.屬性層級模型（AHM）

AHM是在RSM的基礎上發展起來的，該模型同樣采用了RSM模型的Q矩陣理論，但有兩點不同之處。第一，AHM強調首先要界定好屬性及其層級結構，據此來編制診斷測驗，RSM是在現有測驗的基礎之上，反推屬性及其層級結構。第二，AHM根據最大相似概率對學生進行判別，RSM通過建立規則空間，使用距離判別法對學生進行判別。Leighton等提出了兩種基于項目反應理論和概率論的分類方法：A方法和B方法。

方法A：

，其中

sj（01）表示學生i的期望反應為0，但觀察反應為1的所有題目的集合；sj（10）表示學生i的期望反應為1，但觀察反應為0的所有題目的集合。P（θi）為學生i的正確作答概率，由項目反應模型估計得到。

方法B：

。該方法與A方法的區別在于，B方法認為擁有某個觀察反應模式的學生，掌握了所有邏輯包含在其中的期望反應模式的屬性組合，對于那些邏輯不包含的期望反應模式，只需考慮失誤而不需考慮猜測[14]。

4.確定性輸入，噪音“與”門模型（DINA）

DINA模型是具有顯式項目特征函數的診斷模型[15]，其數學表達式為：

，其中

是潛在反應指標，具體含義是指，若學生i掌握了項目j所考察的全部屬性，則ηj=1，否則，ηj=0。從中可以看出，DINA模型能將學生分為兩類，一類是掌握了題目考察的全部屬性，一類是至少有一個題目考察的屬性未掌握。αik 指學生i是否掌握了第k個屬性（k=1，2，…，K）， αik =1表示掌握，αik =0表示未掌握。qjk表示項目j是否考察了屬性k，若qjk=1表示考察了，qjk=0表示未考察。sj是題目的失誤參數，它表示學生 i 掌握了題目 j 考察的全部屬性，反而答錯的概率；gj是題目的猜測參數，它表示學生 i 未全部掌握題目 j 考察的屬性，反而答對的概率。一個質量較好的題目，應該具有較小的 sj 和 gj 參數，并且要滿足1-sj>gj[16]。

5.融合模型（FM）

FM被認為是一個很成功的認知診斷模型[17]，其數學表達式為：

。

其中

，表示掌握題目j考察的全部屬性的學生的正確作答概率，也稱作題目的難度參數，其值越大，題目難度越小。

表示學生未掌握屬性k所帶來的懲罰，每少掌握一個題目j考察的屬性，正答概率就會下降。r*ik也稱作屬性區分度，其值越小表明屬性越重要。cj 表示學生答對項目 j 所需殘余能力的程度，它是表征 Q 矩陣完整性的指標，cj值越大說明 Q 矩陣界定越完備[18]。

三、認知診斷測驗編制方法

認知診斷測驗與傳統測驗的主要區別在于：（1）認知診斷測驗的目的是偵查出學生的知識漏洞，進而采取針對性的補救措施，促進個體的認知發展；而傳統測驗意在對學生進行整體評價或篩選，較少關注個體的認知結構。（2）認知診斷測驗需要由認知心理學和心理測量學專家事先界定出完成測驗任務所需的認知屬性，以及它們之間的層級結構，然后根據Q矩陣理論編制測驗；傳統測驗一般是根據雙向細目表來編制測驗，無法偵查出學生在認知結構和認知加工過程方面的情況。（3）在編制認知診斷測驗時，不僅要滿足測驗考察的內容、題型、難度、區分度等標準，同時還要兼顧可達矩陣、每個屬性的考察次數以及每道題目所考察的屬性個數等因素。（4）傳統測驗追求的是總分分布形態盡量呈正態分布，分數之間的變異性越大越好[19]，認知診斷測驗對總分形態沒有要求。

基于以上區別，認知診斷測驗的編制方法與傳統測驗大不相同。國外學者從不同方面對其編制方法進行了研究[20]，包括：認知設計系統[21]、證據中心設計[22]及基于KL信息量的認知診斷測驗編制法[23]。在綜合了前人研究的基礎上，我們認為編制一份優良的認知診斷測驗應該包含以下步驟：

1.確定認知診斷評估的目標和群體；

2.根據目標，由專家界定出完成測驗任務所需的認知屬性，以及它們之間的層級結構；

3.根據屬性層級結構，利用Q矩陣理論建立一系列矩陣，其中測驗矩陣Qt陣十分重要，是認知診斷的測驗藍圖[9]；

4.根據Qt矩陣編制認知診斷題目；

5.選擇合適的認知診斷模型對題目參數和學生的知識狀態進行評估；

6.對題目質量進行分析，例如，題目參數是否合理，Q矩陣質量是否合格，界定是否完備；

7.根據第6步的結果對題目進行修訂或增刪，以及對Q矩陣進行重新標定，之后重復2-7步驟，直到所有的題目均達到理想標準；

8.測驗組卷。

四、認知診斷測驗的效度檢驗

效度檢驗不應該僅局限于對測驗本身是否達到預期測量目標的范圍（內容/結構效度），還應該包括補救和指導效果的考察（校標效度）[24]。關于效度檢驗，目前有以下兩派觀點。

（一）Messick框架

Messick提出的效度檢驗框架[25]，關注的是由認知診斷設計帶來的正向或負向結果，它強調認知診斷設計與補救之間的聯系。Messick區分了認知診斷結構效度的7個方面：（1）內容是否體現了認知診斷的目標領域；（2）學生是否運用了相應的認知加工過程去完成測驗任務；（3）評分是否反映了學生能力與目標領域的交互作用；（4）認知診斷得到的結果是否能預測期望的結果；（5）認知診斷測驗的結果是否公平可信；（6）認知診斷測驗是否有較好的聚合效度和區分效度；（7）測驗結果的外推性如何，例如是否能夠推廣到不同時間、地點以及實測環境。

（二）荷蘭學者框架

Borsboom及其同事提出了認知診斷效度檢驗的三個主要概念[26]。（1）測量概念：認知診斷評估需要關注的是那些可以被量化的研究側面，其中包括測量到的內容與想要測量內容的一致性、在不同情況下測量到的結果是否具有不變性，以及測量到的結果是否準確。（2）決策概念：能夠用心理測量方法進行量化研究，包括額外評估，以及根據經驗與診斷評估分數相關聯的其他標準。強調對一個較穩定特質的測量結果是否能準確預測未來，是否采用了最佳的測量方案等。（3）影響概念：量化基于診斷評估所進行的決策評價，不能直接追溯到診斷評價的心理測量性質本身，而應該根據測量結果的變異性來考察效度。該概念包括測量的結果是否可以被接受，對不同人群測量是否公平等。

以上兩派觀點均是從理論出發，探討在認知診斷中該如何對效度進行檢驗，以及應該關注的方面。實踐中，一些學者采取具體措施對效度問題進行了檢驗。Tatsuoka和Tatsuoka將補救措施作為實證效度的證據[27]，他們對學生進行前測后，根據診斷結果對學生實施了針對性的補救措施，然后在實施后測之后發現，93%的學生有了進步，7%的學生發生了退步；Jang在對二語閱讀理解進行診斷后將結果反饋給教師和學生發現，所有的教師認為診斷信息十分有效，能夠使學生了解未掌握的屬性有哪些，并有效指導教師教學，有39%的學生經常使用反饋的診斷信息來指導自己學習，50%的學生偶爾使用反饋信息[28]。Embretson和Yang還提出建立項目難度對認知屬性的回歸檢驗，來測量認知屬性對題目難度的解釋量，以此來驗證Q矩陣的內部效度[29]。

五、認知診斷在實踐中的應用

認知診斷在實踐中得到了廣泛的運用，概括起來，主要包含兩個領域：教育領域和臨床診斷領域。其中第一個領域的研究頗豐。

（一）認知診斷在教育領域的應用

在數學學科方面，余嘉元運用RSM對江蘇省中學生解不等式題進行了診斷研究，這是RSM在國內的首次應用[30]。范士青用RSM，采用任務分析的方法歸納出加減法運算的屬性及其層級結構，以此編制測驗，調查了268名小學二、三年級學生對整數減法計算的掌握情況，研究發現，有87%的學生被成功劃歸到18個理想反應模式中[31]。

在語言研究方面，Hartz等人運用融合模型對小學三年級學生的閱讀評估測驗及PSAT測驗進行了研究[32]；劉慧以現代漢語普通話六個基本顏色詞為對象，運用RSM對漢語非母語者對這些顏色詞的認知模式作出判別，并對他們的掌握情況作出診斷性描述，這是RSM在漢語語言測試中的首次應用[33]。王靜用RSM對857名被試進行了C.TEST閱讀理解測驗的診斷性評價研究，將90.57%的被試成功地劃歸到50個理想反應模式中[34]；趙雪晶用RSM對289名以漢語為第二語言學習者進行了量詞掌握模式的診斷研究，有95.16%的被試得到了成功歸類[35]；蔡艷、丁樹良和涂冬波根據高考英語數據，采用AHM方法對82000名考生作了認知診斷分析，探明了目前高中生在英語閱讀問題解決的認知特征及存在的問題，為教學指導及評估提供了豐富信息[36]。

在認知能力測驗方面，康春花和戴海琦用LLTM對空間折疊能力（心理旋轉）進行了實證研究，取得了良好的效果[37]。戴海琦和劉聲濤還用LLTM對影響瑞文測驗項目認知難度因素進行了實證研究[38]。余嘉元用RSM編制了40道題目，對南京市中學生進行測量，發現其中有318人存在不同程度的認知缺陷，他們能夠被劃歸到16種不同的理想反應模式中[39]。趙頂位將AHM運用于三段論推理測驗編制及個體知識狀態的判別中[40]。趙頂位和戴海琦用高階DINA模型對江西省三所中小學4-8年級學生的幾何類比推理問題解決能力進行了診斷評估，探明了目前學生在解決幾何類比推理問題中所存在的問題，進而為提出針對性的補救措施提供依據，使學生能夠更好地掌握知識[41]。

在其他學科中的應用方面，劉啟亮用RSM作了初中化學認知診斷的研究，將91.46%的被試判歸為21種理想屬性反應模式，然后就根據診斷結果該如何進行補救進行了相關探討，從班級和個體兩個層面從理論上提出了一些補救方案[42]。黎嬌以歐姆定律學習為例，運用RSM進行了中學物理教學評價中的實證研究[43]。徐光建用高階DINA模型編制了高一物理認知診斷測驗[44]。

（二）認知診斷在臨床診斷領域的應用

Templin等人運用DINO模型對593名被試在病理性賭博方面進行了臨床診斷研究，按照《精神障礙診斷與統計手冊》（DSM-IV-TR）給出的10條標準，估計出了每個被試在各條標準上的“掌握程度”，從而判斷該被試是否存在病理性賭博傾向[16]。

此外，Reif等人認為以往人格問卷的編制缺乏直觀性，并且題目的難度均是由實證研究所決定。為了增加問卷題目的結構效度，他們使用LLTM編制了人格問卷[45]。

六、結語

未來認知診斷的發展不僅需要關注對測量模型的研究，更需要加強理論建設（Q矩陣理論），只有兩者齊頭并進，才能更好地壯大認知診斷理論。正如Leighton等人曾說：“認知診斷評價還處于嬰兒期，但它的起源是非常牢固的。”[5]最后，希望更多的心理學工作者能夠加入到認知診斷研究中，共同推進該測量理論的發展。

參考文獻：

[1]Glaser， R.， The future of testing： A research agenda for cognitive psychology and psychometrics[J]. American Psychologist， 1981， 36（9）： 923.

[2] Nichols， P.D.， A framework for developing cognitively diagnostic assessments[J]. Review of Educational Research， 1994， 64（4）： 575-603.

[3] Stout， W.， Psychometrics： From practice to theory and back[J]. Psychometrika， 2002， 67（4）： 485-518.

[4] Leighton， J. and M. Gierl， Cognitive diagnostic assessment for education： Theory and applications[M]. Cambridge University Press， 2007.

[5] Tatsuoka， K.K.， Cognitive assessment： An introduction to the rule space method[M]. Routledge New York， NY，2009.

[6]Rupp， A.， J. Templin， and R. Henson， Diagnostic measurement： Theory， methods， and applications[M]. Guilford Press， 2010.

[7]Tatsuoka， K.K.， Architecture of knowledge structures and cognitive diagnosis： A statistical pattern recognition and classification approach[J]. Erlbaum： Hillsdale， 1995： 327-359.

[8]丁樹良，王文義，羅芬. 認知診斷中Q矩陣和Q矩陣理論[J].江西師范大學學報：自然科學版， 2012， 36（5）： 441-445.

[9]丁樹良，汪文義，楊淑群. 認知診斷測驗藍圖的設計[J].心理科學， 2011，34（2）： 258-265.

[10]楊淑群，蔡聲鎮，丁樹良，林海菁，丁秋林. 求解簡化Q矩陣的擴張算法[J].蘭州大學學報：自然科學版， 2008，44（3）： 87-91.

[11]丁樹良，楊淑群，汪文義. 可達矩陣在認知診斷測驗編制中的重要作用.江西師范大學學報：自然科學版， 2010，34（5）： 490-494.

[12]辛濤，樂美玲，張佳慧. 教育測量理論新進展及發展趨勢[J].中國考試， 2012， 5： 002.

[13] Fischer， G.H.， The linear logistic test model as an instrument in educational research[J]. Acta psychologica， 1973，37（6）： 359-374.

[14]韓裕，張敏強. AHM分類方法的改良[J].華南師范大學學報（自然科學版）， 2012.

[15]Junker， B.W. and K. Sijtsma， Cognitive assessment models with few assumptions， and connections with nonparametric item response theory[J]. Applied Psychological Measurement， 2001， 25（3）： 258-272.

[16] Templin， J.L. and R.A. Henson， Measurement of psychological disorders using cognitive diagnosis models[J]. Psychological Methods， 2006， 11（3）： 287.

[17]涂冬波，蔡艷，戴海琦，漆書青. 現代測量理論下四大認知診斷模型述評[J].心理學探新， 2008. 28（2）： 64-68.

[18] Hartz， S.M.， A Bayesian framework for the unified model for assessing cognitive abilities： Blending theory with practicality[D]. Unpublished doctoral dissertation， University of Illinois at Urbana-Champaign， Urbana-Champaign， IL.， 2002.

[19]漆書青，戴海崎，丁樹良，現代教育與心理測量學原理[M].北京：高等教育出版社. 2002.

[20]蔡艷，涂冬波，丁樹良，認知診斷測驗編制的理論及方法[J].考試研究， 2010（003）： 79-92.

[21] Embretson， S.E.， A cognitive design system approach to generating valid tests： Application to abstract reasoning[J]. Psychological Methods， 1998， 3（3）： 380-396.

[22] Mislevy， R.J.， L.S. Steinberg， and R.G. Almond， On the role of task model variables in assessment design. In Siring & P. Kyullonene （ Eds. ）， Generating items for cognitive tests： Theory and practice[M]. Hillsdale， NJ： Erlbaum， 2003.

[23] Henson， R. and J. Douglas， Test construction for cognitive diagnosis[J]. Applied Psychological Measurement， 2005， 29（4）： 262-277.

[24]王卓然，郭磊，邊玉芳，從與標準測驗理論差異談認知診斷的特征[J].考試研究， 2012， 32（3）： 10-20.

[25]Messick， S.. Validity. In R. Linn （Ed.）， Educational measurement （ 3rd ed.， pp. 13-103） [M].NewYork： Macmillan，1989.

[26]Borsboom， D.， &Mellenbergh， G. J..Testvalidity in cognitive assessment.In J. P. Leighton&M. J. Gierl （Eds.）. Cognitive diagnostic assessment for education：Theory andapplication（pp. 85-118） [M]. Cambridge， UK：Cambridge University Press，2007.

[27] Tatsuoka， K.K. and M.M. Tatsuoka， Computerized cognitive diagnostic adaptive testing： effect on remedial instruction as empirical validation[J]. Journal of Educational Measurement， 1997，34（1）： 3-20.

[28] Jang， E.E.， Cognitive diagnostic assessment of L2 reading comprehension ability： Validity arguments for Fusion Model application to LanguEdge assessment[J]. Language Testing， 2009，26（1）： 31-73.

[29]Embretson， S.E.， & Yang， X.. Construct validity and cognitive diagnostic assessment.In J. P. Leighton.， & M. Gierl （Eds.）， Cognitive Diagnostic Assessment for Education[M]. New York： Cambridge University Press，2007.

[30]余嘉元. 運用規則空間模型識別解題中的認知錯誤[J].心理學報， 1995，27（2）： 196-203

[31]范士青. 小學生加減法計算錯誤的分類與認知分析[D]，華中師范大學碩士學位論文，2008.

[32]Hartz， S.， L. Roussos， and W. Stout， Skills diagnosis： Theory and practice[J]. User Manual for Arpeggio software. ETS， 2002.

[33]劉慧.規則空間模型在留學生漢語顏色詞掌握模式診斷中的應用[D]，北京語言大學碩士學位論文，2006.

[34]王靜.C. TEST 閱讀理解測驗的診斷性評價研究[D]，北京語言大學碩士學位論文，2008.

[35]趙雪晶. 漢語作為第二語言學習者量詞掌握模式診斷研究[D]，北京語言大學碩士學位論文，2009.

[36]蔡艷，丁樹良，涂冬波。英語閱讀問題解決的認知診斷[J].心理科學， 2011，34（2）： 272-277.

[37]康春，戴海崎. 采用LLTM作測量與認知結合研究的初步探討[J].心理科學， 2001，24（5）： 569-572.

[38]戴海崎，劉聲濤. 瑞文測驗項目認知難度因素分析及LLTM擬合驗證[J].心理與行為研究， 2004，2（2）： 411-414.

[39]余嘉元. 關于新課程改革中的診斷性測驗研究[J].教育探索， 2006. 5： 24-25.

[40]趙頂位. 屬性層次方法下的三段論推理測驗制及個體屬性掌握模式的判別[D]，江西師范大學碩士學位論文，2007.

[41]趙頂位，戴海琦. 基于認知設計系統的幾何類比推理測驗的編制及認知模型分析[J].心理學探新， 2011，31（3）： 278-283.

[42]劉啟亮. 規則空間模型在初中生化學知識學習診斷與補救中的應用研究[D]，江西師范大學碩士學位論文，2008.

篇9

軍事機器人論文參考文獻：

[1] 李建祥.機器人教育的感受和認識[J].中國科教創新導刊，2012（9）.

[2] 周俊波.機器人教學與大學生創新教育[J].中國科教創新導刊，2013（31）.

[3] 曹宇.獨立學院為培養學生的創新能力搭建特色平臺——以大學生機器人競賽[J].文教資料，2010（16）.

[4]阮曉鋼等著.兩輪自平衡機器人的研究與設計[M].北京：科學出版社，2012(2).

[5]曹其新，張蕾編著.輪式自主移動機器人[M].上海：上海交通大學出版社，2012.

[6]楊林權主編.機器人足球競賽與設計技術[M].武漢：華中科技大學出版社，2009(10).

軍事機器人論文參考文獻：

[1] 趙明仁.促進學生發展的課堂教學評價[J].教學理論與實踐，2001（10）：25-26.

[2] 董海真.淺談中職計算機教學中如何實施創新教育[J].電腦知識與技術，2010（09）：40-45.

[3] 李莉.巧用語言藝術，活躍教學氛圍——計算機教學中教師口頭用語藝術[J].考試周刊，2012（89）：46-47.

[4] 駱巍.開源平臺在中小學機器人教學中的應用—基于Arduino的機器人學習平臺建構與實踐[J].中國信息技術教育，2012（9）：48-49.

[5] 趙中建.為了創新而教育[N].中國教育報，2012-6-15.

[6] 李俊港.關于中小學機器人教育的思考與分析[J].求知導刊，2016（45）：53.

軍事機器人論文參考文獻：

[1] 朱敏，高弘博，肖震，等.WSN中一種基于虛擬錨節點的VA-RSSI定位算法[J].四川大學學報：工程科學版，2013（11）：110-114.

[2] 石為人，熊志廣，許磊.一種用于室內人員定位的RSSI定位算法[J].計算機工程與應用，2010（17）：232-235.

篇10

高等職業教育是高等教育的重要組成部分，其教學過程和培養目標有三個顯著特點：一是注重崗位能力培養，根據“按需施教、學以致用”的原則，組織課程教學和實習實訓；二是強調課程體系的針對性，課程設置不是從學科出發，而是從職業崗位需要出發；三是突出實踐環節教學，主動適應地方社會經濟建設發展要求。因此，要對整個教學過程進行全面、系統、公正地評價，就要從考試內容、形式、成績構成等方面進行系統規劃與分析，力求探索出相對完整、切實可行的能充分發揮考試功能和實現高職教育教學目的的考試方法和手段，從而實現高職教育教學目的。

高職院校工程測量技術專業專業課程主要包括《地形測量》、《控制測量》、《工程測量》、《GPS測量技術》、《數字測圖》、《測量平差》、《攝影測量》等，各專業課程的考試均應具有顯示功能、反饋功能和導向功能，因此要結合現有工程測量技術專業專業課程考試存在的弊端，構建新的考試機制，同時促進數字化校園的建設?，F有的考試模式存在著很多問題，如形式單一、考試目標的模糊等情況，造成學生創造力的抵制，綜合能力的下降，具體分析主要包括是以下幾個方面的問題：

1、考試目標僵化。考試是一個學習過程，這應該是一個考試的主題教育管理論文，其目的是促進學生更好、更全面、更深入學習的手段，是為了對所學知識的一種提升，為今后的運用打下堅實基礎，從而拓寬思路，成為創新人才的起步。而現在考試形式促使學生考試目標僵化，態度不明確，認為考試是學習的終結者。

2、考試方式過于單一。目前高職院校大部分學科考試主要是是采取終結式考核, 即教師出各種題型的試題，學生在規定時間內閉卷筆試，教師按標準答案進行閱卷，給出學生的期末考試成績，結合學生平時成績，做出學生該門課程的期末總評成績。考試的單一性，使學生學習一門課程之前便習慣性產生為了考試而學習的慣性思維。不光答題紙張耗材，教師閱卷、試卷回收也耗時。

3、考試內容主觀性過強。目前考試內容大多由任課教師或專業教師自主出題，自主閱卷。老師出卷自由度小，試卷質量低。多數老師在出卷時都只會側重大綱中的重難點，而忽略或者說是無法把各科知識進行鏈接，也無法區別對待，從而測試出個體真實的成績論文服務。導致學生為考試而學，教師為考試而教。教師在授課過程中注重強調考試內容，便會導致理論知識的傳授過于傾斜。試題內容的泄露，批改閱卷過程中存在的主觀判錯、計算錯誤等現象都會促使最后結果失去客觀真實性、公平性。不能客觀、真實地反映出學生的能力水平，同時又有測試內容不全面的因素，因此考試形式的改革和創新是迫在眉捷事宜，只有改革考試模式才能夠真正激發學生的創新意識，培養其創新能力。

4、考試評價方法片面。目前期末總評成績中，期末考試成績是主要的決定因素，而期末考試往往是書面閉卷形式，這就給學生造成了很大壓力和僥幸心理，有的同學在考前搞題海戰術，有的同學把“投機取巧”的功夫用在考場上，同時也不利于學生創造性和主動性的發揮，阻礙了創新思維的培養與發展。為培養學生學習的自主性、自覺性和創造性，促使學生充分利用平時時間努力學習，就必須對傳統的考試模式進行改革，建立一個真正全面、客觀、合理的課程考核體系。

5、考試反饋機制缺乏。由于考試是期末一次性終結考試，學生考試結束，就意味著本門課程學習的終結?？荚囍写嬖诘膯栴}，教師不能與學生進行及時的反饋與交流。這樣的考試模式有可能將學生引向一種僵化、死板的學習軌道。

這些弊端的出現都會降低學生學習的積極性、自主性、創新性以及個體綜合素質的全面發展，同時還導致高職教育教學目的失去重心。

現代科技的發展教育管理論文，信息技術廣泛應用，計算機已滲透到各行各業。其中，憑借計算機的考試系統以方便快捷等優點得到了充分的肯定。駕駛理論考試就是運用計算機考試的一個實際應用，它實現了理論考試的無紙化，以往出題、印試卷、批改試卷等繁瑣的工作也隨之被計算機所替代。考試是教學過程中的重要環節，它擔負著因材施教、選拔人才、評價教學等眾多功能。隨著時代變遷，這種計算機無紙化考試系統由于安全性高、便于組卷和評閱、資源消耗低、自動化程度高、可以實現遠程考試等特點，在學歷考試、各種職稱考試、證書考試中已被廣泛使用。

工程測量技術專業專業課程考試模式改革應首先通過對專業考試現狀的分析，收集資料建設試題庫，同時與計算機編程技術人員合作構建考試模擬系統。因此，核心內容便是依托建立的考試模擬系統，其原理應同駕校理論考試一致，可以隨機抽取題庫試題組卷、計算機智能閱卷評分和試卷分析等功能于一身，更能體現客觀、公平、公正的考試特點，且不受時間和空間的限制，隨時隨地進行測試更適合信息時代的考試要求，也切合了高校數字校園的建設。采用此考試模式，不僅使得教學管理部門不再面臨人工印刷試卷的艱巨任務，也讓教師從此告別了出題、組卷、人工閱卷、評分、試卷分析、登記分數等繁瑣的工作，節省大量的人力物力，因此考試模擬系統代替傳統的考試已經成為必然趨勢。以下從多方面對其特點進行分析探討：

1、隨機抽題功能，降低了考生作弊的可能性，達到公平、公正性。支持隨機組合卷，可以從指定的若干試卷中按要求隨機抽取考題進行考試，或從試題庫中隨機抽題供考生作答，保證每個考生的試卷都不一樣。用于考生平時自測也十分方便。由于試題是隨機抽取的，所以考生試卷的試題順序是不同的，這極大降低了考生作弊的可能性，有效防止相互抄襲行為，也確保了考試的公平性。

2、題型可以豐富，自主選擇性強。教師可以在選擇單選、多選、簡答等題型的基礎上，如條件充裕，可以設計新增判斷題、不定項選擇題、填空題、計算題、識圖題、簡答題等題型。

3、考試過程自動控制，在規定的時間內自動交卷、評分。整個考試過程由系統自動計時，時間到系統將自動提交試卷，避免了傳統考試中考試結束時，考生還不愿意停筆交卷的拖延現象論文服務。

4、成績分析功能，有效幫助教師了解教學情況?？忌峤辉嚲砗螅到y將立刻對試卷進行自動評分，生成成績通知單。最終將整個班級學生的成績匯總教育管理論文，并按分數段排列，形成分析報告。真正實現考生考完即刻知道考試成績的愿望，也體現出考試高效、快捷的特點。

5、可支持試題庫管理，方便錄入、導出試題，也可以在網上共享題庫資源。該系統可擁有簡單快捷的試題錄入模式，方便對試題庫的管理。試卷可以直接導出到WORD文檔或打印出來?？梢园阉性囶}保存到數據庫，通過互聯網方便地進行模擬考試，也允許設置為練習模式，讓學生考試過程自行判題。

6、考試模擬系統擴展性強。其可以根據自己需求，在計算機技術基礎上增加各種功能。如新增考生身份檢查功能：對考生重考、二次登陸和考后查卷時進行身份檢查，只有班級、考號、姓名和第一次考試輸入的信息一致方允許登錄，防止考生身份信息輸入出錯的情況。

7、界面可設計人性化，操作簡便。在實際使用中，從每一位學生到教師，在操作方面都沒有障礙，界面人性化，方便可行。

相關范文

投稿策略

教育測量與評價論文模板(10篇)

篇1

篇2

篇3

篇4

篇5

篇6

篇7

篇8

篇9

篇10

美育教育中設計教育培養創造性思維

蘇州教育之垃圾分類教育

幼兒教育中國際雙語教育現狀調查

江西教育

教育導刊

教育探究

紡織教育