人工智能評判學生作文可靠嗎

欄目: 人工智能 / 發佈於: / 人氣:1.38W

深度學習目前最接近人類智能

要回答上述問題，需要先了解一下人工智能在自然語言處理中的工作模式。

所謂自然語言處理，簡單點説，就是利用計算機對人類語言進行分析，以完成自動分詞、詞性標註、語音識別、自動文摘、機器翻譯、人機對話等一系列由簡到繁的語言任務。

在自然語言處理技術的發展過程中，經歷了三種研發模式：

第一種是基於規則的自然語言處理模式，主要通過對話語進行語法分析和語義分析，然後轉換成計算機程序以實現自然語言的理解和表達。這種工作模式是最容易想到也是最早進行廣泛研究的，它依賴於語言學家和計算機專家的通力合作。

但是，這種模式很快就遇到了無法突破的瓶頸，因為人類的語言理解過程實在太複雜，而語言學家對自然語言的分析很不充分，無法提供充足的語法規則和語義規則，計算機專家就陷入了“巧婦難為無米之炊”的窘境。

第二種是基於統計的自然語言處理模式，主要是對語言表達進行概率統計。這種模式下的人工智能，不需要了解話語的句法結構和語義關係，只需考察它被人類説出的可能概率就行，被説出的概率越大，相關話語就越合理。而概率的計算，可以通過大語料庫基礎上的詞頻統計來實現。

這種工作模式不需要語言學家提供複雜的規則，讓計算機搞統計正是它最拿手的工作。統計模式的廣泛運用，在語音識別、機器翻譯等領域產生了革命性變化，使很多技術從實驗室走向了實際應用。

第三種是深度學習的自然語言處理模式。深度學習依賴的是大規模人工神經網絡，也就是利用大量電腦處理單元對人類大腦的神經元系統進行模擬，然後讓這個人工神經網絡通過不斷自我學習和自我調整來完成相應的工作。

這可能是目前最接近人類智能的一種人工智能模式，目前的發展態勢驚人，全面超越“阿爾法圍棋”的“阿爾法元”利用的主要就是深度學習技術。

把作文評分交給電腦？高利害考試中無法實施

三種工作模式下的不同人工智能能不能應用於語文教育呢？我們不妨以作文評分為例來分別加以説明。

如果讓人工智能給學生作文評分，按照基於規則的工作模式，就必須把評價一篇作文好壞的要素都找出來，如語言、結構、內容、思想等等。最關鍵的工作還要把這些評分因素量化，比如給一篇作文的“語言”項目打10分，你就得告訴電腦，這10分的依據是什麼？是詞彙量多少，還是句子的複雜度，還是句式的不同類型？

在第二語言教學中，類似的評分系統已經得到較為廣泛的應用，因為僅是“語言”項目的話還比較容易量化，但在母語作文評價中其可行性顯然不大。因為對於母語作文評分來説，結構、思想等項目更為重要，之前人類閲卷者的評價主要依賴整體感知，但這種感覺很難分解，更無法量化。因此，基於規則的人工智能模式很難在作文評分上有用武之地。

如果是基於統計的工作模式，那我們就必須掌握足夠數量的作文語料，然後構建大型語料庫，分析其中各類型作文的各種數據。

比如，優秀作文和一般作文在詞彙量和句子結構上有什麼統計差異；

比如，議論文平均用幾個例子，平均引用多少句名人名言；

又比如，記敍文寫了幾個細節，每個細節平均多少字……

在統計的基礎上，把每篇作文在各方面的.表現與平均值進行比對，然後評分數。

顯然，基於統計的人工智能模式可以詳細描寫作文的各方面數據，也可以根據這些數據對作文進行等級排序，但是統計哪些數據、這些數據的解釋意義，這些數據與作文分數之間的關係，仍然需要語文專家提供意見，而這方面的研究仍然非常薄弱的。

如果是深度學習的工作模式，那就需要有大量事先標註好的作文對機器進行訓練，這些已經精準給分的學生作文，被稱為“訓練語料”。

將訓練語料輸入到人工神經網絡，由其分解為一組向量，再通過分層計算得出評分，然後將機器評分與已經標註好的得分相比較，得到誤差值。

再根據誤差值，調整人工神經網絡的計算方法和各個向量的權重，這樣反覆訓練後最後可以達到理想效果：人工神經網絡的評分結果和事先標註的作文分數高度一致。

這樣，就算在訓練語料的封閉環境裏獲得了成功，然後就可以推向開放環境，也就是提供沒有正確評分的陌生作文，直接由機器打分。如果經驗證後和人類專家的評分結果一致，那麼我們就得到了一個能自動評分的人工智能。

深度學習的自動評分在理論上是有可能獲得成功的，但是問題也很多。

首先，即使評分結果可用，過程的可解釋性也很差。人工神經網絡把輸入的作文僅當作一個數據序列，不考慮這篇作文的語言表現、思想內容，只是通過各種複雜計算的調試獲得理想的結果。機器的分析過程是沒有理據的，準確地説是和人類評價作文優劣的理據截然不同——它只是把活幹了，但是它是以機器的方式幹成的，人類無法理解。

其次，我們剛才對研發過程的説明其實是過於輕描淡寫了，真正要獲得實用的理想結果，訓練複雜度以及因此而要耗費的精力和財力在目前技術條件下恐怕是沒法想象的。

更重要的是，這裏還存在一個“智能倫理”問題，如果把代表人類智能結晶的作文交給機器去評分，而這機器又是以人類無法理解的方式評閲的，這恐怕會大規模引發公眾的質疑甚至恐懼，在高利害考試中是根本無法實施的。

根據以上分析，要在作文評價領域完全使用人工智能，不説完全不可能，至少要走的路還很長很長。

作為語文教育的輔助工具人工智能將大有作為

那麼，在語文教育領域，人工智能是否毫無作為呢？當然不是。我們認為，人工智能可以成為一個很好的輔助工具，在諸多領域大有可為。

在閲讀教學中，人工智能可以全面統計閲讀材料的各種表現，為閲讀材料的難度分級提供可量化的標準，從而為教材選文、編制課外閲讀書目等教學實踐提供有效的幫助。

在寫作教學中，人工智能可以通過自動摘要、自動校對等技術對學生作文進行輔導，從而提升一些基本的語言技能和寫作技術。

在練習系統中，人工功能可以構建封閉的專家系統，對一些有標準答案的知識自動出題、自動測試、自動講解，極大提高參與性和趣味性……

在評價領域，我們還是以之前分析過的作文評分來詳細談談人工智能的可能應用吧。在會考、大學聯考這樣的高利害考試中，套題寫作是一個非常嚴峻的問題，在實際評分時，有時難以認定並客觀給分。

今後，如果有統計型的人工智能參與，那就可以找出相似度很高的作文來對比、評判，並且給出精確的重複率百分比。在記敍文評價時，甚至可以更精細地通過自動摘要技術、關鍵詞技術找出同樣事例來一起評分。這些技術處理無疑為杜絕抄襲、套題等不良行為提供了有效的防治措施。

此外，可以通過計算作文語句在大數據庫中出現的概率值來對作文語言的規範性進行評價。作文語言的出現概率值越高，説明其用法越常規，越符合大眾的語言規範。而概率值特別低則提示了兩種可能性，一個是語言不規範，應給予負面評價，一個是語言新穎，應給予正面評價，機器初步篩選後的具體判斷工作可以交給人類專家來執行，從而使作文語言項目的評分更加準確規範。

還有，統計型人工智能還可以對學生作文的整體表現進行系統評估。通過對歷屆考試作文的統計分析，可以得出一系列大數據，如作文平均詞量和字量、平均句長和句法複雜度、虛詞使用情況等進行統計分析，為基層的作文教學提供充足的科學數據。

最後想強調的是，人工智能除了在實際應用中對語文教育有多方面的輔助作用，其開發和研究中遇到的一些問題也在倒逼語文教育工作者思考一些最基本的語文問題：

要解決閲讀材料難度分級的問題，就必須搞清楚構成閲讀材料難度的因素有哪些；

要解決人工智能自動命題自動訓練的問題，就必須搞清楚語文學科必備的知識點有哪些；

要解決作文自動評分的問題，就必須搞清楚作文的可操作的評價量表是怎麼樣的……

這些基本的語文難題以前都是含混處理掉了，這些問題不解決，人工智能再先進也不可能對語文教育產生決定性的影響。

Tags：人工智能評判可靠學生