本書包括漢語口語中介語語料庫研究,國外語料庫考察,語料的錄入、轉寫與標注研究,語料庫應用研究四方面內容?谡Z語料庫(包括多模態(tài)語料庫)建設由于語料采集、轉寫、標注的困難,一向滯后于筆語語料庫,這使?jié)h語口語中介語研究和習得研究難以廣泛、深入地開展,口筆語中介語的對比研究更是難以企及。本書從不同角度探討口語庫建設問題,其中關于口語研究和口語庫建設之間的互動關系的認識、多模態(tài)理論在語料庫建設中的應用、國內外英語口語學習者語料庫和法語口語語料庫的建設經(jīng)驗,對漢語口語庫的設計與建設均具有積極的借鑒意義和重要的指導作用。
針對以往漢語中介語語料庫建設存在的主觀隨意性,本書研究了語料元信息采集、語料錄入與轉寫、語料標注、檢索系統(tǒng)研發(fā)等建庫中的重要問題,努力克服隨意性,推動語料庫建設的標準化和科學化。轉寫標注軟件ELAN廣泛應用于口語庫和多模態(tài)語料庫建設,掌握該軟件可達工欲善其事,必先利其器之效。在語料庫應用方面,本書注重運用語料庫解決漢語教學與研究中的具體問題,對中介語中的動詞、趨向動詞、某些副詞、介詞、語篇等進行偏誤分析,通過翔實的統(tǒng)計數(shù)據(jù)得出了一些具有普遍意義、有較強說服力的研究結論。
序
語料庫是語言知識的可靠來源(代序)
第三屆漢語中介語口語語料庫國際會議致辭
馮志偉
首先祝賀第三屆漢語中介語口語語料庫國際會議在北京召開。漢語中介語口語語料庫是獲取語言知識、發(fā)現(xiàn)語言偏誤、提高語言習得水平的重要手段。
我是一個自然語言處理的研究者,早在1957年,我就對語言的研究產(chǎn)生了濃厚的興趣,夢想著打破人類的語言障礙,后來我知道了美國在1954年就研制成功俄英機器翻譯,受到極大的鼓舞,決心投身機器翻譯研究,實現(xiàn)自己的科學夢想。19791981年我在法國格勒諾布爾理科醫(yī)科大學留學時,曾經(jīng)研制過一個把漢語自動翻譯為法語、英語、日語、俄語和德語5種外語的機器翻譯系統(tǒng),叫作FAJRA系統(tǒng),提出了多叉多標記樹形圖模型(multiple-branched and multiple-labeled tree model, MMT),這是一個基于短語的機器翻譯模型(phrasebased machine translation, PBMT)。
當時我采用的方法是基于語言規(guī)則的理性主義方法。我用了3年時間,編寫了漢語分析規(guī)則5 000條左右,法語、英語、日語、俄語和德語的轉換規(guī)則和生成規(guī)則各3 000條左右,一共20 000多條規(guī)則,此外,我還編制了若干部機器可讀的、代碼化的機器翻譯詞典。由于工作量大,我每天工作時間都超過10小時,扎扎實實苦干了3年,于1981年11月在IBM 4341大型計算機上輸出了法語、英語、日語、俄語和德語等5種語言的機器翻譯譯文。這是世界上個把漢語自動翻譯成多種外語的機器翻譯系統(tǒng)。
這個系統(tǒng)研制成功之后,在有限規(guī)模的語言范圍內,翻譯的正確率還比較高,而當擴大語言范圍時,對于任意的漢語句子,翻譯的正確率只能達到70%左右,這樣的機器翻譯系統(tǒng)顯然是難以實用的。我在1982年回國之后,又相繼研制了法漢、英漢、日漢和德漢機器翻譯系統(tǒng),翻譯正確率都沒有超過70%。
我耗費了如此巨大的精力,卻得到了很不理想的結果,在嚴峻的考驗面前,我少年時代的機器翻譯夢想遭到了挫敗。我沒有得到多少成功的經(jīng)驗,卻留下了大量失敗的教訓。我為此感到困惑,有一種難言的失落感。
正當我愁眉不展之際,1993年7月在日本神戶召開的第四屆機器翻譯高層會議(MT Summit IV)上,英國著名學者哈欽斯(J.Hutchins)在他的特約報告中指出,自1989年以來,機器翻譯的發(fā)展進入了一個新紀元。這個新紀元的重要標志是在基于規(guī)則的技術中引入了語料庫方法。這種建立在大規(guī)模(largescale)真實文本(authentic text)處理基礎上的機器翻譯,是機器翻譯研究史上的一場革命,它會把自然語言的計算機處理推向一個嶄新的階段。
把語料庫方法引入到機器翻譯中,改變了機器翻譯研究者獲取知識的手段,由于語料庫是大規(guī)模的真實文本,人們就可以得到更加完善的統(tǒng)計性的語言知識,因此,也就大大地提高了機器翻譯的質量,加快了機器翻譯系統(tǒng)的研制周期。
語言知識究竟在哪里?語言知識固然存在于語法書里,存在于各種類型的詞典里,存在于汗牛充棟的語言學論文里,但是,更加全面、客觀的語言知識應當存在于大規(guī)模的真實文本語料庫里,語料庫是語言知識可靠的來源。
語料庫改變了機器翻譯的命運,基于短語的機器翻譯發(fā)展成為統(tǒng)計機器翻譯(statistical machine translation, SMT),機器翻譯走向了商品化和實用化的新階段。
隨著互聯(lián)網(wǎng)的迅速發(fā)展,我們進入了大數(shù)據(jù)時代。數(shù)據(jù)挖掘成為計算機科學的一個重要研究領域,數(shù)據(jù)挖掘中采用的機器自動學習的方法,對于統(tǒng)計機器翻譯具有重要的價值。
機器自動學習的方法主要有三種類型:有指導的學習、無指導的學習、半指導的學習。
有指導的學習實際上是對于數(shù)據(jù)進行分類,首先使用事先定義好的類別或范疇標記對數(shù)據(jù)的實例進行標注,作為訓練數(shù)據(jù),機器根據(jù)這些標注好的訓練數(shù)據(jù)進行自動學習,再根據(jù)學習得到的知識對于新的數(shù)據(jù)進行分類。由于用來學習的訓練數(shù)據(jù)是用事先定義好的標記進行過標注的,機器學習的過程是在這些訓練數(shù)據(jù)的指導下進行的,所以叫作有指導的學習。在無指導的學習中,用來學習的數(shù)據(jù)沒有使用事先定義好的類別或范疇標記進行過標注,要使用機器學習的算法來自動地發(fā)現(xiàn)隱藏在數(shù)據(jù)中的特征、結構或規(guī)律。這種無指導學習的一個關鍵技術是聚類,聚類技術根據(jù)數(shù)據(jù)實例的相同點或相異點,自動地把它們聚類為不同的組合。
有指導的學習要求事先人工標注大量的數(shù)據(jù)實例,需要付出巨大的人工勞動量,費力而又費時。為了減少人工標注的勞動量,可以同時從標注過的數(shù)據(jù)實例和沒有標注過的數(shù)據(jù)實例中進行學習,標注過的數(shù)據(jù)實例的集合可以比較小,而沒有標注過的數(shù)據(jù)實例的集合可以很大,這樣的模型叫作半指導的學習。
機器自動學習的這些方法已經(jīng)成熟,而且廣泛地應用于統(tǒng)計機器翻譯的研究中,這就從根本上改變了傳統(tǒng)的獲取語言知識的手段,從大規(guī)模的雙語對齊語料庫中,通過機器自動學習的方法,去獲取語言的翻譯信息,對于機器翻譯的發(fā)展具有革命性的意義。
目前,基于多層神經(jīng)網(wǎng)絡的、以大數(shù)據(jù)作為輸入的深度學習(deep learning)方法引入到機器翻譯中。這是一種新型的機器自動學習。深度學習的訓練方式是無監(jiān)督的特征學習,使用多層神經(jīng)網(wǎng)絡的方法。這種多層神經(jīng)網(wǎng)絡是非線性的,可以重復利用中間層的計算單元,減少參數(shù),計算機從海量的大數(shù)據(jù)中可以自動地產(chǎn)生模型的特征和算法。
詞向量是多層神經(jīng)網(wǎng)絡的一種重要方法,詞向量把單詞映射為一個固定維度的向量,不同的詞向量構成詞向量語義空間,在這個詞向量語義空間中,語義相似的單詞距離較近。
深度學習研究者米克羅夫(Tomas Mikolov)發(fā)現(xiàn),如果用意大利這個單詞的屬性向量來減去羅馬這個單詞的屬性向量,再加上巴黎這個單詞的屬性向量,我們就能得到法國這個單詞或者相近的屬性向量。類似地,如果用國王的屬性向量減去男人的屬性向量,再加上女人的屬性向量,就能得到王后的屬性向量。這是非常令人振奮的結果,因為米克羅夫事先并沒有刻意地做這樣的安排。
2007年以來,采用深度學習的方法,以大規(guī)模的雙語對齊的口語語料庫作為語言知識的來源,從雙語對齊的口語語料庫中獲取翻譯知識,統(tǒng)計機器翻譯又進一步發(fā)展成了神經(jīng)機器翻譯(neural machine translation, NMT),口語神經(jīng)機器翻譯正確率已經(jīng)超過了90%,針對日?谡Z的神經(jīng)機器翻譯基本上可以付諸實用了。
但是,在這種神經(jīng)機器翻譯中,語言之間的翻譯細節(jié)還是一個黑箱(black box),盡管翻譯的結果不錯,我們對于其中的語言處理機制仍然是不清楚的,在語言學理論上,我們還難以做出科學的解釋。
近,深度學習向神經(jīng)網(wǎng)絡中融入記憶機制,把基于理性主義的知識驅動與基于經(jīng)驗主義的數(shù)據(jù)驅動結合起來,架起了符號主義與聯(lián)接主義之間的橋梁。這應當是今后神經(jīng)機器翻譯發(fā)展的新方向。
可以看出,由于在機器翻譯中引入了語料庫技術,機器翻譯已經(jīng)獲得了巨大的進步,這是令人可喜的。不論是書面語文本語料庫還是口語語料庫,都是機器翻譯得以發(fā)展進步的關鍵性因素。語料庫對于機器翻譯的發(fā)展具有舉足輕重的作用。
目前,漢語中介語語料庫建設已經(jīng)取得了很大的成績。北京語言大學、南京師范大學、魯東大學、暨南大學、中山大學、上海交通大學、廈門大學、臺灣師范大學先后建立了不同規(guī)模的漢語中介語語料庫。香港中文大學、新疆醫(yī)科大學還建立了漢語口語習得語料庫。
在這些中介語語料庫的基礎上,研究者們進行了卓有成效的研究,成果斐然。第三屆漢語中介語口語語料庫國際會議為交流這些成果提供了一個很好的交流機會,我衷心祝賀這次國際會議成功。
張寶林,北京語言大學教授,博士研究生導師。西北師范大學兼職教授,福建師范大學客座教授,語言資源高精尖創(chuàng)新中心特聘研究員,中央民族大學語言教學、認知與習得開放研究中心學術顧問。中國語料庫語言學研究會理事,中國語文現(xiàn)代化學會語言資源開發(fā)與應用專業(yè)委員會副理事長。主要研究領域為漢語教學語法、國際中文教育、語料庫語言學。主持或作為主要成員參加、省部級、校級科研項目10多項;獨立或合作出版學術專著、教材、大綱、詞典等10多部,發(fā)表學術論文70多篇。主要著作有《漢語教學參考語法》(2006)、《現(xiàn)狀與對策漢語作為第二語言的教學研究》(2011)、《基于語料庫的外國人漢語句式習得研究》(合著,項目負責人,2014)、《漢語語法的多層面考察》(2015)、《語言培訓服務國家標準研究》(合著,項目負責人,2016)、《漢語中介語語料庫標注規(guī)范研究》(合著,項目負責人,2019)等。
目錄
語料庫是語言知識的可靠來源(代序)馮志偉 001
口語語料庫和多模態(tài)語料庫研究005
從口語研究看口語中介語語料庫建設 劉運同007
國內外主要英語口語學習者語料庫概述 許家金 董通013
法語CLAPI互動口語語料庫對漢語中介語口語語料庫建設的借鑒意義 王秀麗 王鵬飛022
國內外多模態(tài)話語分析的知識圖譜 王笑 黃偉034
多模態(tài)理論在中介語語料庫建設中的應用研究 邢曉青050
標注、錄寫與檢索研究071
漢語中介語語料庫標注標準研究 閆慧慧073
試論漢語中介語語料庫的元信息標注 文雁088
漢語中介語語料庫的語篇銜接與連貫標注研究
基于HSK動態(tài)作文語料庫 張悅104
漢語學習者口語語料庫建設語用標注研究 段海于121
漢語中介語口語語料庫語料標注芻議 楊帆141
漢語中介語語料庫口語及視頻語料轉寫研究 梁丁一163
漢語中介語筆語語料錄入標準研究 齊菲 段清釩 張馨丹174
ELAN操作的幾個關鍵問題
兼談語寶標注軟件的使用 李斌185
漢語中介語語料庫的檢索系統(tǒng) 張寶林212
語料庫應用研究231
HSK動態(tài)作文語料庫動詞偏誤的全面統(tǒng)計與啟示 玄玥 華曉君233
基于中介語語料庫的常常與往往的偏誤分析及教學設計 耿直249
基于語料庫的漢語學習者趨向動詞習得考察 李紅梅263
日本漢語學習者介詞在習得情況考察
基于語料庫的研究 張敏300
留學生漢語口語詞匯偏誤研究
《以2015漢語橋我與中國次親密接觸》為例 康利南318
漢語中介語語篇結構偏誤研究
基于HSK 動態(tài)作文語料庫的研究 周春弟333
基于ELAN的對外漢語教師課堂體態(tài)語分析 靳繼君350
其他研究373
作文自動評分系統(tǒng)研究的現(xiàn)狀與對策 胡楚欣375
關于冠狀病毒語料庫的調研報告 盧方紅396
后記415