基于HNC的現(xiàn)代漢語句子級(jí)語義標(biāo)注語料庫的研究和建立
定 價(jià):55 元
- 作者:劉智穎
- 出版時(shí)間:2015/2/1
- ISBN:9787516155769
- 出 版 社:中國社會(huì)科學(xué)出版社
- 中圖法分類:H1
- 頁碼:
- 紙張:膠版紙
- 版次:1
- 開本:16K
《基于HNC的現(xiàn)代漢語句子級(jí)語義標(biāo)注語料庫的研究和建立》針對(duì)自然語言處理資源建設(shè)方面的需求,從語義的角度、句子的層面研究建立句子級(jí)語義標(biāo)注語料庫。
《基于HNC的現(xiàn)代漢語句子級(jí)語義標(biāo)注語料庫的研究和建立》以HNC(概念層次網(wǎng)絡(luò))理論句類體系為基礎(chǔ),探討了句子級(jí)語義標(biāo)注語料庫的標(biāo)注內(nèi)容、標(biāo)注方法和標(biāo)注難點(diǎn),確定了XML的標(biāo)注規(guī)范,設(shè)計(jì)了語料庫的查詢工具。
《基于HNC的現(xiàn)代漢語句子級(jí)語義標(biāo)注語料庫的研究和建立》是HNC理論在資源建設(shè)方面的研究與發(fā)展。該語料庫的建設(shè)與研究不僅對(duì)于計(jì)算機(jī)理解語義具有重要意義,而且對(duì)語言學(xué)工作者也具有一定的參考價(jià)值。
劉智穎,2010年畢業(yè)于北京師范大學(xué)語言學(xué)及應(yīng)用語言學(xué)專業(yè),獲博士學(xué)位,F(xiàn)任北京師范大學(xué)中文信息處理研究所講師,碩士生導(dǎo)師。主要研究方向?yàn)橹形男畔⑻幚怼T趪鴥?nèi)學(xué)術(shù)期刊及自然語言處理的國際會(huì)議發(fā)表論文20余篇,參編信息處理用詞典一部。曾主持國家“865”項(xiàng)目“中文信息處理應(yīng)用基礎(chǔ)研究”的“句子級(jí)語義標(biāo)注的現(xiàn)代漢語語料庫”課題,并作為主要研究人員參與了多項(xiàng)國家865課題和國家科技支撐計(jì)劃課題的研究。
第一章 緒論
第一節(jié) 中文信息處理的研究熱點(diǎn)
第二節(jié) 基于HNC的現(xiàn)代漢語句子級(jí)語義標(biāo)注語料庫
第三節(jié) 本書的研究?jī)?nèi)容
一 標(biāo)注項(xiàng)
二 標(biāo)注方式
三 管理工具功能設(shè)計(jì)
第四節(jié) 已有的研究
一 現(xiàn)代漢語詞義標(biāo)注語料庫
二 漢語框架語義標(biāo)注語料庫
三 語義結(jié)構(gòu)標(biāo)注語料庫
第五節(jié) 本書的結(jié)構(gòu)安排
第二章 HNC理論及其句類思想
第一節(jié) HNC理論簡(jiǎn)介
第二節(jié) HNC的句類思想
第三節(jié) 句類及句類知識(shí)
一 基本句類
二 混合句類
三 復(fù)合句類
第三章 HNC語義標(biāo)注語料庫的設(shè)計(jì)
第一節(jié) 語料的采集
第二節(jié) 語料的加工
一 標(biāo)注規(guī)模
二 標(biāo)注特點(diǎn)
三 標(biāo)注形式
第四章 HNC語義標(biāo)注語料庫的標(biāo)注規(guī)范
第一節(jié) XML語言介紹
一 XMlL的歷史
二 XML的內(nèi)容
三 XML的特點(diǎn)和優(yōu)點(diǎn)
第二節(jié) HNC語義標(biāo)注語料庫的XML標(biāo)注規(guī)范
一 XML文檔
二 Schema模式
三 XSL轉(zhuǎn)換
第五章 HNC語義標(biāo)注語料庫的標(biāo)注
第一節(jié) 標(biāo)注內(nèi)容
一 篇頭信息
二 篇體信息
第二節(jié) 標(biāo)注難點(diǎn)
一 語義塊核心要素的部分缺省
二 包裝品與分離語
三 “的”字短語
四 “所”字結(jié)構(gòu)
五 基于全句理解的句類
第六章 語料標(biāo)注工具的設(shè)計(jì)與使用
第一節(jié) TXTxML文檔的轉(zhuǎn)換
第二節(jié) XMLspy標(biāo)注工具的使用
一 XMLSpy工具介紹
二 語料的標(biāo)注
三 檢查與驗(yàn)證
第七章 HNC語義標(biāo)注語料庫查詢工具
第一節(jié) 查詢工具的特點(diǎn)
一 快捷的查詢速度
二 友好的查詢界面
三 強(qiáng)大的查詢功能
第二節(jié) 查詢工具的功能設(shè)計(jì)
一 數(shù)據(jù)的存儲(chǔ)
二 數(shù)據(jù)庫的操作
三 語料查詢
第八章 HNC語義標(biāo)注語料庫的應(yīng)用
第一節(jié) 在語言本體研究方面的應(yīng)用
第二節(jié) 在中文信息處理方面的應(yīng)用
第三節(jié) 在語言教學(xué)方面的應(yīng)用
第四節(jié) 結(jié)語
附錄
附錄1 HNC句子級(jí)語義標(biāo)注語料庫的xML規(guī)范
附錄2 HNC句子級(jí)語義標(biāo)注語料庫標(biāo)注文檔示例
參考文獻(xiàn)
后記
《基于HNC的現(xiàn)代漢語句子級(jí)語義標(biāo)注語料庫的研究和建立》:
復(fù)雜句分為共享句與無共享句以及介于兩者之間的半共享旬三種類型。共享句是指分句間存在廣義對(duì)象語義塊整體共享現(xiàn)象的復(fù)句!禜NC(概念層次網(wǎng)絡(luò))理論》中定義的復(fù)合句實(shí)際上就是共享句。半共享句是指分句問存在局部共享(即要素共享)現(xiàn)象的復(fù)句。無共享句是指分句間不存在共享現(xiàn)象的復(fù)句。共享句中有兩個(gè)特殊子類:一是迭句(居后句子的第一個(gè)廣義對(duì)象語義塊共用居前句子的第一個(gè)廣義對(duì)象語義塊),二是鏈句(居后句子的第一個(gè)廣義對(duì)象語義塊共用居前句子的最后一個(gè)廣義對(duì)象語義塊)。(池毓煥,2005)
我們用來標(biāo)注復(fù)雜句。復(fù)雜句的類型信息我們用內(nèi)所包含的屬性type進(jìn)行標(biāo)記,type的取值表示復(fù)雜句的各個(gè)類型。取值為“1”表示無共享句,即分句的各語義塊之間不存在共享;取值為“2”表示迭句;取值為“3”表示鏈句;取值為“4”表示復(fù)雜共享句,指分句內(nèi)的某個(gè)整語義塊共享分句內(nèi)或分句外多個(gè)語義塊或半個(gè)語義塊,或分句內(nèi)的某半個(gè)語義塊共享分句內(nèi)或分句外多個(gè)語義塊的情況,因具體語義塊共享情況比較復(fù)雜,故稱為復(fù)雜共享句,《基于HNC的現(xiàn)代漢語句子級(jí)語義標(biāo)注語料庫的研究和建立》對(duì)其內(nèi)部的各種復(fù)雜共享情況暫不進(jìn)行分類表示;取值為“5”表示無共享句,指分句內(nèi)的語義塊完整,不存在共享其他語義塊的情況。復(fù)雜句元素本身不提供句類信息,句類信息蘊(yùn)含在其包含的(sentence)子元素里面。
除了子元素外,復(fù)雜句下面還包含、和元素。元素用來標(biāo)注關(guān)聯(lián)詞語信息,元素用來標(biāo)注獨(dú)立語信息,元素用來標(biāo)注輔塊信息,復(fù)雜句下面的輔塊是復(fù)雜句所包含的分句的共同輔塊,而非某一個(gè)特定分句的輔塊,特定分句的輔塊信息會(huì)標(biāo)注在子元素里面。
元素既可以表示簡(jiǎn)單句,也可以表示復(fù)雜句的分句。主要包含下列元素:廣義對(duì)象語義塊、特征語義塊、輔語義塊、關(guān)聯(lián)語、獨(dú)立語、分離語。其中語義塊是句子構(gòu)成的基本單位。分離語是指從語義塊中分離出來的部分。HNC認(rèn)為,語義塊存在構(gòu)成和分離的現(xiàn)象,因此需要對(duì)分離部分做出語義標(biāo)記,分離語是HNC特有的語義標(biāo)注信息。
……