《信息檢索實驗》共分5章,第1章主要從網(wǎng)絡(luò)信息采集的角度引導學生進行相關(guān)實驗;第2章側(cè)重于讓學生掌握信息索引的機制及設(shè)計實現(xiàn);第3章介紹了幾個典型的信息檢索模型及其實現(xiàn);第4章側(cè)重于從效果的角度引導學生掌握信息檢索評價方法;第5章則對XML有關(guān)知識及其檢索實驗進行了介紹。
《信息檢索實驗》旨在從信息流的視角出發(fā),面向?qū)嶒炁c實踐,引導學生理解并掌握信息檢索相關(guān)理論方法和實現(xiàn)技術(shù),提高學生的實驗實踐能力和創(chuàng)新精神,為進一步開展科學研究和從事相關(guān)社會實踐工作打下堅實的基礎(chǔ)。
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息資源呈現(xiàn)爆炸性的增長,因而如何有效地管理和利用這些信息資源就成為情報學和信息管理類專業(yè)理論研究和應(yīng)用實踐的重要課題。作為信息管理專業(yè)的基礎(chǔ)和核心內(nèi)容之一,信息檢索相關(guān)理論和方法在信息資源的管理和有效利用方面發(fā)揮著日益重要的作用,從Google、Baidu等搜索引擎到中國期刊網(wǎng)、萬方等學術(shù)數(shù)據(jù)庫,甚至到企業(yè)的網(wǎng)站建設(shè),都需要用到信息檢索技術(shù)。今天,信息檢索正滲透到人們生活的各個領(lǐng)域,潛移默化地改變著人們的生活。
廣義的信息檢索涉及信息資源的采集、加工、存儲(索引)、檢索利用與評價等多個方面。本實驗教材旨在從信息流的視角出發(fā),面向?qū)嶒炁c實踐,引導學生理解并掌握網(wǎng)絡(luò)信息采集、信息索引、信息檢索模型、檢索評價等相關(guān)理論方法和實現(xiàn)技術(shù),提高學生的實踐能力和創(chuàng)新精神,為其進一步開展科學研究和從事相關(guān)社會實踐工作打下堅實的基礎(chǔ)。
本實驗教材共分5章,第1章主要是從網(wǎng)絡(luò)信息采集的角度引導學生進行相關(guān)實驗;第2章側(cè)重于讓學生掌握信息索引的機制及設(shè)計實現(xiàn);第3章介紹了幾個典型的信息檢索模型及其實現(xiàn);第4章側(cè)重于從效果的角度引導學生掌握信息檢索評價方法;由于XML在信息傳遞及網(wǎng)絡(luò)信息組織等方面日益廣泛的應(yīng)用,第5章對XML的有關(guān)知識及其檢索實現(xiàn)等通過實驗設(shè)計進行了介紹。韓曙光、袁澤林、姜捷璞、秦喜艷、劉丹分別負責以上各章的編寫,陸偉負責教材整體的修改和統(tǒng)稿。
本書可作為信息管理相關(guān)專業(yè)本科生、研究生的實驗教學用書,亦可作為圖書館學、檔案學、電子商務(wù)等專業(yè)的教學參考用書。
由于時間倉促,文中難免有不足和疏漏之處,敬請讀者批評指正!
前言
1 網(wǎng)絡(luò)信息采集實驗
1.1 網(wǎng)絡(luò)蜘蛛程序設(shè)計
1.1.1 實驗?zāi)繕?br />
1.1.2 實驗內(nèi)容
1.1.3 背景知識
1.1.4 實驗步驟
1.1.5 參考示例
1.1.6 實驗分析
1.1.7 參考程序
1.2 網(wǎng)頁清理
1.2.1 實驗?zāi)繕?br />
1.2.2 實驗內(nèi)容
1.2.3 背景知識
1.2.4 實驗步驟
1.2.5 參考示例
1.2.6 實驗分析
1.3 Google檢索接口的調(diào)用
1.3.1 實驗?zāi)繕?br />
1.3.2 實驗內(nèi)容
1.3.3 背景知識
1.3.4 實驗步驟
1.3.5 參考示例
1.3.6 實驗分析
1.3.7 參考程序
2 信息索引實驗
2.1 倒排文檔索引
2.1.1 實驗?zāi)繕?br />
2.1.2 實驗內(nèi)容
2.1.3 背景知識
2.1.4 實驗步驟
2.1.5 參考示例
2.1.6 實驗分析
2.2 詞干提取和停用詞分析
2.2.1 實驗?zāi)繕?br />
2.2.2 實驗內(nèi)容
2.2.3 背景知識
2.2.4 實驗步驟
2.2.5 參考示例
2.2.6 實驗分析
2.3 中文分詞
2.3.1 實驗?zāi)繕?br />
2.3.2 實驗內(nèi)容
2.3.3 背景知識
2.3.4 實驗步驟
2.3.5 參考示例
2.3.6 實驗分析
2.4 Lucene索引分析
2.4.1 實驗?zāi)繕?br />
2.4.2 實驗內(nèi)容
2.4.3 背景知識
2.4.4 實驗步驟
2.4.5 參考示例
2.4.6 實驗分析
3 信息檢索模型實驗
3.1 向量空間模型
3.1.1 實驗?zāi)繕?br />
3.1.2 實驗內(nèi)容
3.1.3 背景知識
3.1.4 實驗步驟
3.1.5 參考示例
3.1.6 實驗分析
3.2 概率模型
3.2.1 實驗?zāi)繕?br />
3.2.2 實驗內(nèi)容
3.2.3 背景知識
3.2.4 實驗步驟
3.2.5 參考示例
3.2.6 實驗分析
3.3 基于Lueene的檢索擴展
3.3.1 實驗?zāi)繕?br />
3.3.2 實驗內(nèi)容
3.3.3 背景知識
3.3.4 實驗步驟
3.3.5 參考示例
3.3.6 實驗分析
3.4 PageRank算法及實現(xiàn)
3.4.1 實驗?zāi)繕?br />
3.4.2 實驗內(nèi)容
3.4.3 背景知識
3.4.4 實驗步驟
3.4.5 參考示例
3.4.6 實驗分析
4檢 索評價實驗
4.1 查全率和查準率的關(guān)系
4.1.1 實驗?zāi)繕?br />
4.1.2 實驗內(nèi)容
4.1.3 背景知識
4.1.4 實驗步驟
4.1.5 參考示例
4.1.6 實驗分析
4.2 計算MAP和R-prec值
4.2.1 實驗?zāi)繕?br />
4.2.2 實驗內(nèi)容
4.2.3 背景知識
4.2.4 實驗步驟
4.2.5 參考示例
4.2.6 實驗分析
4.3 利用P@N的搜索引擎比較實驗
4.3.1 實驗?zāi)繕?br />
4.3.2 實驗內(nèi)容
4.3.3 背景知識
4.3.4 實驗步驟
4.3.5 參考示例
4.3.6 實驗分析
5 XML檢索實驗
5.1 XML查詢與顯示
5.1.1 實驗?zāi)繕?br />
5.1.2 實驗內(nèi)容
5.1.3 背景知識
5.1.4 實驗步驟
5.1.5 參考示例
5.1.6 實驗分析
5.2 XHU-XML系統(tǒng)的使用與比較
5.2.1 實驗?zāi)繕?br />
5.2.2 實驗內(nèi)容
5.2.3 背景知識
5.2.4 實驗步驟
5.2.5 參考示例
5.2.6 實驗分析
附1 Lucene簡介
附2 環(huán)境安裝與配置
主要參考文獻