自然語(yǔ)言理解與行業(yè)知識(shí)圖譜概念、方法與工程落地
定 價(jià):119 元
叢書(shū)名:智能系統(tǒng)與技術(shù)叢書(shū)
- 作者:王楠,趙宏宇,蔡月著
- 出版時(shí)間:2022/1/1
- ISBN:9787111698302
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP391
- 頁(yè)碼:16,344頁(yè)
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16開(kāi)
本書(shū)首先闡述自然語(yǔ)言理解的發(fā)展脈絡(luò)和分析邏輯,主要圍繞語(yǔ)言符號(hào)、處理體系、語(yǔ)義理解等進(jìn)行探討,引出自然語(yǔ)言理解的自動(dòng)分析原理和方法,包括對(duì)自然語(yǔ)言特征、統(tǒng)計(jì)語(yǔ)言學(xué)習(xí)、常規(guī)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜方面的介紹。在上述基本自然語(yǔ)言處理方法講解基礎(chǔ)上,繼續(xù)闡述行業(yè)知識(shí)圖譜搭建和行業(yè)應(yīng)用的方法。通過(guò)作者團(tuán)隊(duì)幾年來(lái)在自然語(yǔ)言處理和行業(yè)知識(shí)圖譜的實(shí)踐經(jīng)驗(yàn),探討垂直行業(yè)認(rèn)知的邏輯和解決方案。
21世紀(jì)以來(lái)人類創(chuàng)造了海量的自然語(yǔ)言文本數(shù)據(jù),但苦于沒(méi)有“語(yǔ)言媒介大師”,即使擁有共同母語(yǔ)的雙方也可能出現(xiàn)“語(yǔ)言隔離”,更不要說(shuō)人機(jī)自然交互了。人類日常接觸的語(yǔ)言可以分為通用語(yǔ)言和專業(yè)語(yǔ)言:通用語(yǔ)言往往口語(yǔ)化嚴(yán)重,語(yǔ)法雜亂,信息量不足;專業(yè)語(yǔ)言需要結(jié)合行業(yè)知識(shí),有特定的文法,個(gè)性化突出。語(yǔ)言特征復(fù)雜多□,語(yǔ)種語(yǔ)義理解差異化明顯,如何自動(dòng)化、智能化地理解語(yǔ)言成為各行各業(yè)的痛點(diǎn)。自然語(yǔ)言理解應(yīng)運(yùn)而生!通過(guò)對(duì)人類語(yǔ)言信息的抽取、歸納、總結(jié),自然語(yǔ)言理解成為□重要的人工智能成果的檢驗(yàn)標(biāo)準(zhǔn)之一,被業(yè)內(nèi)人士稱為人工智能皇冠上的明珠。當(dāng)然路要一步步走,語(yǔ)言的理解首先要解決語(yǔ)言處理問(wèn)題。伴隨海量用戶數(shù)據(jù)(互聯(lián)網(wǎng)數(shù)據(jù)、行業(yè)業(yè)務(wù)數(shù)據(jù)、百科和領(lǐng)域知識(shí))、人工智能算法、集成AI芯片的規(guī)模算力平臺(tái)不斷涌入,自然語(yǔ)言處理領(lǐng)域已經(jīng)樹(shù)立了一座座里程碑。從早期的符號(hào)學(xué)派專家系統(tǒng),到統(tǒng)計(jì)語(yǔ)言學(xué)□□興起,再到Word□vec預(yù)訓(xùn)練語(yǔ)言模型將語(yǔ)義工具應(yīng)用落地,各種深度學(xué)習(xí)框架(TensorFlow、Torch、Paddle Paddle)不斷更新……我們似乎摸到了認(rèn)知的大門(mén)!018年,隨著谷歌BERT預(yù)訓(xùn)練語(yǔ)言模型橫空出世,語(yǔ)言理解領(lǐng)域也開(kāi)啟了“ImageNet”時(shí)代篇章。緊接著,XLNet、ERNIE、GPT-3等新模型,以及注意力機(jī)制、Transformer、圖神經(jīng)網(wǎng)絡(luò)等新結(jié)構(gòu)層出不窮,不斷刷新各大任務(wù)榜單的記錄(state-of-the-art,SOTA),推動(dòng)了整個(gè)語(yǔ)言理解水平的持續(xù)發(fā)展。
當(dāng)然,上述自然語(yǔ)言處理還需要語(yǔ)義知識(shí)的配合,基于語(yǔ)義知識(shí)搭建的知識(shí)圖譜就成為行業(yè)應(yīng)用的關(guān)鍵一環(huán)。知識(shí)圖譜是在知識(shí)工程和語(yǔ)義網(wǎng)的基礎(chǔ)上發(fā)展起來(lái)的,□01□年谷歌正式提出了“知識(shí)圖譜”一詞,隨后知識(shí)圖譜逐漸成為互聯(lián)網(wǎng)公司的底層基礎(chǔ)設(shè)施之一。通用知識(shí)圖譜主要有DBpedia、Freebase、YAGO、Wikidata等百科知識(shí)庫(kù)。在吸收了WordNet、FrameNet、Hownet等語(yǔ)言知識(shí)精華后,ConceptNet、Concept Graph等常識(shí)知識(shí)圖譜也不斷涌現(xiàn),為語(yǔ)言理解奠定了背景知識(shí)基礎(chǔ)。隨著知識(shí)圖譜、多模態(tài)數(shù)據(jù)的引入,知識(shí)蒸餾和模型壓縮進(jìn)一步推動(dòng)了語(yǔ)言處理和語(yǔ)義理解的應(yīng)用步伐。目前,市面上已經(jīng)常見(jiàn)面向C端用戶的智能音箱、智能導(dǎo)航、智能客服、聊天機(jī)器人、機(jī)器翻譯工具等產(chǎn)品,一些SaaS平臺(tái)也處于初級(jí)體驗(yàn)階段,這印證了自然語(yǔ)言理解行業(yè)的廣闊發(fā)展空間。
自然語(yǔ)言理解當(dāng)然不止于日常應(yīng)用,它已逐漸向各行各業(yè)賦能,推動(dòng)語(yǔ)言理解成果向行業(yè)轉(zhuǎn)移、轉(zhuǎn)化。面向B端的各垂直行業(yè)(例如金融、醫(yī)療、公安、電商等)及細(xì)分領(lǐng)域逐漸有相應(yīng)的圖譜產(chǎn)品落地。但是到目前為止,語(yǔ)言理解服務(wù)多體現(xiàn)為項(xiàng)目合作、平臺(tái)調(diào)用、服務(wù)賦能,其工業(yè)落地效果面臨更多的需求挑戰(zhàn)。一方面供求雙方在業(yè)務(wù)理解方面差距巨大,另一方面溝通合作也由于存在信息交互隔閡,這些都嚴(yán)重制約自然語(yǔ)言理解項(xiàng)目或產(chǎn)品落地。如何圍繞行業(yè)需求,仍然需要結(jié)合行業(yè)知識(shí)構(gòu)建知識(shí)圖譜,將自然語(yǔ)言處理與知識(shí)圖譜更好地融合,才能直擊垂直行業(yè)落地應(yīng)用的痛點(diǎn)。
站在自然語(yǔ)言理解需求爆發(fā)和落地困境的十字路口,我們?cè)撊绾慰创匀徽Z(yǔ)言理解的優(yōu)勢(shì)與不足,如何更好地推動(dòng)自然語(yǔ)言理解在垂直行業(yè)的應(yīng)用落地呢?這正是本書(shū)想要重點(diǎn)探討的目標(biāo)。隨著國(guó)家對(duì)人工智能、知識(shí)產(chǎn)權(quán)等行業(yè)的日益重視,我們將進(jìn)入產(chǎn)業(yè)互聯(lián)網(wǎng)和創(chuàng)新驅(qū)動(dòng)的全新時(shí)代!創(chuàng)新需要保護(hù)和激勵(lì),創(chuàng)新知識(shí)需要挖掘和利用,而這些知識(shí)正沉積在以專利為代表的知識(shí)產(chǎn)權(quán)文本中,目前全球已經(jīng)有超過(guò)1.□億篇專利文本,等待知識(shí)圖譜賦能。從這個(gè)行業(yè)視角進(jìn)入,我們似乎可以揭開(kāi)行業(yè)落地之謎。
本書(shū)通過(guò)對(duì)自然語(yǔ)言理解的思考和各類算法模型的闡述,結(jié)合對(duì)知識(shí)圖譜的認(rèn)知,講解作者團(tuán)隊(duì)幾年來(lái)在自然語(yǔ)言處理和行業(yè)知識(shí)圖譜方向的實(shí)踐經(jīng)驗(yàn),旨在拋磚引玉。本書(shū)即將付梓之時(shí),一個(gè)新的生命也將誕生,謹(jǐn)以此書(shū)獻(xiàn)給我們即將出生的寶貝。
這本書(shū)將始終是草稿的狀態(tài),如果有人問(wèn)何時(shí)成稿,我們想說(shuō)下一版!因?yàn)檫@個(gè)主題“Never-End Learning”,F(xiàn)在,我們僅期待本書(shū)可以幫助大家打開(kāi)那扇大門(mén),初步體驗(yàn)自然語(yǔ)言理解的行業(yè)落地之道。
王楠,北京大學(xué)博士,“創(chuàng)青春-中關(guān)村U30”□0□0年度優(yōu)勝者,先后任教于中國(guó)科學(xué)院、北京信息科技大學(xué)計(jì)算機(jī)學(xué)院。研究方向包括人工智能算法、知識(shí)圖譜、自然語(yǔ)言處理與地球電磁學(xué)等。主持或參與國(guó)家科技重大專項(xiàng)、高分專項(xiàng)、軍口預(yù)研、□□系統(tǒng)、企業(yè)大數(shù)據(jù)系統(tǒng)等科研項(xiàng)目,累計(jì)獲得研發(fā)經(jīng)費(fèi)超過(guò)千萬(wàn)元人民幣。負(fù)責(zé)企業(yè)級(jí)“專利大數(shù)據(jù)智能分析系統(tǒng)”的研發(fā),領(lǐng)導(dǎo)技術(shù)團(tuán)隊(duì)完成軟件平臺(tái)搭建、商用和優(yōu)化。以作者身份發(fā)表行業(yè)內(nèi)高水平論文十余篇,獲得多項(xiàng)發(fā)明和實(shí)用新型專利,提交專利申請(qǐng)十余項(xiàng)。
趙宏宇,現(xiàn)就職于騰訊看點(diǎn)搜索團(tuán)隊(duì),擔(dān)任算法研究員。有多年NLP、搜索系統(tǒng)、推薦系統(tǒng)的工作經(jīng)驗(yàn),涉及專利、招聘和網(wǎng)頁(yè)搜索等場(chǎng)景。精通PyTorch、TensorFlow等主流深度學(xué)習(xí)框架,擅長(zhǎng)運(yùn)用NLP前沿技術(shù)解決工業(yè)項(xiàng)目難題。在意圖識(shí)別、內(nèi)容推薦、相關(guān)性排序等領(lǐng)域有多年實(shí)戰(zhàn)經(jīng)驗(yàn)。曾參與千萬(wàn)級(jí)用戶求職領(lǐng)域的推薦工作,作為算法主要負(fù)責(zé)人,主導(dǎo)全新算法落地迭代、線上算法優(yōu)化以及上億DAU網(wǎng)頁(yè)搜索優(yōu)化迭代。曾與人合著《智能搜索與推薦系統(tǒng):原理、算法與應(yīng)用》一書(shū)。
蔡月,清華-深圳灣實(shí)驗(yàn)室聯(lián)合培養(yǎng)博士后,于□017年獲得北京大學(xué)生物醫(yī)學(xué)工程博士學(xué)位。曾擔(dān)任東軟醫(yī)療上海磁共振研發(fā)中心高級(jí)算法研究員。研究方向?yàn)閿?shù)據(jù)科學(xué)、磁共振圖像算法、深度學(xué)習(xí)等,擅長(zhǎng)腦科學(xué)領(lǐng)域數(shù)據(jù)分析、磁共振圖像加速、去噪等算法研究。曾在腦科學(xué)領(lǐng)域SCI期刊Neuroscience、Neurotoxicity Research上發(fā)表多篇文章,獲得多項(xiàng)發(fā)明專利。