大模型應(yīng)用開發(fā) 動(dòng)手做AI Agent
定 價(jià):89.8 元
- 作者:黃佳
- 出版時(shí)間:2024/5/1
- ISBN:9787115642172
- 出 版 社:人民郵電出版社
- 中圖法分類:TP18
- 頁碼:272
- 紙張:
- 版次:01
- 開本:16開
人工智能時(shí)代一種全新的技術(shù)——Agent正在崛起。這是一種能夠理解自然語言并生成對應(yīng)回復(fù)以及執(zhí)行具體行動(dòng)的人工智能體。它不僅是內(nèi)容生成工具,而且是連接復(fù)雜任務(wù)的關(guān)鍵紐帶。本書將探索Agent的奧秘,內(nèi)容包括從技術(shù)框架到開發(fā)工具,從實(shí)操項(xiàng)目到前沿進(jìn)展,通過帶著讀者動(dòng)手做7個(gè)功能強(qiáng)大的Agent,全方位解析Agent的設(shè)計(jì)與實(shí)現(xiàn)。本書最后展望了Agent的發(fā)展前景和未來趨勢。
本書適合對Agent技術(shù)感興趣或致力于該領(lǐng)域的研究人員、開發(fā)人員、產(chǎn)品經(jīng)理、企業(yè)負(fù)責(zé)人,以及高等院校相關(guān)專業(yè)師生等閱讀。讀者將跟隨咖哥和小雪的腳步,踏上饒有趣味的Agent開發(fā)之旅,零距離接觸GPT-4模型、OpenAI Assistants API、LangChain、LlamaIndex和MetaGPT等尖端技術(shù),見證Agent在辦公自動(dòng)化、智能調(diào)度、知識(shí)整合以及檢索增強(qiáng)生成(RAG)等領(lǐng)域的非凡表現(xiàn),攜手開啟人工智能時(shí)代的無限可能,在人機(jī)協(xié)作的星空中共同探尋那顆最閃亮的Agent之星!
從零開始,循序漸進(jìn),圖解直擊痛難點(diǎn):
本書以圖解的方式從基礎(chǔ)概念入手,逐步深入技術(shù)原理和應(yīng)用,以啟發(fā)式教學(xué)幫助讀者逐步深入了解Agent的各個(gè)方面,而不會(huì)感到晦澀難懂。
理論與實(shí)踐相結(jié)合,7個(gè)Agent實(shí)例,技術(shù)路線全面:
本書不僅介紹Agent的理論知識(shí),而且涉及相關(guān)的實(shí)際應(yīng)用和案例分析,可以幫助讀者更好地理解理論知識(shí)在實(shí)際問題中的應(yīng)用。
案例實(shí)用,內(nèi)容豐富,有趣又有料:
本書涵蓋Agent的多個(gè)主題,包括基本概念、技術(shù)原理、應(yīng)用領(lǐng)域和案例分析等,內(nèi)容豐富多樣,語言風(fēng)趣幽默,能夠滿足不同層次讀者的需求。
黃佳,筆名咖哥,新加坡科技研究局人工智能研究員。他在 NLP、大模型、AI in MedTech、AI in FinTech 等領(lǐng)域積累了豐富的項(xiàng)目經(jīng)驗(yàn)。著有《GPT 圖解 大模型是怎樣構(gòu)建的》《零基礎(chǔ)學(xué)機(jī)器學(xué)習(xí)》《數(shù)據(jù)分析咖哥十話:從思維到實(shí)踐促進(jìn)運(yùn)營增長》等圖書。同時(shí)他還在極客時(shí)間、CSDN 和深藍(lán)學(xué)院開設(shè)專欄和課程,主要有“LangChain 實(shí)戰(zhàn)課”“零基礎(chǔ)實(shí)戰(zhàn)機(jī)器學(xué)習(xí)”“AI 應(yīng)用實(shí)戰(zhàn)課”“大模型應(yīng)用開發(fā)實(shí)戰(zhàn)課”和“生成式預(yù)訓(xùn)練語言模型:理論與實(shí)戰(zhàn)”等。他樂于保持好奇的心、擁抱變化、持續(xù)學(xué)習(xí),希望借助 AI 的“慧眼”和“注意力”來觀察世界,并以輕松幽默的方式分享知識(shí),收獲本真的快樂。
第 1章 何謂Agent,為何Agent 001
1.1 大開腦洞的演講:Life 3.0 001
1.2 那么,究竟何謂Agent 003
1.3 Agent的大腦:大模型的通用推理能力 006
1.3.1 人類的大腦了不起 006
1.3.2 大模型出現(xiàn)之前的Agent 007
1.3.3 大模型就是Agent的大腦 008
1.3.4 期望頂峰和失望低谷 010
1.3.5 知識(shí)、記憶、理解、表達(dá)、推理、反思、泛化和自我提升 012
1.3.6 基于大模型的推理能力構(gòu)筑AI應(yīng)用 015
1.4 Agent的感知力:語言交互能力和多模態(tài)能力 016
1.4.1 語言交互能力 016
1.4.2 多模態(tài)能力 016
1.4.3 結(jié)合語言交互能力和多模態(tài)能力 017
1.5 Agent的行動(dòng)力:語言輸出能力和工具使用能力 017
1.5.1 語言輸出能力 017
1.5.2 工具使用能力 018
1.5.3 具身智能的實(shí)現(xiàn) 019
1.6 Agent對各行業(yè)的效能提升 019
1.6.1 自動(dòng)辦公好助手 020
1.6.2 客戶服務(wù)革命 020
1.6.3 個(gè)性化推薦 020
1.6.4 流程的自動(dòng)化與資源的優(yōu)化 021
1.6.5 醫(yī)療保健的變革 021
1.7 Agent帶來新的商業(yè)模式和變革 022
1.7.1 Gartner的8項(xiàng)重要預(yù)測 023
1.7.2 Agent即服務(wù) 024
1.7.3 多Agent協(xié)作 025
1.7.4 自我演進(jìn)的AI 026
1.7.5 具身智能的發(fā)展 026
1.8 小結(jié) 027
第 2章 基于大模型的Agent技術(shù)框架 029
2.1 Agent的四大要素 029
2.2 Agent的規(guī)劃和決策能力 031
2.3 Agent的各種記憶機(jī)制 032
2.4 Agent的核心技能:調(diào)用工具 033
2.5 Agent的推理引擎:ReAct框架 035
2.5.1 何謂ReAct 035
2.5.2 用ReAct框架實(shí)現(xiàn)簡單Agent 038
2.5.3 基于ReAct框架的提示 040
2.5.4 創(chuàng)建大模型實(shí)例 043
2.5.5 定義搜索工具 044
2.5.6 構(gòu)建ReAct Agent 044
2.5.7 執(zhí)行ReAct Agent 045
2.6 其他Agent認(rèn)知框架 047
2.6.1 函數(shù)調(diào)用 047
2.6.2 計(jì)劃與執(zhí)行 048
2.6.3 自問自答 048
2.6.4 批判修正 048
2.6.5 思維鏈 048
2.6.6 思維樹 048
2.7 小結(jié) 049
第3章 OpenAI API、LangChain和LlamaIndex 051
3.1 何謂OpenAI API 052
3.1.1 說說OpenAI這家公司 052
3.1.2 OpenAI API和Agent開發(fā) 055
3.1.3 OpenAI API的聊天程序示例 057
3.1.4 OpenAI API的圖片生成示例 063
3.1.5 OpenAI API實(shí)踐 065
3.2 何謂LangChain 067
3.2.1 說說LangChain 068
3.2.2 LangChain中的六大模塊 073
3.2.3 LangChain和Agent開發(fā) 074
3.2.4 LangSmith的使用方法 075
3.3 何謂LlamaIndex 077
3.3.1 說說LlamaIndex 077
3.3.2 LlamaIndex和基于RAG的AI開發(fā) 078
3.3.3 簡單的LlamaIndex開發(fā)示例 081
3.4 小結(jié) 084
第4章 Agent 1:自動(dòng)化辦公的實(shí)現(xiàn)——通過Assistants API和DALL·E 3模型創(chuàng)作PPT 085
4.1 OpenAI公司的Assistants是什么 086
4.2 不寫代碼,在Playground中玩Assistants 086
4.3 Assistants API的簡單示例 090
4.3.1 創(chuàng)建助手 091
4.3.2 創(chuàng)建線程 095
4.3.3 添加消息 097
4.3.4 運(yùn)行助手 099
4.3.5 顯示響應(yīng) 103
4.4 創(chuàng)建一個(gè)簡短的虛構(gòu)PPT 105
4.4.1 數(shù)據(jù)的收集與整理 106
4.4.2 創(chuàng)建OpenAI助手 106
4.4.3 自主創(chuàng)建數(shù)據(jù)分析圖表 108
4.4.4 自主創(chuàng)建數(shù)據(jù)洞察 112
4.4.5 自主創(chuàng)建頁面標(biāo)題 114
4.4.6 用DALL·E 3模型為PPT首頁配圖 115
4.4.7 自主創(chuàng)建PPT 116
4.5 小結(jié) 121
第5章 Agent 2:多功能選擇的引擎——通過Function Calling調(diào)用函數(shù) 122
5.1 OpenAI中的Functions 122
5.1.1 什么是Functions 123
5.1.2 Function的說明文字很重要 124
5.1.3 Function定義中的Sample是什么 124
5.1.4 什么是Function Calling 126
5.2 在Playground中定義Function 127
5.3 通過Assistants API實(shí)現(xiàn)Function Calling 130
5.3.1 創(chuàng)建能使用Function的助手 131
5.3.2 不調(diào)用Function,直接運(yùn)行助手 133
5.3.3 在Run進(jìn)入requires_action狀態(tài)之后跳出循環(huán) 140
5.3.4 拿到助手返回的元數(shù)據(jù)信息 141
5.3.5 通過助手的返回信息調(diào)用函數(shù) 141
5.3.6 通過submit_tool_outputs提交結(jié)果以完成任務(wù) 143
5.4 通過ChatCompletion API來實(shí)現(xiàn)Tool Calls 147
5.4.1 初始化對話和定義可用函數(shù) 148
5.4.2 第 一次調(diào)用大模型,向模型發(fā)送對話及工具定義,并獲取響應(yīng) 149
5.4.3 調(diào)用模型選擇的工具并構(gòu)建新消息 151
5.4.4 第二次向大模型發(fā)送對話以獲取最終響應(yīng) 153
5.5 小結(jié) 154
第6章 Agent 3:推理與行動(dòng)的協(xié)同——通過LangChain中的ReAct框架實(shí)現(xiàn)自動(dòng)定價(jià) 156
6.1 復(fù)習(xí)ReAct框架 156
6.2 LangChain中ReAct Agent 的實(shí)現(xiàn) 159
6.3 LangChain中的工具和工具包 160
6.4 通過create_react_agent創(chuàng)建鮮花定價(jià)Agent 162
6.5 深挖AgentExecutor的運(yùn)行機(jī)制 166
6.5.1 在AgentExecutor中設(shè)置斷點(diǎn) 166
6.5.2 第 一輪思考:模型決定搜索 169
6.5.3 第 一輪行動(dòng):工具執(zhí)行搜索 175
6.5.4 第二輪思考:模型決定計(jì)算 179
6.5.5 第二輪行動(dòng):工具執(zhí)行計(jì)算 180
6.5.6 第三輪思考:模型完成任務(wù) 182
6.6 小結(jié) 185
第7章 Agent 4:計(jì)劃和執(zhí)行的解耦——通過LangChain中的Plan-and-Execute實(shí)現(xiàn)智能調(diào)度庫存 186
7.1 Plan-and-Solve策略的提出 186
7.2 LangChain中的Plan-and-Execute Agent 190
7.3 通過Plan-and-Execute Agent實(shí)現(xiàn)物流管理 192
7.3.1 為Agent定義一系列進(jìn)行自動(dòng)庫存調(diào)度的工具 192
7.3.2 創(chuàng)建Plan-and-Execute Agent并嘗試一個(gè)“不可能完成的任務(wù)” 193
7.3.3 完善請求,讓Agent完成任務(wù) 200
7.4 從單Agent到多Agent 203
7.5 小結(jié) 204
第8章 Agent 5:知識(shí)的提取與整合——通過LlamaIndex實(shí)現(xiàn)檢索增強(qiáng)生成 205
8.1 何謂檢索增強(qiáng)生成 206
8.1.1 提示工程、RAG與微調(diào) 206
8.1.2 從技術(shù)角度看檢索部分的Pipeline 208
8.1.3 從用戶角度看RAG流程 209
8.2 RAG和Agent 210
8.3 通過LlamaIndex的ReAct RAG Agent實(shí)現(xiàn)花語秘境財(cái)報(bào)檢索 211
8.3.1 獲取并加載電商的財(cái)報(bào)文件 211
8.3.2 將財(cái)報(bào)文件的數(shù)據(jù)轉(zhuǎn)換為向量數(shù)據(jù) 211
8.3.3 構(gòu)建查詢引擎和工具 213
8.3.4 配置文本生成引擎大模型 214
8.3.5 創(chuàng)建 Agent以查詢財(cái)務(wù)信息 214
8.4 小結(jié) 215
第9章 Agent 6:GitHub的網(wǎng)紅聚落——AutoGPT、BabyAGI和CAMEL 216
9.1 AutoGPT 217
9.1.1 AutoGPT簡介 217
9.1.2 AutoGPT實(shí)戰(zhàn) 218
9.2 BabyAGI 222
9.2.1 BabyAGI簡介 222
9.2.2 BabyAGI實(shí)戰(zhàn) 224
9.3 CAMEL 236
9.3.1 CAMEL簡介 236
9.3.2 CAMEL論文中的股票交易場景 237
9.3.3 CAMEL實(shí)戰(zhàn) 241
9.4 小結(jié) 248
第 10章 Agent 7:多Agent框架——AutoGen和MetaGPT 250
10.1 AutoGen 250
10.1.1 AutoGen簡介 250
10.1.2 AutoGen實(shí)戰(zhàn) 253
10.2 MetaGPT 256
10.2.1 MetaGPT簡介 256
10.2.2 MetaGPT實(shí)戰(zhàn) 257
10.3 小結(jié) 263
附錄A 下一代Agent的誕生地:科研論文中的新思路 264
A.1 兩篇高質(zhì)量的Agent綜述論文 264
A.2 論文選讀:Agent自主學(xué)習(xí)、多Agent合作、Agent可信度的評估、邊緣系統(tǒng)部署以及具身智能落地 266
A.3 小結(jié) 267
參考文獻(xiàn) 269
后記 創(chuàng)新與變革的交匯點(diǎn) 271