AI圖像生成核心技術(shù)與實(shí)戰(zhàn)
定 價(jià):69.8 元
讀者對(duì)象:本書適用于圖像生成領(lǐng)域工作者
本書以AI圖像生成為主線,串聯(lián)講解了Stable Diffusion、DALL·E、Imagen、Midjourney等模型的技術(shù)方案,并帶著讀者訓(xùn)練一個(gè)自己專屬的AI圖像生成模型。本書共6章。第1章先介紹身邊的AIGC產(chǎn)品,再講解AI圖像生成相關(guān)的深度學(xué)習(xí)基礎(chǔ)知識(shí),包括神經(jīng)網(wǎng)絡(luò)和多模態(tài)模型的基礎(chǔ)知識(shí)。第2章講解AI圖像生成技術(shù),從VAE到GAN到基于流的模型再到擴(kuò)散模型的演化,并詳細(xì)介紹擴(kuò)散模型的算法原理和組成模塊。第3章講解Stable Diffusion模型的核心技術(shù)。第4章講解DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體模型的核心技術(shù)。第5章講解Midjourney、SDXL和DALL·E 3的核心技術(shù)。第6章是項(xiàng)目實(shí)戰(zhàn),使用LoRA技術(shù)對(duì)Stable Diffusion模型進(jìn)行微調(diào),得到特定風(fēng)格的AI圖像生成模型。
如果你已經(jīng)掌握了一些圖像生成的零散知識(shí),但是想要形成完整的知識(shí)體系如果你好奇Midjourney、Stable Diffusion、DALL·E等模型,在實(shí)現(xiàn)上有何不同如果你想自己動(dòng)手訓(xùn)練一個(gè)圖像生成模型 那么可以讀一讀這本書,系統(tǒng)、快速地構(gòu)建AI圖像生成的知識(shí)脈絡(luò)!
南柯,某頭部互聯(lián)網(wǎng)公司 AIGC 團(tuán)隊(duì)技術(shù)負(fù)責(zé)人,高級(jí)算法專家,極客時(shí)間AI 繪畫核心技術(shù)與實(shí)戰(zhàn)專欄作者,擁有十多年計(jì)算機(jī)視覺(jué)領(lǐng)域從業(yè)經(jīng)驗(yàn),帶領(lǐng)團(tuán)隊(duì)推動(dòng)多模態(tài)生成,尤其是 AI 圖像生成與編輯、多模態(tài)大語(yǔ)言模型、數(shù)字人等熱點(diǎn)方向的技術(shù)建設(shè)。在 ICCV 和AAAI 年會(huì)等 AI 領(lǐng)域頂級(jí)會(huì)議上發(fā)表過(guò)多篇論文,擁有 100 多項(xiàng)專利。
第 1章 AIGC基礎(chǔ) 11.1 身邊的AIGC 11.1.1 圖像生成和編輯類工具 11.1.2 文字提效類工具 21.1.3 音頻創(chuàng)作類工具 41.2 神經(jīng)網(wǎng)絡(luò) 41.2.1 人工神經(jīng)元 51.2.2 激活函數(shù) 61.2.3 人工神經(jīng)網(wǎng)絡(luò) 71.2.4 損失函數(shù) 91.2.5 優(yōu)化器 91.2.6 卷積神經(jīng)網(wǎng)絡(luò) 101.3 多模態(tài)模型 131.3.1 認(rèn)識(shí)模態(tài) 141.3.2 典型多模態(tài)模型 151.3.3 參數(shù)量 161.3.4 計(jì)算量 171.4 小結(jié) 17第 2章 圖像生成模型:GAN和擴(kuò)散模型 192.1 圖像生成模型的技術(shù)演化 192.1.1 第 一代圖像生成模型:VAE 202.1.2 第二代圖像生成模型:GAN 202.1.3 第三代圖像生成模型:基于流的模型 212.1.4 第四代圖像生成模型:擴(kuò)散模型 212.1.5 第五代圖像生成模型:自回歸模型 222.2 舊畫師GAN 222.2.1 生成對(duì)抗原理 222.2.2 生成能力的進(jìn)化 242.2.3 GAN時(shí)代的圖生圖 282.2.4 GAN的技術(shù)應(yīng)用 302.3 新畫師擴(kuò)散模型 312.3.1 加噪過(guò)程:從原始圖像到噪聲圖 322.3.2 去噪過(guò)程:從噪聲圖到清晰圖像 332.3.3 訓(xùn)練過(guò)程和推理過(guò)程 352.3.4 擴(kuò)散模型與GAN 362.4 擴(kuò)散模型的U-Net模型 372.4.1 巧妙的U形結(jié)構(gòu) 372.4.2 損失函數(shù)設(shè)計(jì) 412.4.3 應(yīng)用于擴(kuò)散模型 432.5 擴(kuò)散模型的采樣器 432.5.1 采樣器背后的原理 442.5.2 如何選擇采樣器 452.6 訓(xùn)練一個(gè)擴(kuò)散模型 462.6.1 初探擴(kuò)散模型:輕松入門 462.6.2 深入擴(kuò)散模型:定制藝術(shù) 502.7 小結(jié) 52第3章 Stable Diffusion的核心技術(shù) 533.1 圖像的壓縮器VAE 533.1.1 從AE到VAE 543.1.2 圖像插值生成 583.1.3 訓(xùn)練餐廳評(píng)論機(jī)器人 603.1.4 VAE和擴(kuò)散模型 613.2 讓模型聽(tīng)話的CLIP 623.2.1 連接兩種模態(tài) 623.2.2 跨模態(tài)檢索 643.2.3 其他CLIP模型 673.2.4 CLIP和擴(kuò)散模型 683.3 交叉注意力機(jī)制 693.3.1 序列、詞符和詞嵌入 693.3.2 自注意力與交叉注意力 713.3.3 多頭注意力 723.4 Stable Diffusion是如何工作的 773.4.1 Stable Diffusion的演化之路 773.4.2 潛在擴(kuò)散模型 783.4.3 文本描述引導(dǎo)原理 803.4.4 U-Net模型實(shí)現(xiàn)細(xì)節(jié) 823.4.5 反向描述詞與CLIP Skip 863.4.6 圖生圖實(shí)現(xiàn)原理 873.5 小結(jié) 90第4章 DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體的核心技術(shù) 914.1 里程碑DALL·E 2 914.1.1 DALL·E 2的基本功能概覽 914.1.2 DALL·E 2背后的原理 944.1.3 unCLIP:圖像變體的魔法 974.1.4 DALL·E 2的算法局限性 974.2 Imagen和DeepFloyd 984.2.1 Imagen vs DALL·E 2 984.2.2 Imagen的算法原理 994.2.3 文本編碼器:T5 vs CLIP 1004.2.4 動(dòng)態(tài)閾值策略 1034.2.5 開(kāi)源模型DeepFloyd 1044.2.6 升級(jí)版Imagen 2 1074.3 Stable Diffusion圖像變體 1074.3.1 圖生圖vs圖像變體 1074.3.2 使用Stable Diffusion圖像變體 1084.3.3 探秘Stable Diffusion圖像變體模型背后的算法原理 1104.4 小結(jié) 112第5章 Midjourney、SDXL和DALL·E 3的核心技術(shù) 1135.1 推測(cè)Midjourney的技術(shù)方案 1135.1.1 Midjourney的基本用法 1135.1.2 各版本演化之路 1145.1.3 技術(shù)方案推測(cè) 1175.2 SDXL的技術(shù)方案與使用 1205.2.1 驚艷的繪圖能力 1205.2.2 使用級(jí)聯(lián)模型提升效果 1225.2.3 更新基礎(chǔ)模塊 1235.2.4 使用SDXL模型 1245.3 更聽(tīng)話的DALL·E 3 1265.3.1 體驗(yàn)DALL·E 3的功能 1265.3.2 數(shù)據(jù)集重新描述 1275.3.3 生成數(shù)據(jù)有效性 1285.3.4 數(shù)據(jù)混合策略 1295.3.5 基礎(chǔ)模塊升級(jí) 1315.3.6 擴(kuò)散模型解碼器 1335.3.7 算法局限性 1335.4 小結(jié) 134第6章 訓(xùn)練自己的Stable Diffusion 1356.1 低成本訓(xùn)練神器LoRA 1356.1.1 LoRA的基本原理 1356.1.2 LoRA的代碼實(shí)現(xiàn) 1366.1.3 用于圖像生成任務(wù) 1386.2 Stable Diffusion WebUI體驗(yàn)圖像生成 1396.2.1 本地AI圖像生成模型 1406.2.2 開(kāi)源社區(qū)中的模型 1426.2.3 體驗(yàn)AI圖像生成功能 1436.2.4 將多個(gè)模型進(jìn)行融合 1446.2.5 靈活的LoRA模型 1466.3 Stable Diffusion代碼實(shí)戰(zhàn) 1506.3.1 訓(xùn)練數(shù)據(jù)準(zhǔn)備 1516.3.2 基礎(chǔ)模型的選擇與使用 1546.3.3 一次完整的訓(xùn)練過(guò)程 1556.4 小結(jié) 157