" 本書采用項目任務(wù)式的編寫方式,介紹了計算機視覺相關(guān)的基礎(chǔ)概念與基本知識點,并結(jié)合應(yīng)用案例闡述其基本原理。全書內(nèi)容豐富、涵蓋面廣,涉及低、中、高層視覺技術(shù),以及視覺與文本結(jié)合的多模態(tài)技術(shù),具體包括10 個項目:圖像濾波、圖像特征提取、圖像識別、圖像分割、目標(biāo)檢測與追蹤、圖像生成與轉(zhuǎn)換、人體行為解析、圖像文本生成、視覺問答系統(tǒng)和視頻理解。 本書對每個項目涉及的知識點提供了豐富、生動的案例素材,并以Python 語言為主要工具詳細講解了核心程序。每個項目下設(shè)2 ~ 3 個應(yīng)用任務(wù),結(jié)合代碼講述具體任務(wù)實施過程,讓讀者全方位深刻理解任務(wù)對應(yīng)知識點與基本原理。 本書結(jié)構(gòu)布局緊湊,內(nèi)容深入淺出,代碼簡潔高效,適合作為計算機、人工智能、通信和自動化等相關(guān)專業(yè)的教師與學(xué)生用書,也可作為廣大從事計算機視覺工程的研發(fā)人員的參考用書。"
本書采用項目任務(wù)式的編寫方式,介紹了計算機視覺相關(guān)的基礎(chǔ)概念與基本知識點,并結(jié)合應(yīng)用案例闡述其基本原理。全書內(nèi)容豐富、涵蓋面廣,涉及低、中、高層視覺技術(shù),以及視覺與文本結(jié)合的多模態(tài)技術(shù),具體包括10 個項目:圖像濾波、圖像特征提取、圖像識別、圖像分割、目標(biāo)檢測與追蹤、圖像生成與轉(zhuǎn)換、人體行為解析、圖像文本生成、視覺問答系統(tǒng)和視頻理解。
本書對每個項目涉及的知識點提供了豐富、生動的案例素材,并以Python 語言為主要工具詳細講解了核心程序。每個項目下設(shè)2 ~ 3 個應(yīng)用任務(wù),結(jié)合代碼講述具體任務(wù)實施過程,讓讀者全方位深刻理解任務(wù)對應(yīng)知識點與基本原理。
本書結(jié)構(gòu)布局緊湊,內(nèi)容深入淺出,代碼簡潔高效,適合作為計算機、人工智能、通信和自動化等相關(guān)專業(yè)的教師與學(xué)生用書,也可作為廣大從事計算機視覺工程的研發(fā)人員的參考用書。
黨的二十大報告指出:教育、科技、人才是全面建設(shè)社會主義現(xiàn)代化國家的基
礎(chǔ)性、戰(zhàn)略性支撐。必須堅持科技是第一生產(chǎn)力、人才是第一資源、創(chuàng)新是第一動
力,深入實施科教興國戰(zhàn)略、人才強國戰(zhàn)略、創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略,開辟發(fā)展新領(lǐng)域新
賽道,不斷塑造發(fā)展新動能新優(yōu)勢。
1. 為什么計算機視覺技術(shù)如此重要
計算機視覺技術(shù)是信息科技中最具前沿性、挑戰(zhàn)性的領(lǐng)域之一,涵蓋了模式識
別、計算機圖形學(xué)、機器學(xué)習(xí)、圖像處理等多門學(xué)科。隨著數(shù)字技術(shù)的不斷進步,計
算機視覺技術(shù)正在從理論研究走向?qū)嵺`應(yīng)用,是醫(yī)療、安防、智能交通、人臉識別、
虛擬現(xiàn)實等各類應(yīng)用場景的中樞神經(jīng)。此外,計算機視覺技術(shù)還廣泛應(yīng)用于工業(yè)智能
化、文化遺產(chǎn)保護、環(huán)境監(jiān)測等領(lǐng)域?梢哉f,計算機視覺技術(shù)已經(jīng)成為新一代信息
科技的引擎,正在高速驅(qū)動人類社會的發(fā)展和進步,也在深刻影響我們的日常生活。
2. 為什么要編寫本書
自2007 年以來,編者團隊一直從事計算機視覺技術(shù)領(lǐng)域的本科生和研究生教學(xué)工
作,期間開展了大量的教學(xué)實驗和理論研究,以及與國內(nèi)外同行密切交流,為本書的
編寫打下了重要的基礎(chǔ)。
當(dāng)前,計算機視覺科技已成為信息科技領(lǐng)域的熱門方向之一。然而,對于初學(xué)者來
說,在海量文獻中找到一份系統(tǒng)、全面的學(xué)習(xí)資料并不容易,F(xiàn)有的計算機視覺技術(shù)類
教材有些注重理論而缺少實踐;有些過度追求專業(yè)化,將初學(xué)者拒之千里;有些教材強
調(diào)學(xué)理,缺少現(xiàn)實生活的應(yīng)用情景;有些教材缺少對黨的二十大精神和《習(xí)近平新時代
中國特色社會主義思想進課程教材指南》等重大主題教育進課程教材的系統(tǒng)規(guī)劃。
因此,我們編寫了這本《計算機視覺技術(shù)與應(yīng)用》,旨在讓學(xué)生輕松、系統(tǒng)、全
面地了解計算機視覺技術(shù),使之適應(yīng)信息時代和知識社會的需求,具備解決復(fù)雜問題
和適應(yīng)不可預(yù)測情境的高級能力。
計算機視覺技術(shù)與應(yīng)用
Ⅱ
3. 本書有什么特點
(1)本書堅持以習(xí)近平新時代中國特色社會主義思想為指導(dǎo),深入貫徹黨的二十
大精神,落實育人的根本在于立德。
本書始終堅持以習(xí)近平新時代中國特色社會主義思想為指導(dǎo),以潤物細無聲的方
式融入黨的二十大精神,在具體案例和項目導(dǎo)讀中弘揚社會主義核心價值觀,弘揚科
學(xué)家精神,激發(fā)學(xué)生實現(xiàn)高水平科技自立自強的責(zé)任感和使命感。
(2)本書著眼于學(xué)科發(fā)展前沿,具有前瞻性和時代性。
在編寫本書的過程中,我們借鑒了許多國內(nèi)外優(yōu)秀的計算機視覺教材和案例,結(jié)
合我們多年的教學(xué)和研究經(jīng)驗,將知識點分類整理并精選了對應(yīng)案例。通過案例講解
和實踐操作,學(xué)生能夠?qū)W以致用,更好地掌握計算機視覺的核心技術(shù)。
(3)本書內(nèi)容翔實,脈絡(luò)清晰,體現(xiàn)核心素養(yǎng)的要求,具有科學(xué)性和系統(tǒng)性。
本書針對復(fù)雜、真實的生活情境,精心設(shè)計和編排內(nèi)容,共有圖像濾波、圖像特
征提取、圖像識別、圖像分割、目標(biāo)檢測與追蹤、圖像生成與轉(zhuǎn)換、人體行為解析、
圖像文本生成、視覺問答系統(tǒng)和視頻理解10 個項目。每個項目下設(shè)2 ~ 3 個應(yīng)用任
務(wù),每個任務(wù)都設(shè)置有學(xué)習(xí)目標(biāo)、任務(wù)要求、知識歸納、任務(wù)實施、任務(wù)小結(jié)、任務(wù)
自測等。任務(wù)、知識點、基本原理相輔相成,項目的編排順序環(huán)環(huán)相扣,互相鋪墊,
進一步培養(yǎng)學(xué)生解決現(xiàn)實生活復(fù)雜問題的能力。
本書使用當(dāng)前主流的Python 語言編寫,并講解核心程序,代碼簡潔高效,便于學(xué)
生實踐操作。
(4)本書在自主學(xué)習(xí)和人才培養(yǎng)模式方面做出了積極嘗試,具有原創(chuàng)性和創(chuàng)新性。
按照傳統(tǒng)體例編寫的教材需要教師進行大量的指導(dǎo)與講解,留給學(xué)生自主學(xué)習(xí)的
空間有限。本書按照項目式學(xué)習(xí)原則編寫,提高了真實性和實踐性。學(xué)生通過項目、
任務(wù)以及豐富的配套資源,能夠?qū)崿F(xiàn)自主學(xué)習(xí)。我們也希望通過這本書鼓勵和啟發(fā)教
育者創(chuàng)新人才培養(yǎng)模式。
4. 本書適合哪些讀者
本書內(nèi)容豐富、涵蓋面廣,涉及低、中、高層視覺,以及視覺與文本結(jié)合的多模
態(tài)技術(shù)等,適合計算機、人工智能、通信和自動化等相關(guān)專業(yè)的教師與學(xué)生,以及廣
大從事計算機視覺工程的研發(fā)人員閱讀參考。
5. 致謝
在本書出版之際,我們特別要感謝清華大學(xué)出版社和劉茵女士,他們精準(zhǔn)策劃,
執(zhí)著約稿,耐心溝通,對我們來說是莫大的鼓勵。我們還要感謝參與本書編寫的其他
成員:楊振國、孫宇平、黃國恒、姬玉柱、趙靖亮等老師,他們查閱梳理了大量國內(nèi)
Ⅲ
外的最新學(xué)術(shù)文獻和論著,力求全方位展現(xiàn)計算機視覺領(lǐng)域的前沿技術(shù)和最新成果,
凡此種種,都讓我們感動不已。
在本書的編寫過程中,我們通過多種渠道與書中選用作品(包括照片、插圖等)
的作者進行了聯(lián)系,得到他們的大力支持,對此,我們表示衷心的感謝。在本書付梓
前,書中仍有部分所參考和引用資料的作者,我們未能與之取得聯(lián)系,懇請他們以及
讀者,在本書使用過程中,如遇問題請與清華大學(xué)出版社聯(lián)系,再次感謝!
在編寫本書的時候,我們常常能感受到吾生也有涯,而知也無涯的浩瀚,但
我們更享受不怕真理無窮,進一寸有一寸的歡喜。期待能夠跟大家一起,通過本
書感受計算機視覺技術(shù)領(lǐng)域的魅力。
由于編者水平有限,書中難免有疏漏和不足之處,在此懇請廣大讀者批評、指
正,以便日后修訂。
編 者
2023 年11 月
胡欽太,博士、二級教授、博士生導(dǎo)師,國家社科基金重大課題首席專家,國家自然科學(xué)基金重點項目主持人, 廣東省優(yōu)秀社會科學(xué)家。
朱鑒,博士,廣東工業(yè)大學(xué)副教授,青年百人計劃引進人才,計算機學(xué)院副院長。主要研究領(lǐng)域包括計算機視覺、智能圖形學(xué)與機器學(xué)習(xí)等。
劉東寧,博士,現(xiàn)任廣東工業(yè)大學(xué)教授、博士生導(dǎo)師,計算機學(xué)院教學(xué)副院長。主要研究領(lǐng)域為協(xié)同計算,包括分布式智能系統(tǒng)、社會計算、工業(yè)軟件等,曾于2013年解決了1973年提出的時態(tài)查詢線性時間復(fù)雜度問題;2015年底破解了自1955年提出的匈牙利算法(也稱Kuhn-Munkres算法)多對多最優(yōu)指派問題。
項目1 圖像濾波 1
任務(wù)1.1 灰度圖對比度矯正 2
任務(wù)1.2 自然圖像噪聲去除 9
任務(wù)1.3 圖像邊緣增強 15
項目2 圖像特征提取 21
任務(wù)2.1 基于霍夫變換的硬幣檢測 22
任務(wù)2.2 基于SIFT 特征點的圖像拼接 31
項目3 圖像識別 41
任務(wù)3.1 基于邏輯回歸的手寫數(shù)字識別 42
任務(wù)3.2 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別 53
項目4 圖像分割 71
任務(wù)4.1 車牌分割 72
任務(wù)4.2 醫(yī)學(xué)圖像分割 82
項目5 目標(biāo)檢測與追蹤 96
任務(wù)5.1 基于MMDetection 的目標(biāo)檢測 98
任務(wù)5.2 基于MMTracking 的目標(biāo)追蹤 113
項目6 圖像生成與轉(zhuǎn)換 127
任務(wù)6.1 服飾圖像生成 129
計算機視覺技術(shù)與應(yīng)用
Ⅵ
任務(wù)6.2 圖像風(fēng)格遷移 146
項目7 人體行為解析 159
任務(wù)7.1 人體姿態(tài)估計 160
任務(wù)7.2 人體動作識別 173
項目8 圖像文本生成 183
任務(wù)8.1 圖像描述生成 184
任務(wù)8.2 醫(yī)療文本生成 196
項目9 視覺問答系統(tǒng) 210
任務(wù)9.1 封閉式視覺問答系統(tǒng) 211
任務(wù)9.2 開放式視覺問答系統(tǒng) 222
項目10 視頻理解 234
任務(wù)10.1 視頻情感分類 236
任務(wù)10.2 視頻主題分類 248
參考文獻 263