使用機器學習技術的產品或服務在我們的生活中不斷普及,被應用于大數(shù)據(jù)分析、智能駕駛、計算機視覺等領域,并迅速改變著我們的生活。本書以掌握一定的Python基礎為前提,從具體的10個精簡仿真項目切入,由淺入深、循序漸進地介紹機器學習技術在不同業(yè)務領域中的應用,在內容上注重實用性和可操作性,具體涵蓋了數(shù)據(jù)分析與挖掘流程、監(jiān)督學習、無監(jiān)督學習、深度學習、大模型與人工智能應用等需要學生掌握的基本知識和相應技能。
陳清華,女,博士,教授、高級工程師,從事計算機研發(fā)及教學工作15余年,主要從事方向為數(shù)據(jù)挖掘、人工智能和群智感知,是"大數(shù)據(jù)技術”國家級職業(yè)教育創(chuàng)新教學團隊核心成員,溫州市"特支計劃”科技創(chuàng)新青年拔尖人才、高層次D類人才,金磚國家職業(yè)技能大賽區(qū)塊鏈技術賽項全國優(yōu)秀專家。
項目1 用餐數(shù)據(jù)異常分析 1
任務1 用餐數(shù)據(jù)集成與處理 5
1.1.1 數(shù)據(jù)集成 9
1.1.2 數(shù)據(jù)映射 9
1.1.3 數(shù)據(jù)類型轉換 10
任務2 用餐數(shù)據(jù)重復值檢測與處理 10
1.2.1 檢測重復值duplicated() 12
1.2.2 刪除重復值drop_duplicates() 12
任務3 用餐數(shù)據(jù)缺失值檢測與處理 12
1.3.1 檢測缺失值isna() 15
1.3.2 處理缺失值fillna() 15
任務4 用餐數(shù)據(jù)異常值檢測與處理 15
1.4.1 檢測異常值 20
1.4.2 繪制散點圖scatter() 21
1.4.3 繪制直方圖hist() 22
1.4.4 繪制箱形圖boxplot() 23
1.4.5 處理異常值 24
拓展實訓:電影數(shù)據(jù)加工與處理 25
項目考核 26
項目2 碳排放數(shù)據(jù)分析 30
任務1 對碳排放數(shù)據(jù)進行分組分析 34
2.1.1 讀取Excel文件數(shù)據(jù) 38
2.1.2 分組分析基本概念 39
2.1.3 描述性統(tǒng)計分析指標 40
任務2 對碳排放數(shù)據(jù)進行分布分析 40
2.2.1 分布分析基本概念 44
2.2.2 數(shù)據(jù)分箱cut() 44
2.2.3 可視化包Seaborn 45
任務3 對碳排放數(shù)據(jù)進行交叉分析 45
2.3.1 交叉分析基本概念 47
2.3.2 數(shù)據(jù)透視表pivot_table() 48
2.3.3 交叉表crosstab() 48
2.3.4 熱力圖heatmap() 48
任務4 對碳排放數(shù)據(jù)進行結構分析 49
2.4.1 結構分析基本概念 53
2.4.2 繪制餅圖plot() 53
任務5 對碳排放數(shù)據(jù)進行相關分析 53
2.5.1 相關分析基本概念 56
2.5.2 相關分析corr() 56
拓展實訓:數(shù)據(jù)分析方法應用 57
應用拓展(1):電影數(shù)據(jù)復雜分析 57
應用拓展(2):用餐數(shù)據(jù)復雜分析 58
項目考核 59
項目3 電影數(shù)據(jù)回歸分析 61
任務1 使用一元線性回歸分析方法對日均票房進行預測 66
3.1.1 一元線性回歸 66
3.1.2 異常值的發(fā)現(xiàn)與處理 69
3.1.3 歸一化處理 69
3.1.4 數(shù)據(jù)集的切分 73
任務2 使用多項式回歸分析方法對日均票房進行預測 76
3.2.1 多項式回歸 76
3.2.2 degree參數(shù)的設置 79
任務3 使用多元線性回歸分析方法對電影評分進行預測 81
3.3.1 多元線性回歸 81
3.3.2 標簽映射 84
拓展實訓:回歸分析應用 85
應用拓展:薪資數(shù)據(jù)相關性分析 85
進階拓展:電影數(shù)據(jù)回歸分析 87
項目考核 87
項目4 性別與肥胖程度分類分析 92
任務1 使用邏輯回歸實現(xiàn)性別判定 97
4.1.1 邏輯回歸 101
4.1.2 Sklearn中的LogisticRegression() 102
4.1.3 數(shù)組與向量的操作 102
任務2 使用樸素貝葉斯實現(xiàn)性別判定 103
4.2.1 樸素貝葉斯的原理 105
4.2.2 Sklearn中樸素貝葉斯的實現(xiàn) 106
4.2.3 Sklearn中的GaussianNB() 107
4.2.4 Sklearn中的MultinomialNB() 107
任務3 使用決策樹實現(xiàn)性別判定 107
4.3.1 決策樹的原理 110
4.3.2 Sklearn中的DecisionTreeClassifier()分類器 111
4.3.3 分類模型常用評估指標 111
4.3.4 Sklearn中的模型評估方法 112
4.3.5 欠擬合與過擬合 112
任務4 使用支持向量機實現(xiàn)性別判定 113
4.4.1 支持向量機的原理 116
4.4.2 Sklearn中支持向量機的實現(xiàn) 116
4.4.3 Sklearn中的SVC()分類器 116
任務5 使用支持向量機實現(xiàn)肥胖程度分類 117
4.5.1 核函數(shù)的基本概念 120
4.5.2 多項式核函數(shù)的使用 121
拓展實訓:肥胖程度分類分析 122
應用拓展(1):利用身高、體重、性別數(shù)據(jù)實現(xiàn)肥胖程度判定 122
應用拓展(2):利用BMI實現(xiàn)肥胖程度分類 123
項目考核 123
項目5 鳶尾花分類分析 126
任務1 使用k近鄰實現(xiàn)鳶尾花的分類 130
5.1.1 k近鄰的基本原理 134
5.1.2 Sklearn中的KNeighborsClassifier()分類器 134
任務2 使用隨機森林實現(xiàn)鳶尾花的分類 134
5.2.1 集成學習方法 136
5.2.2 隨機森林 136
5.2.3 Sklearn中的RandomForestClassifier()分類器 137
任務3 使用Tensorflow設計神經網絡實現(xiàn)鳶尾花的分類 137
5.3.1 人工神經網絡 141
5.3.2 認識TensorFlow 142
5.3.3 神經網絡參數(shù)優(yōu)化 143
任務4 使用多層感知機實現(xiàn)鳶尾花的分類 144
5.4.1 神經網絡的基本原理 146
5.4.2 多層感知機 146
5.4.3 Sklearn中的MLPClassifier()分類器 146
拓展實訓:回歸與分類應用 147
應用拓展(1):設計神經網絡預測花瓣寬度 148
應用拓展(2):利用身高、體重、性別數(shù)據(jù)實現(xiàn)肥胖程度分類 149
項目考核 150
項目6 觀影用戶聚類分析 154
任務1 使用DBSCAN確定聚類的質心個數(shù) 158
6.1.1 DBSCAN的優(yōu)缺點 162
6.1.2 Sklearn中的DBSCAN() 163
任務2 使用k-Means對觀影用戶進行聚類 164
6.2.1 k-Means的基本概念 167
6.2.2 k-Means的特點 168
6.2.3 Sklearn中的KMeans() 168
拓展實訓:根據(jù)身高、體重和性別對用戶進行聚類 169
項目考核 170
項目7 超市零售數(shù)據(jù)關聯(lián)規(guī)則挖掘 173
任務1 對超市零售數(shù)據(jù)做預處理 177
任務2 使用Apriori算法實現(xiàn)超市零售數(shù)據(jù)關聯(lián)規(guī)則挖掘 178
7.2.1 購物籃分析 182
7.2.2 頻繁項集 182
7.2.3 關聯(lián)規(guī)則 183
7.2.4 Apriori算法 184
7.2.5 強關聯(lián)規(guī)則 185
任務3 調用apyori庫實現(xiàn)超市零售數(shù)據(jù)關聯(lián)規(guī)則挖掘 187
7.3.1 apyori庫 188
7.3.2 Apriori算法的優(yōu)缺點 189
拓展實訓:論文作者關聯(lián)規(guī)則挖掘 189
項目考核 191
項目8 人體行為識別應用 195
任務1 使用卷積神經網絡識別人體行為 202
8.1.1 Keras環(huán)境準備 206
8.1.2 行為數(shù)據(jù)的獲取與解析 206
8.1.3 行為數(shù)據(jù)的特征分析 207
8.1.4 Keras中的Conv1D()卷積層 208
8.1.5 Keras中的AveragePooling1D()池化層 209
任務2 使用循環(huán)神經網絡識別人體行為 209
8.2.1 長短期記憶網絡 212
8.2.2 Keras中的LSTM()層 212
拓展實訓:電影評論數(shù)據(jù)分析應用 213
項目考核 215
項目9 生成式人工智能應用 216
任務1 使用文心一言自動生成文本內容 220
9.1.1 自然語言處理 224
9.1.2 大語言模型 224
9.1.3 ChatGPT 225
9.1.4 變換器 226
9.1.5 文心一言 227
任務2 使用AI創(chuàng)意工坊自動生成圖像 228
9.2.1 AI繪畫及其應用 231
9.2.2 AI繪畫平臺 231
9.2.3 擴散模型 232
9.2.4 生成對抗網絡 233
任務3 使用GitHub Copilot進行編程 234
9.3.1 代碼智能 238
9.3.2 OpenAI Codex 239
9.3.3 代碼智能的發(fā)展前景 239
拓展實訓:調用大模型實現(xiàn)聊天機器應用 240
項目考核 244
項目10 智能產線應用 247
任務1 數(shù)據(jù)采集環(huán)境搭建 251
10.1.1 工業(yè)相機重要參數(shù) 254
10.1.2 工業(yè)互聯(lián)網云端控制系統(tǒng)的安裝與測試 255
任務2 工件圖像數(shù)據(jù)采集與增強 260
10.2.1 智能制造行業(yè)數(shù)據(jù)采集 264
10.2.2 智能產線基本概念 265
10.2.3 機器視覺基本概念 265
10.2.4 計算機視覺基本概念 266
10.2.5 圖像增廣技術 270
任務3 工件圖像智能分類分析 270
任務4 誤差自動補償數(shù)據(jù)分析 274
10.4.1 誤差補償技術 277
10.4.2 均方誤差損失函數(shù) 277
任務5 聯(lián)調與自動化生產驗證 278
拓展實訓:復雜工件分揀與調參應用 280
項目考核 281
附錄A 本書使用的工具包 283
參考文獻 284