本書圍繞經(jīng)典的統(tǒng)計(jì)方法與 R 語言工具,從基本的統(tǒng)計(jì)描述分析方法出發(fā),講解了參數(shù)估計(jì)與假設(shè)檢驗(yàn)、線性回歸、邏輯回歸、降維分析方法,每一章重點(diǎn)介紹一種經(jīng)典方法或統(tǒng)計(jì)模型,對(duì)其基本定義、模型形式、統(tǒng)計(jì)方法的推導(dǎo)與解讀等都給出了細(xì)致的講解。此外,為了將理論與實(shí)踐緊密結(jié)合,本書每一章均提供了不同業(yè)務(wù)場景下的R語言編程實(shí)例,幫助讀者練習(xí)鞏固。本書適合相關(guān)學(xué)科本科生及研究生,以及對(duì)數(shù)據(jù)分析及建模感興趣的讀者。
朱雪寧,復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院副教授。2017年獲得北京大學(xué)光華管理學(xué)院商務(wù)統(tǒng)計(jì)與經(jīng)濟(jì)計(jì)量系博士學(xué)位,入選2019年度上海市青年科技英才揚(yáng)帆計(jì)劃,主持并參與多項(xiàng)國家自然科學(xué)基金。主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)數(shù)據(jù)分析及商務(wù)統(tǒng)計(jì)應(yīng)用等,在國內(nèi)外期刊發(fā)表論文二十余篇,著有《R語言:從數(shù)據(jù)思維到數(shù)據(jù)實(shí)戰(zhàn)》。
任怡萌,倫敦政治經(jīng)濟(jì)學(xué)院博士
張桂維,復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院碩士
米汶權(quán),復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院碩士
統(tǒng)計(jì)分析與R語言 1
1.1統(tǒng)計(jì)分析簡介 1
1.1.1了解數(shù)據(jù)及業(yè)務(wù)問題 002
1.1.2數(shù)據(jù)清洗與預(yù)處理 003
1.1.3數(shù)據(jù)描述及探索性分析 003
1.1.4模型構(gòu)建及解讀 004
1.2 R語言簡介 006
1.2.1為何要使用R語言 006
1.2.2 R語言的下載與安裝 007
1.2.3 R語言的使用 010
1.2.4工具包 014
1.3本章小結(jié) 015
1.4本章習(xí)題 016
R 語言中的數(shù)據(jù)管理及預(yù)處理
2.1基本數(shù)據(jù)類型 019
2.1.1數(shù)值型 019
2.1.2字符型 020
2.1.3邏輯型 020
2.1.4因子型 021
2.1.5時(shí)間型 022
2.2 數(shù)據(jù)結(jié)構(gòu) 022
2.2.1向量 022
2.2.2矩陣 028
2.2.3數(shù)組 031
2.2.4數(shù)據(jù)框 033
2.2.5列表 036
2.3 數(shù)據(jù)的讀入及寫出 042
2.3.1直接輸入數(shù)據(jù) 042
2.3.2從帶分隔符的文本文件中導(dǎo)入數(shù)據(jù) 042
2.3.3導(dǎo)入Excel 數(shù)據(jù) 044
2.3.4逐行讀入數(shù)據(jù) 044
2.3.5數(shù)據(jù)的寫出 045
2.4 數(shù)據(jù)集管理及預(yù)處理 046
2.4.1了解數(shù)據(jù)概況 047
2.4.2變量類型轉(zhuǎn)換 048
2.4.3時(shí)間型數(shù)據(jù)的操作 050
2.4.4數(shù)據(jù)集合并 051
2.4.5數(shù)據(jù)缺失、異常 052
2.5本章小結(jié) 053
2.6本章習(xí)題 053
基本統(tǒng)計(jì)分析 54
3.1基本描述統(tǒng)計(jì)量 056
3.1.1頻數(shù)統(tǒng)計(jì) 056
3.1.2均值 057
3.1.3分位數(shù) 057
3.1.4方差、標(biāo)準(zhǔn)差 058
3.1.5協(xié)方差與相關(guān)系數(shù) 059
3.1.6最大值、最小值 061
3.1.7峰度和偏度 062
3.2匯總分析 063
3.2.1交叉列聯(lián)表 063
3.2.2描述統(tǒng)計(jì)量的分組統(tǒng)計(jì) 065
3.3本章小結(jié) 066
3.4本章習(xí)題 067
數(shù)據(jù)描述與可視化 68
4.1統(tǒng)計(jì)表格 070
4.1.1變量說明表 070
4.1.2分組統(tǒng)計(jì)表 071
4.2數(shù)據(jù)可視化基礎(chǔ) 072
4.2.1統(tǒng)計(jì)圖形 072
4.2.2柱狀圖 073
4.2.3餅圖 076
4.2.4直方圖 077
4.2.5折線圖 078
4.2.6箱線圖 079
4.2.7散點(diǎn)圖 081
4.2.8相關(guān)系數(shù)圖 083
4.3數(shù)據(jù)可視化進(jìn)階 084
4.3.1ggplot2 包 084
4.3.2交互可視化 090
4.4本章小結(jié) 094
4.5本章習(xí)題 094
參數(shù)估計(jì)與假設(shè)檢驗(yàn) 96
5.1總體、樣本和樣本量 099
5.1.1總體 099
5.1.2樣本 100
5.1.3統(tǒng)計(jì)量 100
5.2參數(shù)估計(jì) 101
5.2.1矩估計(jì) 101
5.2.2最大似然估計(jì) 102
5.2.3區(qū)間估計(jì) 104
5.3假設(shè)檢驗(yàn) 109
5.3.1假設(shè)檢驗(yàn)的基本步驟 109
5.3.2假設(shè)檢驗(yàn)的p 值 112
5.3.3假設(shè)檢驗(yàn)問題的基本類型 114
5.3.4正態(tài)總體的假設(shè)檢驗(yàn) 115
5.4單因素方差分析 123
5.4.1單因素方差分析的基本思路
5.4.2實(shí)例分析 125
5.5本章小結(jié) 127
5.6本章習(xí)題 128
線性回歸 129
6.1模型形式 133
6.2模型理解 134
6.2.1回歸系數(shù)的理解 134
6.2.2定性變量轉(zhuǎn)換及回歸系數(shù)理解 135
6.2.3交互項(xiàng)的解讀 136
6.2.4σ2 的理解 136
6.3基本假定 136
6.4回歸參數(shù)的估計(jì) 138
6.4.1普通最小二乘估計(jì) 138
6.4.2最大似然估計(jì) 139
6.5假設(shè)檢驗(yàn) 139
6.5.1回歸系數(shù)的t 檢驗(yàn) 140
6.5.2回歸方程的F 檢驗(yàn) 140
6.6模型評(píng)價(jià) 141
6.7回歸診斷 141
6.7.1異方差 142
6.7.2強(qiáng)影響點(diǎn) 143
6.7.3多重共線性 143
6.7.4正態(tài)性 144
6.8變量選擇 144
6.8.1逐步回歸法 144
6.8.2信息準(zhǔn)則 145
6.9模型實(shí)現(xiàn) 146
6.9.1 R語言中的基本函數(shù) 146
6.9.2 實(shí)例分析 147
6.10小結(jié) 154
6.11本章習(xí)題 154
邏輯回歸 155
7.1模型形式 159
7.2模型估計(jì) 160
7.2.1參數(shù)估計(jì) 160
7.3模型評(píng)價(jià) 161
7.3.1準(zhǔn)確率、精確率及召回率 162
7.3.2ROC 曲線和AUC值 163
7.4實(shí)例分析 164
7.5本章小結(jié) 167
7.6本章習(xí)題 167
降維分析 169
8.1主成分分析 172
8.1.1主成分分析原理 172
8.1.2主成分個(gè)數(shù)選擇 174
8.1.3樣本的主成分及主成分得分 175
8.1.4R語言中的主成分分析 176
8.2 因子分析 180
8.2.1 正交因子模型 180
8.2.2 模型估計(jì) 181
8.2.3因子得分 187
8.2.4因子分析和主成分分析的異同
8.2因子分析 180
8.2.1正交因子模型 180
8.2.2模型估計(jì) 181
8.3小結(jié) 190
8.4本章習(xí)題 191