R語言,一種自由軟件編程語言與操作環(huán)境,主要用于統(tǒng)計(jì)分析、繪圖、數(shù)據(jù)挖掘. 雖然 R是一款統(tǒng)計(jì)軟件,但也可用于數(shù)值分析和矩陣計(jì)算. 本書是 R語言的一本入門教材,講授學(xué)習(xí) R必備的內(nèi)容. 僅使用最基本的統(tǒng)計(jì)知識,介紹 R函數(shù)的使用方法,以及如何使用 R的內(nèi)置函數(shù)去解決統(tǒng)計(jì)中的問題. 介紹 R中與數(shù)值分析相關(guān)的內(nèi)容,并利用相應(yīng)算法來學(xué)習(xí) R語言的編程. 介紹 R的繪圖功能,及相關(guān)的繪圖函數(shù). 本書的每一章是針對一類問題設(shè)計(jì)的,討論的內(nèi)容由淺入深、循序漸進(jìn). 并在最后一章介紹擴(kuò)展 R的方法,讀者可以根據(jù)自己的需求擴(kuò)展 R的相關(guān)功能.
本書適合于理工、經(jīng)管和生物等專業(yè)的本科生、研究生,或者相關(guān)專業(yè)的技術(shù)人員學(xué)習(xí) R使用,可以作為“統(tǒng)計(jì)計(jì)算”課程的教材或教學(xué)參考書,也可作為數(shù)學(xué)建模競賽培訓(xùn)的輔導(dǎo)教材.
《統(tǒng)計(jì)建模與 R軟件》一書出版 (2007年 4月出版 )已有 7個年頭 ,當(dāng)初編寫此書的主要目的是希望學(xué)生在數(shù)學(xué)建模競賽中 ,使用 R軟件解決他們可能遇到的統(tǒng)計(jì)問題 .隨著 R軟件在中國的普及與發(fā)展 ,此書有幸成為 R語言初學(xué)者的入門教材 1 .因此 ,當(dāng)有人向我建議,專門編寫一本 R語言的入門教材時,本人欣然同意,并著手這方面的工作.
真正開始編寫教材后 ,遇到的困難超出我的想象 .首先 ,R語言涵蓋的內(nèi)容非常廣泛 ,而且國內(nèi)近年來已出版了大量與 R語言有關(guān)的書籍 ,哪些內(nèi)容是初學(xué)者必備的知識 ?其次 ,如何處理本書與前一本書的關(guān)系 ,哪些內(nèi)容需要保留 ,哪些知識又需要補(bǔ)充 ?再次 ,統(tǒng)計(jì)知識介紹到什么程度 ?R語言是進(jìn)行統(tǒng)計(jì)分析的工具 ,如果本書 “只是講解 R”,是不可能做到的 .
R語言是一種自由軟件編程語言與操作環(huán)境 ,主要用于統(tǒng)計(jì)分析、繪圖、數(shù)據(jù)挖掘 .R本來是由新西蘭奧克蘭大學(xué)的 Ross Ihaka和 Robert Gentleman開發(fā)(也因此稱為 R),現(xiàn)在由 “R開發(fā)核心團(tuán)隊(duì) ”負(fù)責(zé)開發(fā) .雖然 R是主要用于統(tǒng)計(jì)分析的軟件 ,但也有人用作矩陣計(jì)算,其分析速度可媲美專用于矩陣計(jì)算的自由軟件 GNU Octave和商業(yè)軟件 MATLAB2 .
本書是 R語言的一本入門教材 ,它包括 R軟件下載與安裝、程序包的載入和基本的 R命令 ,這些都是學(xué)習(xí) R所必備的內(nèi)容 .為了避免同時講授統(tǒng)計(jì)知識和 R語言可能產(chǎn)生的困難,本書假定讀者對相關(guān)的統(tǒng)計(jì)知識有了一定的了解 .書中只是結(jié)合最基本的統(tǒng)計(jì)知識 ,介紹相關(guān)函數(shù)的使用方法 ,以及如何使用內(nèi)置函數(shù)去解決統(tǒng)計(jì)中的問題 ,相關(guān)統(tǒng)計(jì)知識的介紹是為了更好地理解函數(shù)中相應(yīng)參數(shù)的意義.
雖然 R是一款統(tǒng)計(jì)軟件 ,但它也涉及數(shù)值分析的相關(guān)內(nèi)容 ,而且這些內(nèi)容是統(tǒng)計(jì)計(jì)算中不可缺少的內(nèi)容 .因此 ,本書用一章的篇幅對數(shù)值分析的部分內(nèi)容作了簡要的介紹 .介紹它們的另一個目的是學(xué)習(xí) R語言的編程 ,R與其他計(jì)算機(jī)語言一樣 ,是可以進(jìn)行編程的 .學(xué)會編程可以擴(kuò)展 R的使用范圍 ,這也是使用 R進(jìn)行科學(xué)研究必備的條件 .R的另一個強(qiáng)大的功能是繪圖 ,本書也用一章的篇幅系統(tǒng)地介紹了 R語言的繪圖函數(shù) ,以及繪圖參數(shù)的設(shè)置.
本書的每一章 ,基本上是針對一類 (統(tǒng)計(jì) )問題設(shè)計(jì)的 ,討論的內(nèi)容由淺入深、循序漸進(jìn).完成一章的學(xué)習(xí)后 ,基本上能完成相關(guān)內(nèi)容的計(jì)算與分析 .雖然是一本入門教材 ,但了解 R的擴(kuò)展功能還是必不可少的 ,本書以多元分布為例 ,介紹擴(kuò)展包的下載與安裝、擴(kuò)展函數(shù)的使用,為讀者學(xué)會下載和使用與自己學(xué)習(xí)和工作相關(guān)的擴(kuò)展函數(shù)打下基礎(chǔ).
本書的主要內(nèi)容 :第 1章,R語言入門 .主要介紹 R的基本使用方法 ,如 R的下載與安裝;向量、矩陣、數(shù)組、列表、數(shù)據(jù)框等對象的特點(diǎn) ,以及數(shù)據(jù)的讀寫、控制流和相應(yīng)程序設(shè)計(jì).第 2章,數(shù)值計(jì)算 .主要介紹與數(shù)值分析相關(guān)的部分內(nèi)容 ,如非線性方程組求解、函數(shù)求極值、數(shù)據(jù)擬合與數(shù)值積分等 .第 3章,R語言繪圖 .主要介紹 R中的繪圖函數(shù) ,如高、低水平繪圖函數(shù) ,以及繪圖參數(shù)的設(shè)置 .第 4章,概率、分布與隨機(jī)模擬 .主要介紹 R中重要分 布函數(shù)的計(jì)算 ,以及隨機(jī)抽樣與隨機(jī)模擬的方法 .第 5章,假設(shè)檢驗(yàn) .主要介紹重要的參數(shù)檢驗(yàn) ,如 t檢驗(yàn)、 F檢驗(yàn)和重要的非參數(shù)檢驗(yàn) ,如秩檢驗(yàn)、分布檢驗(yàn)、列聯(lián)表檢驗(yàn) .第 6章,回歸分析 .主要介紹各種回歸方法 ,如線性回歸、穩(wěn)健回歸、非線性回歸和廣義線性回歸 .第 7章,多元統(tǒng)計(jì)分析 .介紹各種多元分析方法 ,如方差分析、判別分析、聚類分析、主成分分析、因子分析和典型相關(guān)分析 .第 8章,多元分布 .主要介紹多元正態(tài)分布函數(shù)和相應(yīng)的檢驗(yàn)方法 ,如均值向量的檢驗(yàn) ,以及相關(guān)程序包的下載 ,這部分內(nèi)容是需要下載擴(kuò)展程序包才能完成的.
本書所介紹的 R函數(shù)均以 R-2.15.2版本 1為基準(zhǔn) ,所有函數(shù) (包括自編函數(shù) )均通過測試,讀者如果需要書中例題的相關(guān)程序 ,以及例題和部分習(xí)題的數(shù)據(jù)文件 ,可以發(fā)送電子郵件向作者索取,郵件地址:xueyi@bjut.edu.cn.
本書是一本 R語言入門教材 ,適合于理工、經(jīng)濟(jì)、管理、生物等專業(yè)的本科生、研究生 ,或者相關(guān)專業(yè)的技術(shù)人員學(xué)習(xí) R軟件使用 ,可以作為 “統(tǒng)計(jì)計(jì)算 ”課程的教材或教學(xué)參考書,也可作為數(shù)學(xué)建模競賽培訓(xùn)的輔導(dǎo)教材.
由于受編者水平所限 ,書中一定存在不足甚至錯誤之處 ,歡迎讀者不吝指正 ,作者的電子郵件地址是: xueyi@bjut.edu.cn (薛毅); chenliping@bjut.edu.cn (陳立萍).
編者
2014年 3月于北京工業(yè)大學(xué)
第1章R語言入門
1.1R語言簡介
1.1.1R軟件的下載與安裝
1.1.2初識R
1.1.3下拉式菜單與快捷方式
1.2向量
1.2.1基本運(yùn)算
1.2.2數(shù)據(jù)對象
1.2.3向量賦值
1.2.4產(chǎn)生有規(guī)律的向量
1.2.5邏輯向量
1.2.6向量中的缺失數(shù)據(jù)
1.2.7字符型向量
1.2.8用vector函數(shù)生成向量
1.2.9復(fù)數(shù)向量
1.2.10向量的下標(biāo)運(yùn)算
1.2.11與數(shù)值向量有關(guān)的函數(shù)
1.3因子
1.3.1factor函數(shù)
1.3.2gl函數(shù)
1.3.3與因子有關(guān)的函數(shù)
1.4矩陣..
1.4.1矩陣的生成
1.4.2與矩陣運(yùn)算有關(guān)的函數(shù)
1.4.3矩陣下標(biāo)
1.5數(shù)組..
1.5.1數(shù)組的生成
1.5.2數(shù)組下標(biāo)
1.5.3apply函數(shù)
1.6對象和它的模式與屬性
1.6.1固有屬性:mode和length
1.6.2修改對象的長度
1.6.3attributes和attr函數(shù)
1.6.4對象的class屬性
1.7列表
1.7.1列表的構(gòu)造
1.7.2列表的修改
1.7.3返回值為列表的函數(shù)
1.8數(shù)據(jù)框
1.8.1數(shù)據(jù)框的生成
1.8.2數(shù)據(jù)框的引用
1.8.3attach函數(shù)
1.8.4with函數(shù)
1.8.5列表與數(shù)據(jù)框的編輯
1.8.6lapply函數(shù)和sapply函數(shù)
1.9讀、寫數(shù)據(jù)文件
1.9.1讀純文本文件
1.9.2讀取其他軟件格式的數(shù)據(jù)文件
1.9.3讀取Excel表格數(shù)據(jù)
1.9.4數(shù)據(jù)集的讀取
1.9.5寫數(shù)據(jù)文件
1.10控制流
1.10.1分支函數(shù)
1.10.2中止語句與空語句
1.10.3循環(huán)函數(shù)
1.11R程序設(shè)計(jì)
1.11.1函數(shù)定義
1.11.2定義新的二元運(yùn)算
1.11.3有名參數(shù)與默認(rèn)參數(shù)
1.11.4遞歸函數(shù)
1.11.5程序運(yùn)行
1.11.6程序調(diào)試
第2章數(shù)值計(jì)算
2.1向量與矩陣的運(yùn)算
2.1.1向量的四則運(yùn)算
2.1.2向量的內(nèi)積與外積
2.1.3矩陣的四則運(yùn)算
2.1.4矩陣的函數(shù)運(yùn)算
2.1.5求解線性方程組
2.1.6矩陣分解
2.2非線性方程(組)求根
2.2.1非線性方程求根
2.2.2求解非線性方程組
2.3求函數(shù)極值
2.3.1一元函數(shù)極值
2.3.2多元函數(shù)極值
2.4插值
2.4.1多項(xiàng)式插值
2.4.2分段線性插值
2.4.3分段Hermite插值
2.4.4三次樣條函數(shù)
2.5數(shù)據(jù)擬合
2.5.1最小二乘原理
2.5.2求解超定線性方程組的QR分解方法
2.5.3多項(xiàng)式擬合
2.6數(shù)值積分
2.6.1梯形求積公式
2.6.2Simpson求積公式
2.6.3integrate函數(shù)
第3章R語言繪圖
3.1高水平繪圖函數(shù).
3.1.1基本繪圖函數(shù)--plot函數(shù)
3.1.2多組圖--pairs函數(shù)
3.1.3協(xié)同圖--coplot函數(shù)
3.1.4點(diǎn)圖--dotchart函數(shù)
3.1.5餅圖--pie函數(shù)
3.1.6條形圖--parplot函數(shù)
3.1.7直方圖--hist函數(shù)
3.1.8箱線圖--boxplot函數(shù)
3.1.9Q-Q圖--qqnorm函數(shù)
3.1.10三維透視圖--persp函數(shù)
3.1.11等值線--contour函數(shù)
3.2圖形參數(shù)
3.2.1高水平繪圖函數(shù)中的參數(shù)
3.2.2圖形參數(shù)的永久設(shè)置
3.2.3圖形參數(shù)的臨時設(shè)置
3.2.4圖形元素控制
3.3低水平圖形函數(shù)
3.3.1添加點(diǎn)、線、文字、符號或數(shù)學(xué)表達(dá)式
3.3.2添加直線、線段和圖例
3.3.3添加圖題、邊與盒子
3.3.4添加多邊形或圖形陰影
3.3.5交互圖形函數(shù)
3.4圖形參數(shù)(續(xù))
3.4.1坐標(biāo)軸與坐標(biāo)刻度
3.4.2圖形邊空
3.4.3多圖環(huán)境
3.5圖形設(shè)備
第4章概率、分布與隨機(jī)模擬
4.1組合數(shù)與概率計(jì)算
4.1.1生成組合方案
4.1.2生成組合數(shù)
4.1.3概率計(jì)算
4.2分布函數(shù)
4.2.1分布函數(shù)
4.2.2分位數(shù)
4.3常用的分布函數(shù)
4.3.1正態(tài)分布
4.3.2均勻分布
4.3.3指數(shù)分布
4.3.4二項(xiàng)分布
4.3.5Poisson分布
4.3.6χ2分布
4.3.7t分布
4.3.8F分布
4.3.9R的內(nèi)置函數(shù)
4.4樣本統(tǒng)計(jì)量
4.4.1樣本均值
4.4.2樣本方差
4.4.3順序統(tǒng)計(jì)量
4.4.4中位數(shù)
4.4.5分位數(shù)
4.4.6樣本的k階矩
4.4.7偏度系數(shù)與峰度系數(shù)
4.4.8經(jīng)驗(yàn)分布函數(shù)
4.5隨機(jī)抽樣與隨機(jī)模擬
4.5.1隨機(jī)數(shù)的生成
4.5.2隨機(jī)抽樣
4.5.3隨機(jī)模擬
第5章假設(shè)檢驗(yàn)
5.1假設(shè)檢驗(yàn)的基本思想
5.1.1基本概念
5.1.2基本思想
5.1.3兩類錯誤
5.1.4P值
5.2重要的參數(shù)檢驗(yàn)
5.2.1t檢驗(yàn)
5.2.2F檢驗(yàn)
5.2.3二項(xiàng)分布的近似檢驗(yàn)
5.2.4二項(xiàng)分布的精確檢驗(yàn)
5.2.5Poisson檢驗(yàn)
5.2.6功效檢驗(yàn)
5.3符號檢驗(yàn)與秩檢驗(yàn)
5.3.1符號檢驗(yàn)
5.3.2秩檢驗(yàn)與秩檢驗(yàn)
5.3.3尺度參數(shù)檢驗(yàn)
5.4分布檢驗(yàn)
5.4.1Pearson擬合優(yōu)度χ2檢驗(yàn)
5.4.2Kolmogorov-Smirnov檢驗(yàn)
5.4.3正態(tài)性檢驗(yàn)
5.5列聯(lián)表檢驗(yàn)
5.5.1Pearsonχ2獨(dú)立性檢驗(yàn)
5.5.2Fisher精確獨(dú)立性檢驗(yàn)
5.5.3McNemar檢驗(yàn)
5.5.4三維列聯(lián)表的條件獨(dú)立性檢驗(yàn)
5.6相關(guān)性檢驗(yàn)
5.6.1Pearson相關(guān)檢驗(yàn)
5.6.2Spearman相關(guān)檢驗(yàn)
5.6.3Kendall相關(guān)檢驗(yàn)
5.6.4cor.test函數(shù)
5.7游程檢驗(yàn)
第6章回歸分析
6.1線性回歸
6.1.1線性回歸模型
6.1.2線性回歸模型的計(jì)算
6.1.3預(yù)測區(qū)間與置信區(qū)間
6.1.4其他函數(shù)
6.2回歸診斷
6.2.1為什么要作回歸診斷
6.2.2殘差檢驗(yàn)
6.2.3影響分析
6.3Box-Cox變換
6.4多重共線性
6.4.1多重共線性現(xiàn)象
6.4.2嶺估計(jì)
6.5逐步回歸
6.5.1“最優(yōu)”回歸方程的選擇
6.5.2逐步回歸的計(jì)算
6.6穩(wěn)健回歸
6.6.1穩(wěn)健回歸的基本概念
6.6.2穩(wěn)健回歸
6.6.3抗干擾回歸
6.7非線性回歸
6.7.1多項(xiàng)式回歸
6.7.2局部多項(xiàng)式回歸
6.7.3非線性回歸
6.8廣義線性回歸模型
6.8.1glm函數(shù)
6.8.2Logistic回歸模型
6.8.3Poisson分布族
6.8.4正態(tài)分布族
第7章多元統(tǒng)計(jì)分析
7.1方差分析
7.1.1方差分析的數(shù)學(xué)模型
7.1.2方差分析的計(jì)算
7.1.3多重均值檢驗(yàn)
7.1.4與方差分析有關(guān)的函數(shù)
7.1.5方差分析的進(jìn)一步討論
7.1.6秩檢驗(yàn)
7.1.7協(xié)方差分析
7.2判別分析
7.2.1判別分析的數(shù)學(xué)模型
7.2.2判別分析的計(jì)算
7.3聚類分析
7.3.1距離和相似系數(shù)
7.3.2系統(tǒng)聚類法
7.3.3類個數(shù)的確定
7.3.4實(shí)例
7.3.5K均值聚類
7.4主成分分析
7.4.1主成分分析的數(shù)學(xué)模型
7.4.2主成分分析的計(jì)算
7.4.3主成分分析的應(yīng)用
7.5因子分析
7.5.1因子分析的數(shù)學(xué)模型
7.5.2因子分析函數(shù)
7.5.3因子分析的計(jì)算
7.6典型相關(guān)分析
7.6.1典型相關(guān)分析的數(shù)學(xué)模型
7.6.2典型相關(guān)分析的計(jì)算
第8章多元分布
8.1基本概念
8.1.1多元分布函數(shù)與概率密度函數(shù)
8.1.2多元正態(tài)分布
8.1.3與多元正態(tài)分布有關(guān)的R函數(shù)
8.2樣本統(tǒng)計(jì)量及抽樣分布
8.2.1樣本統(tǒng)計(jì)量
8.2.2抽樣分布
8.3多元正態(tài)總體均值向量的檢驗(yàn)
8.3.1單個總體均值向量的檢驗(yàn)
8.3.2兩個總體均值向量的檢驗(yàn)
8.3.3R中的均值檢驗(yàn)函數(shù)
8.4擴(kuò)展包中的其他函數(shù)
8.4.1多元t分布
8.4.2多元非參數(shù)檢驗(yàn)
8.4.3多元正態(tài)性檢驗(yàn)
索引
參考文獻(xiàn)