整合R語(yǔ)言深藏不漏的強(qiáng)大威力,決勝數(shù)據(jù)分析之巔
且聽(tīng)我將統(tǒng)計(jì)學(xué)之精髓娓娓道來(lái),助你砥礪大數(shù)據(jù)時(shí)代的掘金技法
探尋數(shù)據(jù)挖掘之術(shù),撥開(kāi)機(jī)器學(xué)習(xí)迷霧,點(diǎn)破公式背后的層層玄機(jī)
經(jīng)典統(tǒng)計(jì)理論和機(jī)器學(xué)習(xí)方法為數(shù)據(jù)挖掘提供了必要的分析技術(shù)。本書(shū)系統(tǒng)地介紹統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)領(lǐng)域中*為重要和流行的多種技術(shù)及其基本原理,在詳解有關(guān)算法的基礎(chǔ)上,結(jié)合大量R語(yǔ)言實(shí)例演示了這些理論在實(shí)踐中的使用方法。具體內(nèi)容被分成三個(gè)部分,即R語(yǔ)言編程基礎(chǔ)、基于統(tǒng)計(jì)的數(shù)據(jù)分析方法以及機(jī)器學(xué)習(xí)理論。統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)部分又具體介紹了參數(shù)估計(jì)、假設(shè)檢驗(yàn)、極大似然估計(jì)、非參數(shù)檢驗(yàn)方法(包括列聯(lián)分析、符號(hào)檢驗(yàn)、符號(hào)秩檢驗(yàn)等)、方差分析、線性回歸(包括嶺回歸和Lasso方法)、邏輯回歸、支持向量機(jī)、聚類(lèi)分析(包括K均值算法和EM算法)和人工神經(jīng)網(wǎng)絡(luò)等內(nèi)容。同時(shí),統(tǒng)計(jì)理論的介紹也為深化讀者對(duì)于后續(xù)機(jī)器學(xué)習(xí)部分的理解提供了很大助益。知識(shí)結(jié)構(gòu)和閱讀進(jìn)度的安排上既兼顧了循序漸進(jìn)的學(xué)習(xí)規(guī)律,亦統(tǒng)籌考慮了夯實(shí)基礎(chǔ)的必要性。本書(shū)內(nèi)容與實(shí)際應(yīng)用結(jié)合緊密,又力求突出深入淺出、系統(tǒng)翔實(shí)之特色,對(duì)算法原理的解釋更是細(xì)致入微。
左飛,服務(wù)于中國(guó)規(guī)模較大的移動(dòng)通信運(yùn)營(yíng)商,業(yè)余時(shí)間他撰寫(xiě)了多部計(jì)算機(jī)方面的著作,并譯有《編碼》、《提高C++性能的編程技術(shù)》等經(jīng)典名著。
第1章 初識(shí)R語(yǔ)言 1
1.1 R語(yǔ)言簡(jiǎn)介 1
1.2 安裝與運(yùn)行 3
1.3 開(kāi)始使用R 5
1.4 包的使用 7
1.5 使用幫助 8
第2章 探索R數(shù)據(jù) 10
2.1 向量的創(chuàng)建 10
2.2 向量的運(yùn)算 13
2.3 向量的篩選 15
2.4 矩陣的創(chuàng)建 17
2.5 矩陣的使用 20
2.5.1 矩陣的代數(shù)運(yùn)算 20
2.5.2 修改矩陣的行列 22
2.5.3 對(duì)行列調(diào)用函數(shù) 23
2.6 矩陣的篩選 25
第3章 編寫(xiě)R程序 28
3.1 流程的控制 28
3.1.1 條件選擇結(jié)構(gòu)的概念 28
3.1.2 條件選擇結(jié)構(gòu)的語(yǔ)法 29
3.1.3 循環(huán)結(jié)構(gòu)的基本概念 30
3.1.4 循環(huán)結(jié)構(gòu)的基本語(yǔ)法 31
3.2 算術(shù)與邏輯 33
3.3 使用函數(shù) 34
3.3.1 函數(shù)式語(yǔ)言 34
3.3.2 默認(rèn)參數(shù)值 35
3.3.3 自定義函數(shù) 36
3.3.4 遞歸的實(shí)現(xiàn) 38
3.4 編寫(xiě)代碼 40
第4章 概率統(tǒng)計(jì)基礎(chǔ) 42
4.1 概率論的基本概念 42
4.2 隨機(jī)變量數(shù)字特征 45
4.2.1 期望 45
4.2.2 方差 46
4.3 基本概率分布模型 48
4.3.1 離散概率分布 48
4.3.2 連續(xù)概率分布 52
4.3.3 使用內(nèi)嵌分布 55
4.4 大數(shù)定理及其意義 59
4.5 中央極限定理 62
4.6 隨機(jī)采樣分布 65
第5章 實(shí)用統(tǒng)計(jì)圖形 71
5.1 餅狀圖 71
5.2 直方圖 74
5.3 核密圖 78
5.4 箱線圖 81
5.4.1 箱線圖與分位數(shù) 81
5.4.2 使用并列箱線圖 84
5.5 條形圖 87
5.5.1 基本條形圖及調(diào)整 87
5.5.2 堆砌與分組條形圖 88
5.6 分位數(shù)與QQ圖 91
第6章 數(shù)據(jù)輸入/輸出 99
6.1 數(shù)據(jù)的載入 99
6.1.1 基本的數(shù)據(jù)導(dǎo)入方法 99
6.1.2 處理其他軟件的格式 103
6.1.3 讀取來(lái)自網(wǎng)頁(yè)的數(shù)據(jù) 104
6.1.4 從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù) 106
6.2 數(shù)據(jù)的保存 108
6.3 數(shù)據(jù)預(yù)處理 109
6.3.1 常用數(shù)學(xué)函數(shù) 110
6.3.2 修改數(shù)據(jù)標(biāo)簽 113
6.3.3 缺失值的處理 114
第7章 高級(jí)數(shù)據(jù)結(jié)構(gòu) 118
7.1 列表 118
7.1.1 列表的創(chuàng)建 118
7.1.2 列表元素的訪問(wèn) 120
7.1.3 增刪列表元素 121
7.1.4 拼接列表 123
7.1.5 列表轉(zhuǎn)化為向量 123
7.1.6 列表上的運(yùn)算 124
7.1.7 列表的遞歸 125
7.2 數(shù)據(jù)框 126
7.2.1 數(shù)據(jù)框的創(chuàng)建 126
7.2.2 數(shù)據(jù)框元素的訪問(wèn) 128
7.2.3 提取子數(shù)據(jù)框 129
7.2.4 數(shù)據(jù)框行列的添加 130
7.2.5 數(shù)據(jù)框的合并 132
7.2.6 數(shù)據(jù)框的其他操作 134
7.3 因子 135
7.3.1 因子的創(chuàng)建 136
7.3.2 因子中插入水平 137
7.3.3 因子和常用函數(shù) 138
7.4 表 140
7.4.1 表的創(chuàng)建 141
7.4.2 表中元素的訪問(wèn) 143
7.4.3 表中變量的邊際值 143
第8章 統(tǒng)計(jì)推斷 146
8.1 參數(shù)估計(jì) 146
8.1.1 參數(shù)估計(jì)的基本原理 146
8.1.2 單總體參數(shù)區(qū)間估計(jì) 149
8.1.3 雙總體均值差的估計(jì) 155
8.1.4 雙總體比例差的估計(jì) 161
8.2 假設(shè)檢驗(yàn) 162
8.2.1 基本概念 162
8.2.2 兩類(lèi)錯(cuò)誤 166
8.2.3 均值檢驗(yàn) 167
8.3 極大似然估計(jì) 172
8.3.1 極大似然法的基本原理 172
8.3.2 求極大似然估計(jì)的方法 174
8.3.3 極大似然估計(jì)應(yīng)用舉例 176
第9章 非參數(shù)檢驗(yàn)方法 181
9.1 列聯(lián)分析 181
9.1.1 類(lèi)別數(shù)據(jù)與列聯(lián)表 181
9.1.2 皮爾遜(Pearson)的卡方檢驗(yàn) 182
9.1.3 列聯(lián)分析應(yīng)用條件 186
9.1.4 費(fèi)希爾(Fisher)的確切檢驗(yàn) 188
9.2 符號(hào)檢驗(yàn) 190
9.3 威爾科克森(Wilcoxon)符號(hào)秩檢驗(yàn) 195
9.4 威爾科克森(Wilcoxon)的秩和檢驗(yàn) 199
9.5 克魯斯卡爾-沃利斯(Kruskal-Wallis)檢驗(yàn) 204
第10章 一元線性回歸 208
10.1 回歸分析的性質(zhì) 208
10.2 回歸的基本概念 210
10.2.1 總體的回歸函數(shù) 210
10.2.2 隨機(jī)干擾的意義 211
10.2.3 樣本的回歸函數(shù) 213
10.3 回歸模型的估計(jì) 214
10.3.1 普通最小二乘法原理 214
10.3.2 一元線性回歸的應(yīng)用 216
10.3.3 經(jīng)典模型的基本假定 218
10.3.4 總體方差的無(wú)偏估計(jì) 222
10.3.5 估計(jì)參數(shù)的概率分布 225
10.4 正態(tài)條件下的模型檢驗(yàn) 227
10.4.1 擬合優(yōu)度的檢驗(yàn) 227
10.4.2 整體性假定檢驗(yàn) 231
10.4.3 單個(gè)參數(shù)的檢驗(yàn) 233
10.5 一元線性回歸模型預(yù)測(cè) 234
10.5.1 點(diǎn)預(yù)測(cè) 234
10.5.2 區(qū)間預(yù)測(cè) 235
第11章 線性回歸進(jìn)階 239
11.1 多元線性回歸模型 239
11.2 多元回歸模型估計(jì) 241
11.2.1 最小二乘估計(jì)量 241
11.2.2 多元回歸的實(shí)例 242
11.2.3 總體參數(shù)估計(jì)量 245
11.3 多元回歸模型檢驗(yàn) 247
11.3.1 線性回歸的顯著性 247
11.3.2 回歸系數(shù)的顯著性 249
11.4 多元線性回歸模型預(yù)測(cè) 250
11.5 其他回歸模型函數(shù)形式 253
11.5.1 雙對(duì)數(shù)模型以及生產(chǎn)函數(shù) 253
11.5.2 倒數(shù)模型與菲利普斯曲線 255
11.5.3 多項(xiàng)式回歸模型及其分析 258
11.6 回歸模型的評(píng)估與選擇 260
11.6.1 嵌套模型選擇 261
11.6.2 赤池信息準(zhǔn)則 262
11.6.3 逐步回歸方法 265
11.7 現(xiàn)代回歸方法的新進(jìn)展 269
11.7.1 多重共線性 269
11.7.2 嶺回歸 270
11.7.3 從嶺回歸到Lasso 271
第12章 方差分析方法 275
12.1 方差分析的基本概念 275
12.2 單因素方差分析方法 278
12.2.1 基本原理 278
12.2.2 分析步驟 279
12.2.3 強(qiáng)度測(cè)量 280
12.3 雙因素方差分析方法 281
12.3.1 無(wú)交互作用的分析 281
12.3.2 有交互作用的分析 286
12.4 多重比較 289
12.4.1 多重t檢驗(yàn) 290
12.4.2 "Dunnett" 檢驗(yàn) 291
12.4.3 "Tukey" 的"HSD" 檢驗(yàn) 294
12.4.4 "Newman" -"Keuls" 檢驗(yàn) 298
12.5 方差齊性的檢驗(yàn)方法 301
12.5.1 "Bartlett" 檢驗(yàn)法 301
12.5.2 "Levene" 檢驗(yàn)法 303
第13章 聚類(lèi)分析 307
13.1 聚類(lèi)的概念 307
13.2 K均值算法 308
13.2.1 距離度量 309
13.2.2 算法描述 310
13.2.3 應(yīng)用實(shí)例 312
13.3 最大期望算法 314
13.3.1 算法原理 314
13.3.2 收斂探討 319
13.4 高斯混合模型 320
13.4.1 模型推導(dǎo) 320
13.4.2 應(yīng)用實(shí)例 323
第14章 支持向量機(jī) 326
14.1 從邏輯回歸到線性分類(lèi) 326
14.2 線性可分的支持向量機(jī) 330
14.2.1 函數(shù)距離與幾何距離 330
14.2.2 最大間隔分類(lèi)器 332
14.2.3 拉格朗日乘數(shù)法 334
14.2.4 對(duì)偶問(wèn)題的求解 339
14.3 松弛因子與軟間隔模型 343
14.4 非線性支持向量機(jī)方法 345
14.4.1 從更高維度上分類(lèi) 345
14.4.2 非線性核函數(shù)方法 347
14.4.3 默瑟定理與核函數(shù) 350
14.5 對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的實(shí)踐 350
14.5.1 基本建模函數(shù) 351
14.5.2 分析建模結(jié)果 355
第15章 人工神經(jīng)網(wǎng)絡(luò) 358
15.1 從感知機(jī)開(kāi)始 358
15.1.1 感知機(jī)模型 358
15.1.2 感知機(jī)學(xué)習(xí) 360
15.1.3 多層感知機(jī) 362
15.2 基本神經(jīng)網(wǎng)絡(luò) 365
15.2.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 365
15.2.2 符號(hào)標(biāo)記說(shuō)明 366
15.2.3 后向傳播算法 368
15.3 神經(jīng)網(wǎng)絡(luò)實(shí)踐 370
15.3.1 核心函數(shù)介紹 370
15.3.2 應(yīng)用分析實(shí)踐 372
參考文獻(xiàn) 375