周英,中科數(shù)據(jù)首席數(shù)據(jù)科學(xué)家。曾在某知名搜索引擎公司任職多年,主要從事互聯(lián)網(wǎng)文本挖掘相關(guān)的工作。目前專注于大數(shù)據(jù)挖掘技術(shù)的工業(yè)應(yīng)用研究和工程應(yīng)用,已成功完成數(shù)據(jù)挖掘量化選股、大型設(shè)備保養(yǎng)維護預(yù)警、銀行客戶信用評分、電商客戶分類及精準(zhǔn)營銷優(yōu)化等多個大型項目。著有《量化投資:數(shù)據(jù)挖掘技術(shù)與實踐(MATLAB版)》(國際上一本系統(tǒng)介紹將數(shù)據(jù)挖掘技術(shù)用于量化投資的書籍,已被金融行業(yè)多家機構(gòu)應(yīng)用)。
卓金武,MathWorks(MATLAB)中國區(qū)科學(xué)計算業(yè)務(wù)總監(jiān),資深數(shù)據(jù)挖掘?qū)<?,主要?fù)責(zé)數(shù)據(jù)挖掘、優(yōu)化、量化投資、風(fēng)險管理等科學(xué)計算業(yè)務(wù),已為工行、交行、中投、華為、通用、一汽、上汽、格力等多家企業(yè)提供數(shù)據(jù)挖掘解決方案。已出版著作兩部:《MATLAB在數(shù)學(xué)建模中的應(yīng)用》(第1版和第2版),《量化投資:數(shù)據(jù)挖掘技術(shù)與實踐(MATLAB版)》。
大學(xué)期間曾兩次獲全國大學(xué)生數(shù)學(xué)建模競賽一等獎 (2003和 2004),一次獲全國研究生數(shù)學(xué)建模競賽一等獎 (2007)。
卞月青,深圳人人數(shù)據(jù)挖掘經(jīng)理。曾就職于三一重工, 主要從事工業(yè)大數(shù)據(jù)分析工作。2012年以來,一直從事基于大數(shù)據(jù)的應(yīng)用研發(fā)工作,從事的工作包括兩個方面, 一是為銀行、P2P、小貸公司開發(fā)基于數(shù)據(jù)挖掘的信用評級系統(tǒng);二是利用互聯(lián)網(wǎng)大數(shù)據(jù)挖掘技術(shù),采集、清洗、集成特定領(lǐng)域的數(shù)據(jù),并開發(fā)成大數(shù)據(jù)公眾服務(wù)平臺。
第一篇基礎(chǔ)篇
第1章緒論
1.1 大數(shù)據(jù)與數(shù)據(jù)挖掘
1.1.1 何為大數(shù)據(jù)
1.1.2 大數(shù)據(jù)的價值
1.1.3 大數(shù)據(jù)與數(shù)據(jù)挖掘的關(guān)系
1.2 數(shù)據(jù)挖掘的概念和原理
1.2.1 什么是數(shù)據(jù)挖掘
1.2.2 數(shù)據(jù)挖掘的原理
1.3 數(shù)據(jù)挖掘的內(nèi)容
1.3.1 關(guān)聯(lián)
1.3.2 回歸
1.3.3 分類
1.3.4 聚類
1.3.5 預(yù)測
1.3.6 診斷
1.4 數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域
1.4.1 零售業(yè)
1.4.2 銀行業(yè)
1.4.3 證券業(yè)
1.4.4 能源業(yè)
1.4.5 醫(yī)療行業(yè)
1.4.6 通信行業(yè)
1.4.7 汽車行業(yè)
1.4.8 公共事業(yè)
1.5 大數(shù)據(jù)挖掘的要點
1.6 小結(jié)
參考文獻(xiàn)
第2章數(shù)據(jù)挖掘的過程及工具
2.1 數(shù)據(jù)挖掘過程概述
2.2 挖掘目標(biāo)的定義
2.3 數(shù)據(jù)的準(zhǔn)備
2.4 數(shù)據(jù)的探索
2.5 模型的建立
2.6 模型的評估
2.7 模型的部署
2.8 工具的比較與選擇
2.9 小結(jié)
參考文獻(xiàn)
第3章 MATLAB數(shù)據(jù)挖掘快速入門
3.1 MATLAB快速入門
3.1.1 MATLAB概要
3.1.2 MATLAB的功能
3.1.3 快速入門案例
3.1.4 入門后的提高
3.2 MATLAB常用技巧
3.2.1 常用標(biāo)點的功能
3.2.2 常用操作指令
3.2.3 指令編輯操作鍵
3.2.4 MATLAB數(shù)據(jù)類型
3.3 MATLAB開發(fā)模式
3.3.1 命令行模式
3.3.2 腳本模式
3.3.3 面向?qū)ο竽J?/p>
3.3.4 三種模式的配合
3.4 MATLAB數(shù)據(jù)挖掘引例
3.5 MATLAB集成數(shù)據(jù)挖掘工具
3.5.1 分類學(xué)習(xí)機簡介
3.5.2 交互探索算法的方式
3.5.3 MATLAB分類學(xué)習(xí)機應(yīng)用實例
3.6 小結(jié)
第二篇技術(shù)篇
第4章數(shù)據(jù)的準(zhǔn)備
4.1 數(shù)據(jù)的收集
4.1.1 認(rèn)識數(shù)據(jù)
4.1.2 數(shù)據(jù)挖掘的數(shù)據(jù)源
4.1.3 數(shù)據(jù)抽樣
4.1.4 金融行業(yè)的數(shù)據(jù)源
4.1.5 從雅虎獲取交易數(shù)據(jù)
4.1.6 從大智慧獲取財務(wù)數(shù)據(jù)
4.1.7 從Wind獲取高質(zhì)量數(shù)據(jù)
4.2 數(shù)據(jù)質(zhì)量分析
4.2.1 數(shù)據(jù)質(zhì)量分析的必要性
4.2.2 數(shù)據(jù)質(zhì)量分析的目地
4.2.3 數(shù)據(jù)質(zhì)量分析的內(nèi)容
4.2.4 數(shù)據(jù)質(zhì)量分析方法
4.2.5 數(shù)據(jù)質(zhì)量分析的結(jié)果及應(yīng)用
4.3 數(shù)據(jù)預(yù)處理
4.3.1 為什么需要數(shù)據(jù)預(yù)處理
4.3.2 數(shù)據(jù)預(yù)處理的方法
4.3.3 數(shù)據(jù)清洗
4.3.4 數(shù)據(jù)集成
4.3.5 數(shù)據(jù)歸約
4.3.6 數(shù)據(jù)變換
4.4 小結(jié)
參考文獻(xiàn)
第5章數(shù)據(jù)的探索
5.1 衍生變量
5.1.1 衍生變量的定義
5.1.2 變量衍生的原則和方法
5.1.3 常用的股票衍生變量
5.1.4 評價型衍生變量
5.1.5 衍生變量數(shù)據(jù)收集與集成
5.2 數(shù)據(jù)的統(tǒng)計
5.2.1 基本描述性統(tǒng)計
5.2.2 分布描述性統(tǒng)計
5.3 數(shù)據(jù)可視化
5.3.1 基本可視化方法
5.3.2 數(shù)據(jù)分布形狀可視化
5.3.3 數(shù)據(jù)關(guān)聯(lián)情況可視化
5.3.4 數(shù)據(jù)分組可視化
5.4 樣本選擇
5.4.1 樣本選擇的方法
5.4.2 樣本選擇應(yīng)用實例
5.5 數(shù)據(jù)降維
5.5.1 主成分分析(PCA)基本原理
5.5.2 PCA應(yīng)用案例:企業(yè)綜合實力排序
5.5.3 相關(guān)系數(shù)降維
5.6 小結(jié)
參考文獻(xiàn)
第6章關(guān)聯(lián)規(guī)則方法
6.1 關(guān)聯(lián)規(guī)則概要
6.1.1 關(guān)聯(lián)規(guī)則提出背景
6.1.2 關(guān)聯(lián)規(guī)則的基本概念
6.1.3 關(guān)聯(lián)規(guī)則的分類
6.1.4 關(guān)聯(lián)規(guī)則挖掘常用算法
6.2 Apriori算法
6.2.1 Apriori算法基本思想
6.2.2 Apriori算法步驟
6.2.3 Apriori算法實例
6.2.4 Apriori算法程序?qū)崿F(xiàn)
6.2.5 算法的優(yōu)缺點
6.3 FP-Growth算法
6.3.1 FP-Growt算法步驟
6.3.2 FP-Growt算法實例
6.3.3 FP-Growt算法優(yōu)缺點
6.4 應(yīng)用實例:行業(yè)關(guān)聯(lián)選股法
6.5 小結(jié)
參考文獻(xiàn)
第7章數(shù)據(jù)回歸方法
7.1 一元回歸
7.1.1 一元線性回歸
7.1.2 一元非線性回歸
7.1.3 一元多項式回歸
7.2 多元回歸
7.2.1 多元線性回歸
7.2.2 多元多項式回歸
7.3 逐步歸回
7.3.1 逐步回歸基本思想
7.3.2 逐步回歸步驟
7.3.3 逐步回歸的MATLAB方法
7.4 Logistic回歸
7.4.1 Logistic模型
7.4.2 Logistic回歸實例
7.5 應(yīng)用實例:多因子選股模型的實現(xiàn)
7.5.1 多因子模型基本思想
7.5.2 多因子模型的實現(xiàn)
7.6 小結(jié)
參考文獻(xiàn)
第8章分類方法
8.1 分類方法概要
8.1.1 分類的概念
8.1.2 分類的原理
8.1.3 常用的分類方法
8.2 K-近鄰(KNN)
8.2.1 K-近鄰原理
8.2.2 K-近鄰實例
8.2.3 K-近鄰特點
8.3 貝葉斯分類
8.3.1 貝葉斯分類原理
8.3.2 樸素貝葉斯分類原理
8.3.3 樸素貝葉斯分類實例
8.3.4 樸素貝葉斯特點
8.4 神經(jīng)網(wǎng)絡(luò)
8.4.1 神經(jīng)網(wǎng)絡(luò)原理
8.4.2 神經(jīng)網(wǎng)絡(luò)實例
8.4.3 神經(jīng)網(wǎng)絡(luò)特點
8.5 邏輯斯蒂(Logistic)
8.5.1 邏輯斯蒂原理
8.5.2 邏輯斯蒂實例
8.5.3 邏輯斯蒂特點
8.6 判別分析
8.6.1 判別分析原理
8.6.2 判別分析實例
8.6.3 判別分析特點
8.7 支持向量機(SVM)
8.7.1 SVM基本思想
8.7.2 理論基礎(chǔ)
8.7.3 支持向量機實例
8.7.4 支持向量機特點
8.8 決策樹
8.8.1 決策樹的基本概念
8.8.2 決策樹的構(gòu)建步驟
8.8.3決策樹實例
8.8.4 決策樹特點
8.9 分類的評判
8.9.1 正確率
8.9.2 ROC曲線
8.10 應(yīng)用實例:分類選股法
8.10.1 案例背景
8.10.2 實現(xiàn)方法
8.11 延伸閱讀:其他分類方法
8.12 小結(jié)
參考文獻(xiàn)
第9章聚類方法
9.1 聚類方法概要
9.1.1 聚類的概念
9.1.2 類的度量方法
9.1.3 聚類方法的應(yīng)用場景
9.1.4 聚類方法分類
9.2 K-means方法
9.2.1 K-means原理和步驟
9.2.2 K-means實例1:自主編程
9.2.3 K-means實例2:集成函數(shù)
9.2.4 K-means特點
9.3 層次聚類
9.3.1 層次聚類原理和步驟
9.3.2 層次聚類實例
9.3.3 層次聚特點
9.4 神經(jīng)網(wǎng)絡(luò)聚類
9.4.1 神經(jīng)網(wǎng)絡(luò)聚類原理和步驟
9.4.2 神經(jīng)網(wǎng)絡(luò)聚類實例
9.4.3 神經(jīng)網(wǎng)絡(luò)聚類特點
9.5 模糊C-均值(FCM)方法
9.5.1 FCM原理和步驟
8.5.2 FCM應(yīng)用實例
9.5.3 FCM算法特點
9.6 高斯混合聚類方法
9.6.1 高斯混合聚類原理和步驟
9.6.2 高斯聚類實例
9.6.3 高斯聚類特點
9.7 類別數(shù)的確定方法
9.7.1 原理
9.7.2 實例
9.8 應(yīng)用實例:股票聚類分池
9.8.1 聚類目標(biāo)和數(shù)據(jù)描述
9.8.2 實現(xiàn)過程
9.8.3 結(jié)果及分析
9.9 延伸閱讀
9.9.1 目前聚類分析研究的主要內(nèi)容
9.9.2 SOM智能聚類算法
9.10 小結(jié)
參考文獻(xiàn)
第10章預(yù)測方法
10.1 預(yù)測方法概要
10.1.1 預(yù)測的概念
10.1.2 預(yù)測的基本原理
10.1.3 預(yù)測的準(zhǔn)確度評價及影響因素
10.1.4 常用的預(yù)測方法
10.2 灰色預(yù)測
10.2.1 灰色預(yù)測原理
10.2.2 灰色預(yù)測的實例
10.3 馬爾科夫預(yù)測
10.3.1 馬爾科夫預(yù)測原理
10.3.2 馬爾科夫過程的特性
10.3.3 馬爾科夫預(yù)測實例
10.4 應(yīng)用實例:大盤走勢預(yù)測
10.4.1 數(shù)據(jù)的選取及模型的建立
10.4.2 預(yù)測過程
10.4.3 預(yù)測結(jié)果與分析
10.5 小結(jié)
參考文獻(xiàn)
第11章診斷方法
11.1 離群點診斷概要
11.1.1 離群點診斷的定義
11.1.2 離群點診斷的作用
11.1.3 離群點診斷方法分類
11.2 基于統(tǒng)計的離群點診斷
11.2.1 理論基礎(chǔ)
11.2.2 應(yīng)用實例
11.2.3 優(yōu)點與缺點
11.3 基于距離的離群點診斷
11.3.1 理論基礎(chǔ)
11.3.2 應(yīng)用實例
11.3.3 優(yōu)點與缺點
11.4 基于密度的離群點挖掘
11.4.1 理論基礎(chǔ)
11.4.2 應(yīng)用實例
11.4.3 優(yōu)點與缺點
11.5 基于聚類的離群點挖掘
11.5.1 理論基礎(chǔ)
11.5.2 應(yīng)用實例
11.5.3 優(yōu)點與缺點
11.6 應(yīng)用實例:離群點診斷股票買賣擇時
11.7 延伸閱讀:新興的離群點挖掘方法
11.7.1 基于關(guān)聯(lián)的離群點挖掘
11.7.2 基于粗糙集的離群點挖掘
11.7.3 基于人工神經(jīng)網(wǎng)絡(luò)的離群點挖掘
11.8 小結(jié)
參考文獻(xiàn)
第12章時間序列方法
12.1 時間序列基本概念
12.1.1 時間序列的定義
12.1.2 時間序列的組成因素
12.1.3 時間序列的分類
12.1.4 時間序列分析方法
12.2 平穩(wěn)時間序列分析方法
12.2.1 移動平均法
12.2.2 指數(shù)平滑法
12.3 季節(jié)指數(shù)預(yù)測法
12.3.1 季節(jié)性水平模型
12.3.2 季節(jié)性趨勢模型
12.4 時間序列模型
12.4.1 ARMA模型
12.4.2 ARIMA模型
12.4.3 ARCH模型
12.4.4 GARCH模型
12.5 應(yīng)用實例:基于時間序列的股票預(yù)測
12.6 小結(jié)
參考文獻(xiàn)
第13章智能優(yōu)化方法
13.1 智能優(yōu)化方法概要
13.1.1 智能優(yōu)化方法的概念
13.1.2 常用的智能優(yōu)化方法
13.2 遺傳算法
13.2.1 遺傳算法的原理
13.2.2 遺傳算法的步驟
13.2.3 遺傳算法實例
13.2.4 遺傳算法的特點
13.3 模擬退火算法
13.3.1 模擬退火算法的原理
13.3.2 模擬退火算法步驟
13.3.3 模擬退火算法實例
13.3.4 模擬退火算法的特點
13.4 延伸閱讀:其它智能方法
13.4.1 粒子群算法
13.4.2 蟻群算法
13.5 小結(jié)
參考文獻(xiàn)
第三篇項目篇
第14章數(shù)據(jù)挖掘在銀行信用評分中的應(yīng)用
14.1 概述
14.1.1 信用評分的概念
14.1.2 信用評分的意義
14.1.3 個人信用評分的影響因素
14.1.4 信用評分的方法
14.2 DM法信用評分實施過程
14.2.1 數(shù)據(jù)的準(zhǔn)備
14.2.2 數(shù)據(jù)預(yù)處理
14.2.3 logistics模型
14.2.4 神經(jīng)網(wǎng)絡(luò)模型
14.3 AHP信用評分方法
14.3.1 AHP法簡介
14.3.2 AHP法信用評分實例
14.4 延伸閱讀:企業(yè)信用評級
14.5 小結(jié)
第15章數(shù)據(jù)挖掘在量化選股中的應(yīng)用
15.1 量化選股概述
15.1.1 量化選股定義
15.1.2 量化選股實現(xiàn)過程
15.1.3 量化選股的分類
15.2 數(shù)據(jù)的處理及探索
15.2.1 獲取股票日交易數(shù)據(jù)
15.2.2 計算指標(biāo)
15.2.3 數(shù)據(jù)標(biāo)準(zhǔn)化
15.2.4 變量篩選
15.3 模型的建立及評估
15.3.1 股票預(yù)測的基本思想
15.3.2 模型的訓(xùn)練及評價
15.4 組合投資的優(yōu)化
15.4.1 組合投資的理論基礎(chǔ)
15.4.2 組合投資的實現(xiàn)
15.5 量化選股的實施
15.6 小結(jié)
參考文獻(xiàn)
第16章數(shù)據(jù)挖掘在工業(yè)故障診斷中的應(yīng)用
16.1 故障診斷概述
16.1.1 故障診斷的概念
16.1.2 故障診斷的方法
16.1.3 數(shù)據(jù)挖掘技術(shù)的故障診斷原理
16.2 DM設(shè)備故障診斷實例
16.2.1 加載數(shù)據(jù)
16.2.2 探索數(shù)據(jù)
16.2.3 設(shè)置訓(xùn)練樣本的測試樣本
16.2.4 決策樹方法訓(xùn)練模型
16.2.5 集成決策樹方法訓(xùn)練模型
16.3 小結(jié)
第17章數(shù)據(jù)挖掘技術(shù)在礦業(yè)工程中的應(yīng)用
17.1 概述
17.1.1 礦業(yè)工程的內(nèi)容
17.1.2 礦業(yè)工程的數(shù)據(jù)及特征
17.1.3 數(shù)據(jù)挖掘技術(shù)在礦業(yè)工程中的作用
17.2 礦業(yè)工程數(shù)據(jù)挖掘?qū)嵗禾峒冾A(yù)測
17.2.1 數(shù)據(jù)的集成
17.2.2 采用插值方式處理缺失值
17.2.3 設(shè)置建模數(shù)據(jù)及驗證方式
17.2.4 多元線性回歸模型
17.3 小結(jié)
參考文獻(xiàn)
第18章數(shù)據(jù)挖掘技術(shù)在生命科學(xué)中的應(yīng)用
18.1 概述
18.1.1 生命科學(xué)的研究內(nèi)容
18.1.2 生命科學(xué)中大數(shù)據(jù)的特征
18.1.3 數(shù)據(jù)挖掘技術(shù)在生命科學(xué)中的作用
18.2 生命科學(xué)數(shù)據(jù)挖掘?qū)嵗夯虮磉_(dá)模式挖掘
18.2.1 加載數(shù)據(jù)
18.2.2 數(shù)據(jù)初探
18.2.3 數(shù)據(jù)清洗
18.2.4 層次聚類
18.2.5 K-means聚類
18.3 小結(jié)
參考文獻(xiàn)
第19章數(shù)據(jù)挖掘在社會科學(xué)研究中的應(yīng)用
19.1 概述
19.1.1 社會學(xué)研究的內(nèi)容
19.1.2 社會學(xué)研究的方法
19.1.3 數(shù)據(jù)挖掘在社會科學(xué)研究中的應(yīng)用情況
19.2 社會科學(xué)挖掘?qū)嵗喝祟愋袨檠芯?/p>
19.2.1 加載數(shù)據(jù)
19.2.2 數(shù)據(jù)可視化
19.2.3 神經(jīng)網(wǎng)絡(luò)
19.2.4 混淆矩陣評價分類器
19.2.5 ROC法評價分類器
19.2.6 變量優(yōu)選
19.2.7 用優(yōu)選的變量訓(xùn)練網(wǎng)絡(luò)
19.3 小結(jié)
第四篇理念篇
第20章數(shù)據(jù)挖掘的藝術(shù)
20.1 確定數(shù)據(jù)挖掘目標(biāo)的藝術(shù)
20.1.1 數(shù)據(jù)挖掘中的商業(yè)意識
20.1.2 商業(yè)意識到數(shù)據(jù)挖掘目標(biāo)
20.1.3 商業(yè)意識的培養(yǎng)
20.2 應(yīng)用技術(shù)的藝術(shù)
20.2.1 技術(shù)服務(wù)于業(yè)務(wù)的藝術(shù)
20.2.2 算法選擇的藝術(shù)
20.2.3 與機器配合的藝術(shù)
20.3 數(shù)據(jù)挖掘中平衡的藝術(shù)
20.3.1 客觀與主觀的平衡
20.3.2 數(shù)據(jù)量的平衡
20.4 理性對待大數(shù)據(jù)時代
20.4.1 發(fā)展大數(shù)據(jù)應(yīng)避免的誤區(qū)
20.4.2 正確認(rèn)識大數(shù)據(jù)的價值
20.4.3 正面大數(shù)據(jù)應(yīng)用面臨的挑戰(zhàn)
20.5 小結(jié)
參考文獻(xiàn)
第21章數(shù)據(jù)挖掘的項目管理和團隊管理
21.1 數(shù)據(jù)挖掘項目實施之道
21.1.1 確定可行的目標(biāo)
21.1.2 遵守數(shù)據(jù)挖掘流程
21.1.3 項目的質(zhì)量控制
21.1.4 項目效率
21.1.5 成本控制
21.1.6 數(shù)據(jù)挖掘過程改進
21.2 數(shù)據(jù)挖掘團隊的組建
21.2.1 數(shù)據(jù)挖掘項目團隊的構(gòu)成
21.2.2 團隊負(fù)責(zé)人
21.3 數(shù)據(jù)挖掘團隊的管理
21.3.1 團隊管理的目標(biāo)與策略
21.3.2 規(guī)范化的管理
21.4 優(yōu)秀數(shù)據(jù)挖掘人才的修煉
21.4.1 專業(yè)知識與技術(shù)
21.4.2 快速獲取知識的技能
21.4.3 提高表達(dá)能力
21.4.4 提高管理能力
21.4.5 培養(yǎng)對數(shù)據(jù)挖掘的熱情
21.5 小結(jié)