第1章緒論
1.1應(yīng)用背景
1.1.1商業(yè)上的驅(qū)動
1.1.2科學(xué)研究上的驅(qū)動
1.1.3數(shù)據(jù)挖掘伴隨著數(shù)據(jù)庫技術(shù)而出現(xiàn)
1.2什么是數(shù)據(jù)挖掘
1.2.1基本描述
1.2.2關(guān)于知識發(fā)現(xiàn)
1.3數(shù)據(jù)挖掘的主要技術(shù)
1.4數(shù)據(jù)挖掘的主要研究內(nèi)容
1.5數(shù)據(jù)挖掘面臨的主要問題
1.6數(shù)據(jù)挖掘相關(guān)的資料
1.7本書的總體章節(jié)安排
1.8小結(jié)
參考文獻(xiàn)
第2章數(shù)據(jù)預(yù)處理
2.1前言
2.2數(shù)據(jù)預(yù)處理的基本概念
2.2.1數(shù)據(jù)的基本概念
2.2.2為什么要進(jìn)行數(shù)據(jù)預(yù)處理
2.2.3數(shù)據(jù)預(yù)處理的任務(wù)
2.3數(shù)據(jù)的描述
2.3.1描述數(shù)據(jù)的中心趨勢
2.3.2描述數(shù)據(jù)的分散程度
2.3.3描述數(shù)據(jù)的其他方式
2.4數(shù)據(jù)清洗
2.4.1數(shù)據(jù)缺失的處理
2.4.2數(shù)據(jù)清洗
2.5數(shù)據(jù)集成和轉(zhuǎn)換
2.5.1數(shù)據(jù)集成
2.5.2數(shù)據(jù)冗余性
2.5.3數(shù)據(jù)轉(zhuǎn)換
2.6數(shù)據(jù)歸約和變換
2.6.1數(shù)據(jù)歸約
2.6.2數(shù)據(jù)離散化
2.6.3概念層次生成
2.7小結(jié)
參考文獻(xiàn)
第3章數(shù)據(jù)倉庫
3.1前言
3.2數(shù)據(jù)庫基本概念回顧
3.2.1數(shù)據(jù)庫簡介
3.2.2表、記錄和域
3.2.3數(shù)據(jù)庫管理系統(tǒng)
3.3數(shù)據(jù)倉庫簡介
3.3.1數(shù)據(jù)倉庫特點(diǎn)
3.3.2數(shù)據(jù)倉庫概念
3.3.3數(shù)據(jù)倉庫作用
3.3.4數(shù)據(jù)倉庫與DBMS對比
3.3.5分離數(shù)據(jù)倉庫的原因
3.4多維數(shù)據(jù)模型
3.4.1數(shù)據(jù)立方體
3.4.2概念模型
3.4.3概念分層
3.4.4典型OLAP操作
3.4.5星型網(wǎng)絡(luò)的查詢模型
3.5數(shù)據(jù)倉庫結(jié)構(gòu)
3.5.1數(shù)據(jù)倉庫設(shè)計(jì)
3.5.2多層體系結(jié)構(gòu)
3.6數(shù)據(jù)倉庫的功能
3.6.1數(shù)據(jù)立方體的有效計(jì)算
3.6.2索引OLAP數(shù)據(jù)
3.6.3OLAP查詢的有效處理
3.7從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘
3.7.1數(shù)據(jù)倉庫應(yīng)用
3.7.2從OLAP到OLAM
3.8小結(jié)
參考文獻(xiàn)
第4章相關(guān)性與關(guān)聯(lián)規(guī)則
4.1基本概念
4.1.1潛在的應(yīng)用
4.1.2購物籃問題
4.1.3頻繁模式分析、閉項(xiàng)集和關(guān)聯(lián)規(guī)則
4.2頻繁項(xiàng)集挖掘方法
4.2.1Apriori算法
4.2.2由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則
4.2.3提高Apriori的效率
4.2.4挖掘頻繁項(xiàng)集的模式增長方法
4.3多種關(guān)聯(lián)規(guī)則挖掘
4.3.1挖掘多層關(guān)聯(lián)規(guī)則
4.3.2挖掘多維關(guān)聯(lián)規(guī)則
4.3.3挖掘量化關(guān)聯(lián)規(guī)則
4.4從關(guān)聯(lián)分析到相關(guān)分析
4.4.1相關(guān)分析
4.4.2強(qiáng)規(guī)則不一定是有價(jià)值的
4.4.3挖掘高度關(guān)聯(lián)的模式
4.5基于約束的頻繁模式挖掘
4.5.1關(guān)聯(lián)規(guī)則的元規(guī)則制導(dǎo)挖掘
4.5.2基于約束的模式生成: 模式空間剪枝和數(shù)據(jù)空間剪枝
4.6小結(jié)
參考文獻(xiàn)
第5章分類和預(yù)測
5.1前言
5.2基本概念
5.2.1什么是分類
5.2.2什么是預(yù)測
5.3關(guān)于分類和預(yù)測的問題
5.3.1準(zhǔn)備分類和預(yù)測的數(shù)據(jù)
5.3.2評價(jià)分類和預(yù)測方法
5.4決策樹分類
5.4.1決策樹歸納
5.4.2屬性選擇度量
5.4.3提取分類規(guī)則
5.4.4基本決策樹歸納的增強(qiáng)
5.4.5在大數(shù)據(jù)集中的分類
5.5貝葉斯分類
5.5.1貝葉斯定理
5.5.2樸素貝葉斯分類
5.5.3貝葉斯信念網(wǎng)絡(luò)
5.5.4貝葉斯網(wǎng)絡(luò)學(xué)習(xí)
5.6神經(jīng)網(wǎng)絡(luò)
5.6.1神經(jīng)網(wǎng)絡(luò)簡介
5.6.2多層神經(jīng)網(wǎng)絡(luò)
5.6.3神經(jīng)網(wǎng)絡(luò)訓(xùn)練
5.6.4后向傳播
5.6.5網(wǎng)絡(luò)剪枝和規(guī)則抽取
5.7支持向量機(jī)
5.7.1數(shù)據(jù)線性可分的情況
5.7.2數(shù)據(jù)線性不可分的情況
5.7.3支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)的對比
5.8關(guān)聯(lián)分類
5.8.1為什么有效
5.8.2常見關(guān)聯(lián)分類算法
5.9分類準(zhǔn)確率
5.9.1估計(jì)錯(cuò)誤率
5.9.2裝袋和提升
5.10小結(jié)
參考文獻(xiàn)
第6章聚類分析
6.1聚類分析的定義和數(shù)據(jù)類型
6.1.1聚類的定義
6.1.2聚類分析和主要應(yīng)用
6.1.3聚類分析方法的性能指標(biāo)
6.1.4聚類分析使用的數(shù)據(jù)類型
6.2流聚類方法分類與相似性質(zhì)量
6.2.1聚類分析方法分類
6.2.2連續(xù)變量的距離與相似性度量
6.2.3二元變量與標(biāo)稱變量的相似性度量
6.2.4序數(shù)和比例標(biāo)度變量的相似性度量
6.2.5混合類型變量的相似性度量
6.3基于分割的聚類
6.4基于層次的聚類
6.5基于密度的聚類
6.6基于網(wǎng)格的聚類
6.7基于模型的聚類
6.8離群點(diǎn)檢測
6.9小結(jié)
參考文獻(xiàn)
第7章數(shù)據(jù)挖掘應(yīng)用
7.1前言
7.2應(yīng)用研發(fā)思路
7.3預(yù)處理方法
7.3.1基礎(chǔ)數(shù)據(jù)說明
7.3.2數(shù)字化方法說明
7.3.3深入一步的預(yù)處理方法
7.3.4基本數(shù)據(jù)分布情況說明
7.3.5初步分析結(jié)果
7.3.6小結(jié)
7.4特征提取方法
7.4.18種特征提取方法
7.4.2特征總體排名策略
7.4.3最終關(guān)鍵特征
7.4.4特征提取與分析結(jié)論
7.4.5小結(jié)
7.5皮膚特征預(yù)測模型
7.5.1預(yù)測方法回顧
7.5.2預(yù)測結(jié)果分析與結(jié)論
7.5.3小結(jié)
7.6小結(jié)
參考文獻(xiàn)
附錄
附錄A插圖索引
附錄B表格索引
附錄C算法索引
附錄D關(guān)鍵詞索引