理論篇//
1 數(shù)據(jù)科學(xué)概論
1.1 數(shù)據(jù)科學(xué)的定義
1.2 數(shù)據(jù)科學(xué)的定位
1.2.1 數(shù)據(jù)科學(xué)與數(shù)據(jù)庫(kù)、大數(shù)據(jù)分析的關(guān)系
1.2.2 數(shù)據(jù)科學(xué)與基于數(shù)據(jù)的決策的關(guān)系
1.3 數(shù)據(jù)科學(xué)家
1.3.1 數(shù)據(jù)科學(xué)家的技能
1.4 數(shù)據(jù)科學(xué)的基本原則(Principle)
1.4.1 原則1:數(shù)據(jù)分析可以劃分成一系列明確的階段
1.4.2 原則2:描述性分析與預(yù)測(cè)性分析
1.4.3 原則3:實(shí)體的相似度
1.4.4 原則4:模型的泛化能力
1.4.5 原則5:分析結(jié)果的評(píng)估與特定應(yīng)用場(chǎng)景有關(guān)
1.4.6 原則6:相關(guān)性不同于因果關(guān)系
1.4.7 原則7:通過(guò)并行處理提高數(shù)據(jù)處理(分析)速度
1.5 數(shù)據(jù)處理流程:時(shí)間維度的縱向視角
1.6 數(shù)據(jù)處理系統(tǒng)的架構(gòu):系統(tǒng)維度的計(jì)算視角
1.6.1 數(shù)據(jù)處理系統(tǒng)的層次架構(gòu)
1.6.2 數(shù)據(jù)處理系統(tǒng)的Lambda架構(gòu)
1.7 數(shù)據(jù)的多樣性:數(shù)據(jù)類型維度的橫向視角
1.8 數(shù)據(jù)價(jià)值的挖掘:價(jià)值維度的價(jià)值提升視角
1.9 思考題
2 OLTP與數(shù)據(jù)服務(wù)
2.1 面向OLTP應(yīng)用的RDBMS數(shù)據(jù)庫(kù)技術(shù)
2.1.1 關(guān)系數(shù)據(jù)庫(kù)技術(shù)與SQL查詢語(yǔ)言
2.1.2 利用索引加快數(shù)據(jù)訪問(wèn)
2.1.3 數(shù)據(jù)庫(kù)的事務(wù)處理、恢復(fù)技術(shù)與安全保證
2.1.4 并行數(shù)據(jù)庫(kù)與分布式數(shù)據(jù)庫(kù)
2.2 面向數(shù)據(jù)服務(wù)的NoSQL數(shù)據(jù)庫(kù)技術(shù)
2.2.1 NoSQL數(shù)據(jù)庫(kù)技術(shù)
2.2.2 CAP理論
2.2.3 Key-Value數(shù)據(jù)庫(kù)
2.2.4 Column Family數(shù)據(jù)庫(kù)
2.2.5 Document數(shù)據(jù)庫(kù)
2.2.6 Graph數(shù)據(jù)庫(kù)
2.3 NewSQL數(shù)據(jù)庫(kù)技術(shù)
2.3.1 VoltDB數(shù)據(jù)庫(kù)
2.3.2 Google Spanner數(shù)據(jù)庫(kù)
2.4 思考題
3 OLAP與結(jié)構(gòu)化數(shù)據(jù)分析
3.1 聯(lián)機(jī)分析處理(OLAP)與結(jié)構(gòu)化數(shù)據(jù)分析
3.1.1 從操作型的業(yè)務(wù)數(shù)據(jù)庫(kù)向數(shù)據(jù)倉(cāng)庫(kù)抽取、轉(zhuǎn)換和裝載數(shù)據(jù)
3.1.2 數(shù)據(jù)倉(cāng)庫(kù)與星型模型
3.1.3 聯(lián)機(jī)分析處理OLAP
3.1.4 三種類型的OLAP系統(tǒng)
3.2 高性能OLAP系統(tǒng)的關(guān)鍵技術(shù)
3.2.1 列存儲(chǔ)技術(shù)
3.2.2 位圖索引技術(shù)
3.2.3 內(nèi)存數(shù)據(jù)庫(kù)技術(shù)
3.2.4 MPP并行數(shù)據(jù)庫(kù)
3.3 結(jié)構(gòu)化數(shù)據(jù)分析工具介紹
3.3.1 MPP(Shared-Nothing)數(shù)據(jù)庫(kù)、基于列存儲(chǔ)的關(guān)系數(shù)據(jù)庫(kù)
3.3.2 SQL on Hadoop系統(tǒng)
3.3.3 性能比較
3.4 思考題
......