久久人人做人人妻人人玩精品hd,精品国产成人av在线,好姑娘在线视频免费观看 ,含羞草电影免费看韩国,果冻传媒一区

當前位置 : 首頁  圖書 正文

大數(shù)據(jù)搜索引擎原理分析簡介,目錄書摘

2020-06-24 16:12 來源:京東 作者:京東
大數(shù)據(jù)搜索引擎原理分析
大數(shù)據(jù)搜索引擎原理分析
暫無報價
400+評論 98%好評
內(nèi)容簡介:

本書是暢銷書升級版,向讀者提供了一套完整的大數(shù)據(jù)時代背景下的搜索引擎解決方案,詳盡地介紹了搜索引擎的技術(shù)架構(gòu)、算法體系及取得的成果,并以模塊化的方式進行組織。本書著重介紹了機器學(xué)習(xí)在搜索引擎中的應(yīng)用,包括中文分詞、聚類、分類等核心的機器學(xué)習(xí)算法,并結(jié)合示例加以介紹和分析,使讀者可以更好地理解機器學(xué)習(xí)在搜索引擎中的價值;同時,闡述了大數(shù)據(jù)給搜索引擎帶來的新特性,結(jié)合目前大數(shù)據(jù)分析的主流工具,在搜索引擎中構(gòu)建知識圖譜,以及進行日志反饋學(xué)習(xí),可以使得搜索引擎更加智能。本書不僅適合作為互聯(lián)網(wǎng)行業(yè)從業(yè)者的技術(shù)參考書,也適合作為搜索引擎愛好者的參考讀物。

作者簡介:

劉凡平,碩士,畢業(yè)于中國科學(xué)技術(shù)大學(xué)軟件系統(tǒng)設(shè)計專業(yè)。曾任職微軟亞太研發(fā)集團、百度(中國)有限公司?,F(xiàn)任薇問(北京)科技有限公司首席技術(shù)官,負責(zé)搜索引擎技術(shù)與大數(shù)據(jù)人工智能平臺研發(fā)工作。擅長搜索引擎、大數(shù)據(jù)分析、分布式計算等相關(guān)研發(fā)工作,是Iveely開源搜索引擎的主要貢獻者之一。

目錄:第1章引論 1
1.1搜索引擎的過去 1
1.2搜索引擎的現(xiàn)在 2
1.3搜索引擎的未來 4
1.4大數(shù)據(jù)與搜索引擎 6
1.4.1搜索價值提升 6
1.4.2用戶價值提升 7
1.5大數(shù)據(jù)與人工智能 7
1.5.1人工智能的發(fā)展 7
1.5.2人工智能技術(shù) 9
1.6 搜索引擎與人工智能 11
1.7本章小結(jié) 13
第2章搜索引擎原理與技術(shù) 14
2.1基本工作原理 14
2.2基本模塊結(jié)構(gòu) 15
2.2.1網(wǎng)絡(luò)爬蟲服務(wù) 16
2.2.2索引服務(wù) 17
2.2.3緩存服務(wù) 18
2.2.4搜索服務(wù) 19
2.2.5日志服務(wù) 21
2.3技術(shù)概要 22
2.3.1自然語言處理 22
2.3.2知識圖譜 23
2.3.3海量數(shù)據(jù)存儲 25
2.3.4分布式計算 27
2.3.5搜索排序 28
2.4 開源技術(shù) 29
2.4.1 Apache Lucene 29
2.4.2 Apache Nutch 31
2.4.3 Sphinx 32
2.4.4 Elastic Search 34
2.5本章小結(jié) 36
第3章自然語言處理框架 37
3.1英文分詞 37
3.2中文分詞 39
3.2.1中文分詞概述 39
3.2.2基于詞庫的分詞技術(shù) 40
3.2.3基于條件隨機場模型的中文分詞 42
3.2.4分詞粒度 49
3.3詞性標注 50
3.3.1隱馬爾科夫模型概要 51
3.3.2隱馬爾科夫模型與詞性標注 52
3.4語義相似度 60
3.5依存句法分析 62
3.5.1依存句法分析概要 62
3.5.2依存句法分析實現(xiàn) 65
3.6情感傾向分析 68
3.7文檔關(guān)鍵詞提取 70
3.7.1文檔關(guān)鍵詞提取概述 70
3.7.2基于TF-IDF算法 71
3.7.3基于TextRank算法 73
3.8文檔句子相似度分析 76
3.8.1句子相似度 77
3.8.2文檔相似度 79
3.9文檔核心句提取 80
3.10文本的分類與聚類 83
3.10.1文本分類 84
3.10.2文本聚類 89
3.11語種檢測 96
3.12本章小結(jié) 98
第4章構(gòu)建大數(shù)據(jù)存儲引擎 99
4.1架構(gòu)體系 100
4.1.1結(jié)構(gòu)概要 100
4.1.2服務(wù)器上線 103
4.1.3服務(wù)器下線 103
4.1.4數(shù)據(jù)讀取 104
4.2數(shù)據(jù)存儲模型 105
4.3數(shù)據(jù)壓縮 107
4.4負載均衡 108
4.5數(shù)據(jù)存儲邏輯視圖 111
4.6本章小結(jié) 114
第5章構(gòu)建分布式實時計算 115
5.1概述 115
5.2設(shè)計架構(gòu) 117
5.2.1設(shè)計思想 117
5.2.2基本框架 119
5.3運行模式 121
5.4負載均衡 122
5.5通信設(shè)計 123
5.5.1基本方式 124
5.5.2分布式遠程服務(wù)調(diào)用 124
5.6容災(zāi)恢復(fù) 125
5.7數(shù)據(jù)容錯原理 126
5.8數(shù)據(jù)處理設(shè)計示例 128
5.9本章小結(jié) 129
第6章分布式可擴展爬蟲 130
6.1爬蟲體系架構(gòu) 130
6.1.1主從分布式結(jié)構(gòu)爬蟲 131
6.1.2對等分布式結(jié)構(gòu)爬蟲 131
6.1.2基于分布式計算平臺爬蟲 132
6.2網(wǎng)頁解析 133
6.2.1狀態(tài)碼處理 134
6.2.2鏈接去重 134
6.2.3廣告識別 136
6.2.4網(wǎng)站地圖 139
6.2.5非網(wǎng)頁數(shù)據(jù)獲取 140
6.2.6網(wǎng)頁去重 141
6.2.7鏈接提取 145
6.2.8爬蟲協(xié)議 146
6.3網(wǎng)頁結(jié)構(gòu)化 148
6.3.1網(wǎng)頁的編碼信息 148
6.3.2網(wǎng)頁的正文信息 149
6.3.3網(wǎng)頁的關(guān)鍵詞信息 153
6.3.4網(wǎng)頁的標題 153
6.3.5網(wǎng)頁的發(fā)布時間 155
6.3.6網(wǎng)頁的語言檢測 155
6.3.7其他結(jié)構(gòu)化數(shù)據(jù) 156
6.4網(wǎng)頁抓取策略 157
6.5爬蟲權(quán)限應(yīng)對 158
6.6深網(wǎng)抓取 161
6.7抓取更新策略 162
6.8本章小結(jié) 164
第7章大數(shù)據(jù)構(gòu)建知識圖譜 165
7.1概述 165
7.1.1 開放知識圖譜 165
7.1.2 知識圖譜與認知智能 167
7.1.3 圖數(shù)據(jù)庫:Neo4j 168
7.1.4 資源描述框架:RDF 172
7.2搜索引擎與知識圖譜 174
7.3可靠數(shù)據(jù)源選擇 176
7.4實體抽取 177
7.5關(guān)系抽取 178
7.5.1關(guān)系抽取概述 179
7.5.2隱藏關(guān)系抽取 180
7.5.3結(jié)構(gòu)化確定關(guān)系抽取 183
7.5.4非結(jié)構(gòu)化確定關(guān)系抽取 185
7.6知識圖譜檢測 190
7.6.1實體關(guān)系修正 190
7.6.2實體對齊 191
7.6.3實體歧義分析 193
7.7知識推理與知識計算 194
7.7.1知識推理 194
7.7.2知識計算 195
7.8知識聚類 198
7.9智能搜索實現(xiàn) 200
7.9.1模式匹配 200
7.9.2知識拆解 201
7.9.3合并求解 203
7.10智能搜索擴展 205
7.10.1常識性智能搜索 205
7.10.2實時信息智能搜索 206
7.10.3可交互式智能搜索 207
7.11 知識圖譜應(yīng)用 208
7.11.1 問答系統(tǒng) 208
7.11.2 情報分析 211
7.11.3 智慧醫(yī)療 214
7.11.4 推薦系統(tǒng) 215
7.12本章小結(jié) 217
第8章索引構(gòu)建機制 218
8.1倒排索引 218
8.1.1倒排索引概述 219
8.1.2索引結(jié)構(gòu) 220
8.1.3構(gòu)建過程 222
8.1.4排序規(guī)則 223
8.1.5索引壓縮 224
8.1.6更新策略 230
8.2分布式存儲 230
8.2.1存儲劃分方式 231
8.2.2存儲平衡策略 232
8.3存儲索引 237
8.3.1二叉搜索樹 238
8.3.2B樹 239
8.3.3B+樹 241
8.3.4B+樹與文件索引 242
8.4字典樹索引 244
8.4.1字典樹索引概述 245
8.4.2字典樹索引構(gòu)建 247
8.4.3字典樹查詢優(yōu)化 249
8.5本章小結(jié) 250
第9章搜索服務(wù)構(gòu)建 251
9.1概述 251
9.1.1體系結(jié)構(gòu) 251
9.1.2七何分析法 252
9.1.3搜索語法 253
9.1.4相關(guān)性排序 255
9.1.5不安全信息過濾 259
9.2大數(shù)據(jù)分布式緩存 263
9.2.1緩存結(jié)構(gòu)設(shè)計 263
9.2.2緩存更新策略 264
9.3文本糾錯算法 265
9.3.1中文文本糾錯 265
9.3.2英文文本糾錯 269
9.4結(jié)果顯示算法 270
9.4.1動態(tài)摘要 271
9.4.2關(guān)鍵詞高亮算法 274
9.4.3網(wǎng)頁快照 278
9.5搜索智能提示 278
9.6網(wǎng)頁排序 282
9.6.1基于PageRank的網(wǎng)頁重要性評價 282
9.6.2基于HITS算法的網(wǎng)頁權(quán)威性評價 285
9.6.3HillTop算法 287
9.6.4網(wǎng)頁作弊評價 288
9.6.5網(wǎng)頁排序調(diào)試 291
9.7個性化搜索 292
9.7.1個性化搜索示例 292
9.7.2BP神經(jīng)網(wǎng)絡(luò)與個性化搜索 293
9.7.3地理位置搜索 294
9.8圖片搜索 299
9.8.1基于內(nèi)容的圖片搜索 299
9.8.2基于文本的圖片搜索 300
9.9搜索與廣告 302
9.9.1廣告投放策略 303
9.9.2基于User-Based協(xié)同過濾的廣告投放 303
9.9.3基于Item-Based協(xié)同過濾的廣告投放 305
9.9.4基于混合模式的廣告投放 306
9.9.5廣告投放評價 307
9.10搜索引擎評價 310
9.10.1搜索引擎評價概述 310
9.10.2基于準確率、召回率及F值評價 311
9.10.3歸一化折扣累計增益 313
9.11本章小結(jié) 316
第10章基于用戶日志的反饋學(xué)習(xí) 318
10.1基于用戶搜索詞語的分析 318
10.1.1發(fā)現(xiàn)搜索詞的價值 319
10.1.2發(fā)現(xiàn)不明意圖下的用戶行為 320
10.2基于用戶點擊日志的分析 321
10.2.1時間與搜索意圖的關(guān)系 321
10.2.2地理位置與搜索意圖的關(guān)系 322
10.2.3點擊日志與同義詞 324
10.2.4點擊日志與詞語權(quán)重 325
10.2.5點擊日志與新詞分類 326
10.2.6點擊日志與知識圖譜 328
10.2.7點擊日志與網(wǎng)頁重排序 329
10.2.8點擊日志與網(wǎng)頁評價 331
10.3基于用戶的特征分析 332
10.3.1用戶跟蹤 333
10.3.2用戶群體特征 334
10.3.3用戶個體特征 336
10.4本章小結(jié) 337
致謝 338
熱門推薦文章
相關(guān)優(yōu)評榜
品類齊全,輕松購物 多倉直發(fā),極速配送 正品行貨,精致服務(wù) 天天低價,暢選無憂
購物指南
購物流程
會員介紹
生活旅行/團購
常見問題
大家電
聯(lián)系客服
配送方式
上門自提
211限時達
配送服務(wù)查詢
配送費收取標準
海外配送
支付方式
貨到付款
在線支付
分期付款
郵局匯款
公司轉(zhuǎn)賬
售后服務(wù)
售后政策
價格保護
退款說明
返修/退換貨
取消訂單
特色服務(wù)
奪寶島
DIY裝機
延保服務(wù)
京東E卡
京東通信
京東JD+