久久人人做人人妻人人玩精品hd,精品国产成人av在线,好姑娘在线视频免费观看 ,含羞草电影免费看韩国,果冻传媒一区

當(dāng)前位置 : 首頁  圖書 正文

使用C#開發(fā)搜索引擎(第2版)簡介,目錄書摘

2020-12-11 14:04 來源:京東 作者:京東
搜索引擎
使用C#開發(fā)搜索引擎(第2版)
暫無報價
2700+評論 96%好評
編輯推薦:

《使用C#開發(fā)搜索引擎(第2版)》是介紹業(yè)界熱門的Lucene.Net、使用WebBrowser做爬蟲以及結(jié)合Solr/ElasticSearch開發(fā)ASP.NET搜索的書籍?!妒褂肅#開發(fā)搜索引擎(第2版)》還介紹了在線智能客服(聊天機(jī)器人)開發(fā)框架。從C#語法開始,逐漸深入,是零基礎(chǔ)實踐面向未來的智能軟件開發(fā)。對于學(xué)習(xí)復(fù)雜數(shù)據(jù)結(jié)構(gòu)和自然語言處理相關(guān)應(yīng)用開發(fā)也有參考價值。

內(nèi)容簡介:《使用C#開發(fā)搜索引擎(第2版)》介紹如何以C#作為工具開發(fā)智能搜索引擎系統(tǒng)。
《使用C#開發(fā)搜索引擎(第2版)》是一本介紹業(yè)界熱門的Lucene.Net、使用WebBrowser做爬蟲以及結(jié)合Solr/ElasticSearch開發(fā)ASP.NET搜索的書籍。書中從網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)開始;然后介紹中文分詞、文本排重等文本挖掘技術(shù)和搜索結(jié)果展現(xiàn);最后介紹在線智能客服(聊天機(jī)器人)開發(fā)框架。從C#語法開始,逐漸深入,是零基礎(chǔ)實踐面向未來的智能軟件開發(fā)。
對于學(xué)習(xí)復(fù)雜數(shù)據(jù)結(jié)構(gòu)和自然語言處理相關(guān)應(yīng)用開發(fā)也有參考價值。

作者簡介:羅剛,計算機(jī)軟件碩士,畢業(yè)于吉林工業(yè)大學(xué)。2005年創(chuàng)立北京盈智星科技發(fā)展有限公司,2008年聯(lián)合創(chuàng)立上海數(shù)聚軟件公司。獵兔搜索創(chuàng)始人,當(dāng)前獵兔搜索在北京和上海以及石家莊均設(shè)有研發(fā)部。帶領(lǐng)獵兔搜索技術(shù)開發(fā)團(tuán)隊先后開發(fā)出獵兔中文分詞系統(tǒng)、獵兔文本挖掘系統(tǒng),智能垂直搜索系統(tǒng)以及網(wǎng)絡(luò)信息監(jiān)測系統(tǒng)等,實現(xiàn)互聯(lián)網(wǎng)信息的采集、過濾、搜索和實時監(jiān)測,其開發(fā)的搜索軟件日用戶訪問量達(dá)萬次以上。



目錄:第1章  使用C#開發(fā)搜索引擎
快速入門 1
1.1  各種搜索引擎 2
1.1.1  通用搜索 3
1.1.2  垂直搜索 3
1.1.3  站內(nèi)搜索 4
1.2  搜索引擎的整體結(jié)構(gòu) 4
1.3  搜索引擎的基本技術(shù) 5
1.3.1  網(wǎng)絡(luò)爬蟲 5
1.3.2  文本挖掘 5
1.3.3  全文索引 6
1.3.4  搜索語法介紹 8
1.3.5  搜索用戶界面 8
1.4  C#開發(fā)快速入門 9
1.4.1  準(zhǔn)備開發(fā)環(huán)境 9
1.4.2  基本語法 9
1.4.3  多維數(shù)組 11
1.4.4  位運(yùn)算 11
1.4.5  枚舉類型 12
1.4.6  面向?qū)ο?13
1.4.7  字符串 15
1.4.8  讀寫文件 16
1.4.9  集合類 17
1.4.10  泛型 20
1.4.11  委托和事件 21
1.4.12  lambda表達(dá)式 24
1.4.13  單元測試 24
1.4.14  擴(kuò)展方法 25
1.4.15  類庫 26
1.5  算法基礎(chǔ) 26
1.5.1  雙端隊列 27
1.5.2  散列表 31
1.5.3  單鏈表 36
1.5.4  標(biāo)準(zhǔn)Trie樹 37
1.5.5  二叉搜索樹 39
1.5.6  三叉Trie樹 41
1.5.7  平衡Trie樹 46
1.6  本章小結(jié) 48
1.7  術(shù)語表 48
第2章  使用C#開發(fā)網(wǎng)絡(luò)爬蟲 51
2.1  網(wǎng)絡(luò)爬蟲抓取原理 52
2.2  爬蟲架構(gòu) 54
2.2.1  基本架構(gòu) 54
2.2.2  分布式爬蟲架構(gòu) 56
2.2.3  垂直爬蟲架構(gòu) 57
2.3  下載網(wǎng)頁 58
2.3.1  HTTP協(xié)議 58
2.3.2  下載靜態(tài)網(wǎng)頁 61
2.3.3  下載動態(tài)網(wǎng)頁 65
2.4  線程池 73
2.5  網(wǎng)絡(luò)爬蟲的遍歷與實現(xiàn) 75
2.6  網(wǎng)站地圖 77
2.7  連接池 78
2.8  URL地址查新 79
2.8.1  嵌入式數(shù)據(jù)庫 79
2.8.2  布隆過濾器 82
2.9  抓取RSS 84
2.10  解析相對地址 86
2.11  網(wǎng)頁更新 86
2.12  信息過濾 89
2.13  垂直行業(yè)抓取 94
2.14  抓取限制應(yīng)對方法 94
2.14.1  更換IP地址 94
2.14.2  抓取需要登錄的網(wǎng)頁 98
2.14.3  抓取ASP.net網(wǎng)頁 100
2.15  保存信息 103
2.15.1  存入數(shù)據(jù)庫 103
2.15.2  存成圖像 104
2.16  日志 105
2.17  本章小結(jié) 108
2.18  術(shù)語表 108
第3章  索引各種格式文檔 113
3.1  從HTML文件中提取信息 114
3.1.1  識別網(wǎng)頁的編碼 114
3.1.2  正則表達(dá)式 116
3.1.3  Html Agility Pack介紹 120
3.1.4  NSoup介紹 124
3.1.5  網(wǎng)頁正文提取 124
3.1.6  結(jié)構(gòu)化信息提取 137
3.1.7  查看網(wǎng)頁的DOM結(jié)構(gòu) 140
3.1.8  網(wǎng)頁結(jié)構(gòu)相似度計算 141
3.2  從非HTML文件中提取文本 143
3.2.1  TEXT文件 144
3.2.2  PDF文件 144
3.2.3  Office文件 146
3.2.4  Rtf文件 147
3.3  OCR 148
3.3.1  字形識別 149
3.3.2  圖像二值化 149
3.4  本章小結(jié) 153
3.5  術(shù)語表 154
第4章  自然語言處理 155
4.1  統(tǒng)計機(jī)器學(xué)習(xí) 156
4.2  協(xié)同推薦 157
4.3  文檔排重 163
4.3.1  生成SimHash 164
4.3.2  查找SimHash 166
4.3.3  用于短文本排重 170
4.4  中文關(guān)鍵詞提取 170
4.4.1  關(guān)鍵詞提取的基本方法 171
4.4.2  從網(wǎng)頁中提取關(guān)鍵詞 174
4.5  相關(guān)搜索 174
4.6  拼寫檢查 175
4.6.1  拼寫檢查的概率模型 176
4.6.2  模糊匹配問題 176
4.6.3  英文拼寫檢查 180
4.6.4  中文拼寫檢查 183
4.7  文本摘要 184
4.7.1  文本摘要的設(shè)計 184
4.7.2  實現(xiàn)文本摘要技術(shù) 185
4.7.3  Lucene.net中的動態(tài)摘要 190
4.8  文本分類 191
4.8.1  自動分類的接口定義 191
4.8.2  自動分類的實現(xiàn) 191
4.9  自動聚類 197
4.9.1  文檔相似度 197
4.9.2  K均值聚類方法 201
4.9.3  K均值實現(xiàn) 202
4.10  拼音轉(zhuǎn)換 204
4.11  句法分析樹 204
4.12  信息提取 211
4.12.1  信息提取的規(guī)則及其實現(xiàn) 211
4.12.2  提取地域信息 219
4.13  本章小結(jié) 221
4.14  術(shù)語表 221
第5章  用C#實現(xiàn)中文分詞 223
5.1  詞 224
5.2  文本切分的基本方法 224
5.3  地名切分 226
5.3.1  地址類型標(biāo)注 227
5.3.2  未登錄詞識別 227
5.4  有限狀態(tài)機(jī) 229
5.5  查找詞典算法 231
5.6  中文分詞的原理 232
5.6.1  正向最大長度匹配法 232
5.6.2  逆向最大長度匹配法 236
5.6.3  處理未登錄串 240
5.7  中文分詞的流程與結(jié)構(gòu) 241
5.8  切分詞圖 243
5.8.1  保存切分詞圖 243
5.8.2  生成全切分詞圖 247
5.9  概率語言模型的分詞方法 250
5.9.1  準(zhǔn)備數(shù)據(jù) 251
5.9.2  一元模型 252
5.9.3  N元模型 257
5.10  最大熵 262
5.11  未登錄詞識別 264
5.12  詞性標(biāo)注 264
5.12.1  隱馬爾科夫模型 266
5.12.2  實現(xiàn)詞性標(biāo)注 271
5.13  本章小結(jié) 275
5.14  術(shù)語表 276
第6章  Lucene.net原理與應(yīng)用 277
6.1  Lucene.net快速入門 278
6.1.1  索引文檔 278
6.1.2  搜索文檔 280
6.1.3  Lucene.net結(jié)構(gòu) 281
6.2  Lucene.net深入介紹 282
6.2.1  索引原理 282
6.2.2  分析文本 285
6.2.3  遍歷索引庫 288
6.2.4  布爾查詢原理 289
6.2.5  檢索模型 290
6.2.6  收集最相關(guān)的文檔 291
6.3  索引中的壓縮算法 296
6.3.1  變長壓縮 296
6.3.2  差分編碼 298
6.4  創(chuàng)建和維護(hù)索引庫 299
6.4.1  設(shè)計一個簡單的索引庫 299
6.4.2  創(chuàng)建索引庫 300
6.4.3  向索引庫中添加索引文檔 301
6.4.4  刪除索引庫中的索引文檔 303
6.4.5  更新索引庫中的索引文檔 304
6.4.6  索引的優(yōu)化與合并 304
6.5  查找索引庫 305
6.5.1  布爾查詢 306
6.5.2  同時查詢多列 307
6.5.3  跨度查詢 308
6.5.4  通配符查詢 312
6.5.5  過濾 312
6.5.6  按指定列排序 313
6.5.7  查詢大容量索引 318
6.5.8  函數(shù)查詢 320
6.5.9  定制相似度 323
6.5.10  評價搜索結(jié)果 325
6.6  中文信息檢索 325
6.6.1  Lucene.net中的中文處理 326
6.6.2  Lietu中文分詞的使用 326
6.6.3  定制Tokenizer 328
6.6.4  解析查詢串 329
6.6.5  實現(xiàn)字詞混合索引 333
6.7  抓取數(shù)據(jù)庫中的內(nèi)容 336
6.7.1  讀取數(shù)據(jù) 337
6.7.2  數(shù)據(jù)同步 338
6.8  與爬蟲集成 338
6.9  概念搜索 341
6.10  本章小結(jié) 344
6.11  術(shù)語表 345
第7章  實現(xiàn)搜索用戶界面 347
7.1  搜索頁面設(shè)計 348
7.1.1  用于顯示搜索結(jié)果的
ASP.net 348
7.1.2  搜索結(jié)果條 351
7.1.3  搜索結(jié)果分頁 351
7.1.4  設(shè)計一個簡單的搜索頁面 352
7.2  實現(xiàn)搜索接口 353
7.2.1  Lucene.net搜索接口 353
7.2.2  指定范圍搜索 357
7.2.3  搜索頁面的索引緩存與
更新 358
7.3  實現(xiàn)關(guān)鍵詞高亮顯示 361
7.4  實現(xiàn)分類統(tǒng)計視圖 362
7.4.1  搜索結(jié)果分類統(tǒng)計與導(dǎo)航 363
7.4.2  層次樹 366
7.5  相關(guān)搜索詞 368
7.6  實現(xiàn)AJax自動完成 369
7.6.1  總體結(jié)構(gòu) 370
7.6.2  服務(wù)器端處理 371
7.6.3  瀏覽器端處理 372
7.7  集成其他功能 374
7.7.1  拼寫檢查 374
7.7.2  再次查找 374
7.7.3  黑名單 375
7.7.4  搜索日志 376
7.8  本章小結(jié) 377
第8章  使用Solr開發(fā)網(wǎng)站搜索 379
8.1  搜索服務(wù)器端 380
8.1.1  Solr的結(jié)構(gòu) 380
8.1.2  啟動Solr服務(wù)器 381
8.1.3  開發(fā)支持Solr的中文分詞 384
8.1.4  中文的Solr 385
8.1.5  索引數(shù)據(jù) 388
8.1.6  查詢功能 389
8.1.7  高亮顯示 392
8.2  Solr的.NET客戶端 393
8.2.1  使用Solrnet 393
8.2.2  查詢 396
8.2.3  分類統(tǒng)計 397
8.2.4  ASP.NET中使用Solrnet 401
8.2.5  刪除數(shù)據(jù) 405
8.2.6  從數(shù)據(jù)庫索引數(shù)據(jù) 405
8.2.7  翻頁 408
8.2.8  實現(xiàn)多分類 411
8.3  查詢語法 412
8.3.1  對空格的支持 413
8.3.2  日期加權(quán) 413
8.4  索引分布 415
8.5  本章小結(jié) 417
第9章  Elasticsearch開發(fā)分
布式搜索 419
9.1  搜索集群 421
9.2  安裝 422
9.3  ES的.net客戶端 429
9.3.1  連接搜索服務(wù)器 429
9.3.2  創(chuàng)建索引 430
9.3.3  插入數(shù)據(jù) 431
9.4  查詢 432
9.4.1  布爾查詢 433
9.4.2  嵌套類型和嵌套查詢 434
9.4.3  查詢結(jié)果 437
9.4.4  過濾器 437
9.5  高亮顯示 437
9.6  分頁 442
9.7  本章小結(jié) 442
第10章  在線客服案例分析 445
10.1  使用WebSocket 446
10.2  知識庫 447
10.3  自動問答 449
10.4  本章小結(jié) 453
參考資源 455

熱門推薦文章
相關(guān)優(yōu)評榜
品類齊全,輕松購物 多倉直發(fā),極速配送 正品行貨,精致服務(wù) 天天低價,暢選無憂
購物指南
購物流程
會員介紹
生活旅行/團(tuán)購
常見問題
大家電
聯(lián)系客服
配送方式
上門自提
211限時達(dá)
配送服務(wù)查詢
配送費(fèi)收取標(biāo)準(zhǔn)
海外配送
支付方式
貨到付款
在線支付
分期付款
郵局匯款
公司轉(zhuǎn)賬
售后服務(wù)
售后政策
價格保護(hù)
退款說明
返修/退換貨
取消訂單
特色服務(wù)
奪寶島
DIY裝機(jī)
延保服務(wù)
京東E卡
京東通信
京東JD+