- 自己動手寫分布式搜索引擎
- 羅剛
- 344字
- 2020-11-28 15:52:39
1.3.4 分布式計算
算法設計是一件非常困難的工作,需要有很好的數據結構基礎。本書中采用的算法設計技術主要有迭代法、分治法、動態規劃法等。
互聯網搜索經常面臨海量數據。需要分布式的計算框架來執行對網頁重要度打分等計算。有的計算數據很少,但是計算量很大;還有些計算數據量比較大,但是計算量相對比較小。例如,計算圓周率是計算密集型,互聯網搜索中的計算往往是數據密集型。所以出現了數據密集型的云計算框架。MapReduce是一種常用的云計算框架。但是MapReduce是批處理的操作方式。一般來說,直到完成上一階段的操作后才能啟動下一階段的操作。
要有一種計算,可以盡快出結果,隨著時間的延長,計算結果會越來越好。很多計算可以用迭代的方式做,迭代次數越多,結果往往越好,比如PageRank或者KMeans、EM算法。當然,這個應該不只需要迭代,還需要向最優解收斂。
推薦閱讀
- 對比Excel,輕松學習SQL數據分析
- Celtx: Open Source Screenwriting Beginner's Guide
- Adobe創意大學Illustrator產品專家認證標準教材(CS6修訂版)
- Creo Parametric 5.0中文版從入門到精通
- Unity Game Development Essentials
- 工業軟件研發、測試與質量管理論叢
- ANSYS 15.0有限元分析自學手冊
- ASP.NET 3.5 Application Architecture and Design
- Photoshop CC平面設計教程(微課版)
- Premiere Pro CC 2015中文版基礎與實例教程(第4版)
- CAD/CAM應用教程
- 中文版UG NX 7.0基礎教程
- Oracle BI Publisher 11g: A Practical Guide to Enterprise Reporting
- 跟著視頻學Excel數據處理:函數篇
- Photoshop 圖形圖像處理