本章介紹搜索引擎的基本工作原理和它作為一種網絡應用軟件的體系結構。 在后面的三章中,我們將以一個實際的例子,具體展開在這些原理基礎上實現的 一種方案。通過這幾章學習,讀者將得到一個可實際運行搜索引擎的實現細節。 第一節 基本要求 如在第一章第二節所述,搜索引擎是一個網絡應用軟件系統, 對它有如下基本要求。 能夠接受用戶通過瀏覽器提交的查詢詞或者短語,記作q,例如“非典”,“伊 拉克戰爭”,“床前明月光”等等。 在一個可以接受的時間內返回一個和該用戶查詢匹配的網頁信息列表,記作 L 。上一章講過,這個列表的每一條目至少包含三個元素(標題,網址鏈接,摘 要)。 q ,q ,… L ,L ,… 1 2 1 2 搜索引擎 網頁數據庫 圖2-1 搜索引擎示意圖 這里有幾個問題需要注意,它們對應上面黑體的文字: “可以接受的時間”,也就是響應時間。對于在Web 上面向廣大用戶提供服 務的軟件來說,這個時間不能太長,通常也就在“秒”這個量級。這是衡量搜索 引擎可用性的一個基本指標,也是和傳統信息檢索系統的一個差別。更進一步的, 這樣的響應時間要求不僅要能滿足單個用戶查詢,而且要能在系統設計負載的情 況下滿足所有的用戶。也就是說,系統應該在額定吞吐率的情況下保證秒級響應 時間。這其中詳細的分析將在中篇第八章展開。 “匹配”,指的是網頁中以某種形式包含有q 的內容,其中最簡單、最常見 本文出自:億恩科技【www.artduck.net】
服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]
|