国产麻豆精品视频-国产麻豆精品免费视频-国产麻豆精品免费密入口-国产麻豆精品高清在线播放-国产麻豆精品hdvideoss-国产麻豆精品

始創于2000年 股票代碼:831685
咨詢熱線:0371-60135900 注冊有禮 登錄
  • 掛牌上市企業
  • 60秒人工響應
  • 99.99%連通率
  • 7*24h人工
  • 故障100倍補償
您的位置: 網站首頁 > 幫助中心>文章內容

搜索引擎原理(六)

發布時間:  2012/9/3 11:01:43
  搜索引擎是不可能將Web上的網頁搜集完全的,通常都是在其他條件的限制下決 定搜集過程的結束(例如磁盤滿,或者搜集時間已經太長了)。因此就有一個盡量 使搜到的網頁比較重要的問題,這對于那些并不追求很大的數量覆蓋率的搜索引 擎特別重要。研究表明[Najork and Wiener,2001],按照先寬搜索方式得到的網頁集 合要比先深搜索得到的集合重要(這里當然有一個重要性的指標問題)。這種方式 的一個困難是要從每一篇網頁中提取出所含的URL 。由于HTML的靈活性,其中 出現URL的方式各種各樣,將這個環節做得徹底不容易(例如我們現在還沒有很 好的簡單辦法從JavaScript腳本中提取URL )。同時,由于Web的“蝴蝶結”形狀 [Broder, et al.,2000],這種方式搜集到的網頁不大會超過所有目標網頁數量2 的2/3。 另外一種可能的方式是在第一次全面網頁搜集后,系統維護相應的 URL 集 合 S,往后的搜集直接基于這個集合。每搜到一個網頁,如果它發生變化并含有 新的URL,則將它們對應的網頁也抓回來,并將這些新URL 也放到集合S 中; 如果 S 中某個url 對應的網頁不存在了,則將它從 S 中刪除。這種方式也可以看 成是一種極端的先寬搜索,即第一層是一個很大的集合,往下最多只延伸一層。 還有一種方法是讓網站擁有者主動向搜索引擎提交它們的網址(為了宣傳自 己,通常會有這種積極性),系統在一定時間內(2 天到數月不等)定向向那些網 站派出“蜘蛛”程序,掃描該網站的所有網頁并將有關信息存入數據庫中。大型 商業搜索引擎一般都提供這種功能。 第三節 預處理 得到海量的原始網頁集合,距離面向網絡用戶的檢索服務之間還有相當的距 離。宏觀地看,服務子系統是一個程序。采用Wirth 關于“程序 = 算法+數據結 構”的觀點來考察這個程序,一個合適的數據結構是查詢子系統工作的核心和關 鍵。這里只是指出:現行最有效的數據結構是“倒排文件”(inverted file);倒排 文件是用文檔中所含關鍵詞作為索引,文檔作為索引目標的一種結構(類似于普 通書籍中,索引是關鍵詞,書的頁面是索引目標)。我們在第八章中有進一步分析。 下面討論從網頁集合形成這樣的倒排文件過程中的幾個主要問題,即我們所說的 “預處理”。主要包括四個方面,關鍵詞的提取,“鏡像網頁”(網頁的內容完全相 同,未加任何修改)或“轉載網頁”(near-replicas,主題內容基本相同但可能有 一些額外的編輯信息等,轉載網頁也稱為“近似鏡像網頁”)的消除,鏈接分析和 網頁重要程度的計算。 1.關鍵詞的提取 2 所謂“目標網頁”指的是搜索引擎設計覆蓋的網頁范圍。例如Google是全球,天網是全中國。
本文出自:億恩科技【www.artduck.net】

服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經營性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經營性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經營性ICP/ISP證:贛B2-20080012
  • 服務器/云主機 24小時售后服務電話:0371-60135900
  • 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
  • 專注服務器托管17年
    掃掃關注-微信公眾號
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區翠竹街1號總部企業基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網安備41019702002023號
      0
     
     
     
     

    0371-60135900
    7*24小時客服服務熱線