国产麻豆精品视频-国产麻豆精品免费视频-国产麻豆精品免费密入口-国产麻豆精品高清在线播放-国产麻豆精品hdvideoss-国产麻豆精品

始創于2000年 股票代碼:831685
咨詢熱線:0371-60135900 注冊有禮 登錄
  • 掛牌上市企業
  • 60秒人工響應
  • 99.99%連通率
  • 7*24h人工
  • 故障100倍補償
您的位置: 網站首頁 > 幫助中心>文章內容

搜索引擎原理(七)

發布時間:  2012/9/3 11:01:52
  隨便取一篇網頁的源文件(例如通過瀏覽器的“查看源文件”功能),我們 可以看到其中的情況紛亂繁雜。除了我們從瀏覽器中能夠正常看到的文字內容外, 還有大量的HTML標記。根據天網統計,網頁文檔源文件的大小(字節量)通常 大約是其中內容大小的 4 倍(例如http://net.pku.edu.cn就是如此!)。另外,由于 HTML文檔產生來源的多樣性,許多網頁在內容上比較隨意,不僅文字不講究規 范、完整,而且還可能包含許多和主要內容無關的信息(例如廣告,導航條,版 權說明等)。這些情況既給有效的信息查詢帶來了挑戰,也帶來了一些新的機遇, 在后面的章節將會有進一步的論述。這里我們只是指出,為了支持后面的查詢服 務,需要從網頁源文件中提取出能夠代表它的內容的一些特征。從人們現在的認 識和實踐來看,所含的關鍵詞即為這種特征最好的代表。于是,作為預處理階段 的一個基本任務,就是要提取出網頁源文件的內容部分所含的關鍵詞。對于中文 來說,就是要根據一個詞典Σ,用一個所謂“切詞軟件”,從網頁文字中切出Σ所 含的詞語來。在那之后,一篇網頁主要就由一組詞來近似代表了,p = {t , t , …, t }。 1 2 n 一般來講,我們可能得到很多詞,同一個詞可能在一篇網頁中多次出現。從效果 (effectiveness)和效率 (efficiency )考慮,不應該讓所有的詞都出現在網頁的表示 中,要去掉諸如“的”,“在”等沒有內容指示意義的詞,稱為“停用詞”(stop word)。 這樣,對一篇網頁來說,有效的詞語數量大約在200 個左右。 2. 重復或轉載網頁的消除 與生俱來的數字化和網絡化給網頁的復制以及轉載和修改再發表帶來了便 利,因此我們看到 Web 上的信息存在大量的重復現象。天網在 2003 年的一次大 規模統計分析表明,網頁的重復率平均大約為4。也就是說,當你通過一個URL 在網上看到一篇網頁的時候,平均還有另外 3 個不同的 URL 也給出相同或者基 本相似的內容。這種現象對于廣大的網民來說是有正面意義的,因為有了更多的 信息訪問機會。但對于搜索引擎來說,則主要是負面的;它不僅在搜集網頁時要 消耗機器時間和網絡帶寬資源,而且如果在查詢結果中出現,無意義地消耗了計 算機顯示屏資源,也會引來用戶的抱怨,“這么多重復的,給我一個就夠了”。因 此,消除內容重復或主題內容重復的網頁是預處理階段的一個重要任務。第七章 對此有詳細的分析論述。 3. 鏈接分析 前面提到,大量的HTML 標記既給網頁的預處理造成了一些麻煩,也帶來了 一些新的機遇。從信息檢索的角度講,如果系統面對的僅僅是內容的文字,我們 能依據的就是“共有詞匯假設” (shared bag of words),即內容所包含的關鍵詞集 合,最多加上詞頻(term frequency 或 tf、TF)和詞在文檔集合中出現的文檔頻 率(document frequency 或df、DF)之類的統計量。而TF 和DF 這樣的頻率信


本文出自:億恩科技【www.artduck.net】

服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經營性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經營性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經營性ICP/ISP證:贛B2-20080012
  • 服務器/云主機 24小時售后服務電話:0371-60135900
  • 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
  • 專注服務器托管17年
    掃掃關注-微信公眾號
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區翠竹街1號總部企業基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網安備41019702002023號
      0
     
     
     
     

    0371-60135900
    7*24小時客服服務熱線