国产麻豆精品视频-国产麻豆精品免费视频-国产麻豆精品免费密入口-国产麻豆精品高清在线播放-国产麻豆精品hdvideoss-国产麻豆精品

始創于2000年 股票代碼:831685
咨詢熱線:0371-60135900 注冊有禮 登錄
  • 掛牌上市企業
  • 60秒人工響應
  • 99.99%連通率
  • 7*24h人工
  • 故障100倍補償
您的位置: 網站首頁 > 幫助中心>文章內容

搜索引擎原理(九)

發布時間:  2012/9/3 11:02:23
  倒排文件就是用詞來作為索引的一個數據結構,顯然,q中的詞必須是包含在倒排 文件詞表中才有意義。有了這樣的q,它的每一個元素都對應倒排文件中的一個倒 排表(文檔編號的集合),記作L(t) ,它們的交集即為對應查詢的結果文檔集合, i 從而實現了查詢和文檔的匹配。上述過程的基本假設是:用戶是希望網頁包含所 輸入查詢文字的。 2. 結果排序 上面,我們了解了得到和用戶查詢相關的文檔集合的過程。這個集合的元素 需要以一定的形式通過計算機顯示屏呈現給用戶。就目前的技術情況看,列表是 最常見的形式(但人們也在探求新的形式,如Vivisimo 引擎將結果頁面以類別的 形式呈現)。給定一個查詢結果集合,R={r , r , …, r },所謂列表,就是按照某種 1 2 n 評價方式,確定出R中元素的一個順序,讓這些元素以這種順序呈現出來。籠統 地講,ri和q的相關性(relevance )是形成這種順序的基本因素。但是,有效地定 義相關性本身是很困難的,從原理上講它不僅和查詢詞有關,而且還和用戶的背 景,以及用戶的查詢歷史有關。不同需求的用戶可能輸入同一個查詢,同一個用 戶在不同的時間輸入的相同的查詢可能是針對不同的信息需求。為了形成一個合 適的順序,在搜索引擎出現的早期人們采用了傳統信息檢索領域很成熟的基于詞 匯出現頻度的方法。大致上講就是一篇文檔中包含的查詢(q)中的那些詞越多, 則該文檔就應該排在越前面;再精細一些的考慮則是若一個詞在越多的文檔中有 出現,則該詞用于區分文檔相關性的作用就越小。這樣一種思路不僅有一定直覺 上的道理,而且在倒排文件數據結構上很容易實現。因為,當我們通過前述關鍵 詞的提取過程,形成一篇文檔的關鍵詞集合,p = {t , t , …, t }的時候,很容易同 1 2 n 時得到每一個ti在該文檔中出現的次數,即詞頻,而倒排文件中每個倒排表的長度 則對應著一個詞所涉及的文檔的篇數,即文檔頻率。然而,由于網頁編寫的自發 性、隨意性較強,僅僅針對詞的出現來決定文檔的順序,在Web上做信息檢索表 現出明顯的缺點,需要有其他技術的補充。這方面最重要的成果就是前面提到過 的PageRank。通過在預處理階段為每篇網頁形成一個獨立于查詢詞(也就和網頁 內容無關)的重要性指標,將它和查詢過程中形成的相關性指標結合形成一個最 終的排序,是目前搜索引擎給出查詢結果排序的主要方法。
本文出自:億恩科技【www.artduck.net】

服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經營性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經營性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經營性ICP/ISP證:贛B2-20080012
  • 服務器/云主機 24小時售后服務電話:0371-60135900
  • 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
  • 專注服務器托管17年
    掃掃關注-微信公眾號
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區翠竹街1號總部企業基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網安備41019702002023號
      0
     
     
     
     

    0371-60135900
    7*24小時客服服務熱線