国产麻豆精品视频-国产麻豆精品免费视频-国产麻豆精品免费密入口-国产麻豆精品高清在线播放-国产麻豆精品hdvideoss-国产麻豆精品

始創(chuàng)于2000年 股票代碼:831685
咨詢熱線:0371-60135900 注冊有禮 登錄
  • 掛牌上市企業(yè)
  • 60秒人工響應
  • 99.99%連通率
  • 7*24h人工
  • 故障100倍補償
全部產(chǎn)品
您的位置: 網(wǎng)站首頁 > 幫助中心>文章內(nèi)容

網(wǎng)絡爬蟲與Web安全

發(fā)布時間:  2012/8/25 17:33:47

隨著互聯(lián)網(wǎng)的 高速發(fā)展,基于網(wǎng)絡爬蟲與搜索引擎技術的互聯(lián)網(wǎng)應用將會越來越多,網(wǎng)站管理員及安全人員,有必要了解爬蟲的原理及限制方

 

網(wǎng)絡爬蟲概述

網(wǎng)絡爬蟲(Web Crawler),又稱網(wǎng)絡蜘蛛(Web Spider)或網(wǎng)絡機器人(Web Robot),是一種按照一定的規(guī)則自動抓取萬維網(wǎng)資源的程序或者腳本,已被廣泛應用于互聯(lián)網(wǎng)領域。搜索引擎使用網(wǎng)絡爬蟲抓取Web網(wǎng)頁、文檔甚至圖片、音頻、視頻等資源,通過相應的索引技術組織這些信息,提供給搜索用戶進行查詢。隨著網(wǎng)絡的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。不斷優(yōu)化的網(wǎng)絡爬蟲技術正在有效地應對這種挑戰(zhàn),為高效搜索用戶關注的特定領域與主題提供了有力支撐。網(wǎng)絡爬蟲也為中小站點的推廣提供了有效的途徑,網(wǎng)站針對搜索引擎爬蟲的優(yōu)化曾風靡一時。

傳統(tǒng)網(wǎng)絡爬蟲從一個或若干個初始網(wǎng)頁的URL(Universal Resource Locator統(tǒng)一資源定位符)開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定條件停止抓取。現(xiàn)階段網(wǎng)絡爬蟲已發(fā)展為涵蓋網(wǎng)頁數(shù)據(jù)抽取、機器學習、數(shù)據(jù)挖掘、語義理解等多種方法綜合應用的智能工具。

網(wǎng)絡爬蟲的安全性問題

由于網(wǎng)絡爬蟲的策略是盡可能多的“爬過”網(wǎng)站中的高價值信息,會根據(jù)特定策略盡可能多的訪問頁面,占用網(wǎng)絡帶寬并增加Web服務器的處理開銷,不少小型站點的站長發(fā)現(xiàn)當網(wǎng)絡爬蟲光顧的時候,訪問流量將會有明顯的增長。惡意用戶可以利用爬蟲程序?qū)eb站點發(fā)動DoS攻擊,使Web服務在大量爬蟲程序的暴力訪問下,資源耗盡而不能提供正常服務。惡意用戶還可能通過網(wǎng)絡爬蟲抓取各種敏感資料用于不正當用途,主要表現(xiàn)在以下幾個方面:

1)搜索目錄列表

互聯(lián)網(wǎng)中的許多Web服務器在客戶端請求該站點中某個沒有默認頁面的目錄時,會返回一個目錄列表。該目錄列表通常包括可供用戶點擊的目錄和文件鏈接,通過這些鏈接可以訪問下一層目錄及當前目錄中的文件。因而通過抓取目錄列表,惡意用戶往往可獲取大量有用的資料,包括站點的目錄結構、敏感文件以及 Web服務器設計架構及配置信息等等,比如程序使用的配置文件、日志文件、密碼文件、數(shù)據(jù)庫文件等,都有可能被網(wǎng)絡爬蟲抓取。這些信息可以作為挑選攻擊目標或者直接入侵站點的重要資料。

2)搜索測試頁面、手冊文檔、樣本程序及可能存在的缺陷程序

大多數(shù)Web服務器軟件附帶了測試頁面、幫助文檔、樣本程序及調(diào)試用后門程序等。這些文件往往會泄漏大量的系統(tǒng)信息甚至提供繞過認證直接訪問Web服務數(shù)據(jù)的方法,成為惡意用戶分析攻擊Web服務器的有效情報來源。而且這些文件的存在本身也暗示網(wǎng)站中存在潛在的安全漏洞。

3)搜索管理員登錄頁面

許多網(wǎng)絡產(chǎn)品提供了基于Web的管理接口,允許管理員在互聯(lián)網(wǎng)中對其進行遠程管理與控制。如果管理員疏于防范,沒有修改網(wǎng)絡產(chǎn)品默認的管理員名及密碼,一旦其管理員登錄頁面被惡意用戶搜索到,網(wǎng)絡安全將面臨極大的威脅。

4)搜索互聯(lián)網(wǎng)用戶的個人資料

互聯(lián)網(wǎng)用戶的個人資料包括姓名、身份證號、電話、Email地址、QQ號、通信地址等個人信息,惡意用戶獲取后容易利用社會工程學實施攻擊或詐騙。

因此,采取適當?shù)拇胧┫拗凭W(wǎng)絡爬蟲的訪問權限,向網(wǎng)絡爬蟲開放網(wǎng)站希望推廣的頁面,屏蔽比較敏感的頁面,對于保持網(wǎng)站的安全運行、保護用戶的隱私是極其重要的。

基于網(wǎng)絡爬蟲技術的Web漏洞掃描

前面提到的網(wǎng)絡爬蟲對網(wǎng)站的間接安全威脅,是通過對網(wǎng)絡站點的信息收集為不法份子的非法訪問、攻擊或詐騙作準備。隨著安全技術的發(fā)展,利用網(wǎng)絡爬蟲技術對Web漏洞的直接探測已經(jīng)出現(xiàn),這會直接影響到Web服務器的安全。Web服務器漏洞中,跨站腳本(Cross Site Script)漏洞與SQL注入(SQL Injection)漏洞所占比例很高,這兩種漏洞均可以通過對網(wǎng)絡爬蟲的改進來進行探測。由于缺乏足夠的安全知識,相當多的程序員在編寫Web應用程序時對網(wǎng)頁的請求內(nèi)容缺乏足夠的檢查,使得不少Web應用程序存在安全隱患。用戶可以通過提交一段精心構造的包含SQL語句或腳本的URL請求,根據(jù)程序的返回結果獲得有關的敏感信息甚至直接修改后臺數(shù)據(jù)。基于目前的安全現(xiàn)狀,網(wǎng)絡爬蟲技術在Web漏洞掃描上的應用,大大提高了發(fā)現(xiàn)漏洞的效率。

基于網(wǎng)絡爬蟲技術的Web漏洞掃描大至分為如下過程:

1)頁面過濾:通過自動化的程序抓取網(wǎng)站頁面,對包含

等標簽的Web頁面進行URL提取處理,這些HTML標簽中包含URL信息,便于惡意用戶進行更深入的Web訪問或提交操作。

2)URL 匹配:對Web頁面中的URL進行自動匹配,提取由參數(shù)組合而成的動態(tài)查詢URL或提交URL,進行下一步的漏洞探測。如動態(tài)查詢 URL“http://baike.xxxx.com/searchword/?word=frameset&pic=1”,其中 frameset為URL中動態(tài)的參數(shù)部分,可以進行參數(shù)變換。提交URL用于把Web用戶的輸入提交到服務器進行處理,其參數(shù)多為用戶輸入,同樣可以進行參數(shù)變換。

3)漏洞試探:根據(jù)動態(tài)查詢URL或提交URL,自動在參數(shù)部分進行參數(shù)變換,插入引號、分號(SQL注入對其敏感)及 script標簽(XSS對 其敏感)等操作進行試探,并根據(jù)Web服務器返回的結果自動判斷是否存在漏洞。如“URL匹配”中的動態(tài)查詢URL可以變換成 http://baike.xxxx.com/searchword/?word= &pic=1進行跨站腳本漏洞探測。

如何應對爬蟲的安全威脅

由于網(wǎng)絡爬蟲帶來的安全威脅,不少網(wǎng)站的管理人員都在考慮對爬蟲訪問進行限制甚至拒絕爬蟲訪問。實際上,根據(jù)網(wǎng)站內(nèi)容的安全性及敏感性,區(qū)別對待爬 蟲是比較理想的措施。網(wǎng)站的URL組織應該根據(jù)是否為適合大范圍公開,設置不同的URL路徑,在同一Web頁面中既有需要完全公開信息也有敏感信息時,應 通過鏈接、標簽嵌入網(wǎng)頁等方式顯示敏感內(nèi)容,另外盡可能把靜態(tài)頁面等經(jīng)評估安全性較高的頁面與安全性較差的動態(tài)頁面從URL上分開。當限制爬蟲時可以針對 URL路徑的安全性與敏感性對不同種類的爬蟲與代理進行限制。

限制爬蟲可以通過以下幾種方法實現(xiàn):

1) 設置robots.txt文件

限制爬蟲最簡單的方法是設置robots.txt文件。robots.txt文件是搜索引擎爬蟲訪問網(wǎng)站的時候要查看的第一個文件,它告訴爬蟲程序在服務器上什么文件是可以被查看的,如設置Disallow: /,則表示所有的路徑均不能查看。遺憾的是并不是所有的搜索引擎爬蟲會遵守這個規(guī)則,因此僅僅設置robots文件是不夠的。

2) User Agent識別與限制

要對不理會robots.txt文件的爬蟲訪問進行限制,首先要把爬蟲流量與普通用戶的訪問流量進行區(qū)分,即對其進行識別。一般的爬蟲程序都可以通過其 HTTP請求中的User Agent字段進行識別,該字段使服務器能夠識別客戶使用的操作系統(tǒng)及版本、CPU類型、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等。爬蟲的User Agent字段一般與瀏覽器的有所不同,如Google搜索引擎爬蟲User Agent字段中會有類似Googlebot的字符串,如User-Agent: Googlebot/2.1 ( http://www.google.com/bot.html),百度搜索引擎爬蟲則會有類似Baiduspider的字符串。不少Web服務器軟件如 Apache,可以設置通過User Agent字段進行訪問過濾,可以比較有效的限制大部分爬蟲的訪問。

3) 通過訪問行為特征識別與限制

對于在HTTP請求的User Agent字段刻意偽裝成瀏覽器的爬蟲,可以通過其訪問行為特征進行識別。爬蟲程序的訪問一般是有規(guī)律性的頻率比較高,區(qū)別于真實用戶瀏覽時的隨意性與低 頻率。對這類爬蟲的限制原理與DDoS攻擊的防御原理很相似,都基于統(tǒng)計數(shù)據(jù)。對于這類爬蟲的限制只能通過應用識別設備、IPS等能夠做深度識別的網(wǎng)絡設 備來實現(xiàn)。用網(wǎng)絡設備限制網(wǎng)絡爬蟲,不僅比較全面,而且非常適合在多服務器情況下進行統(tǒng)一的管理,避免多服務器單獨管理有可能造成的疏漏。

結束語

網(wǎng)絡爬蟲及其對應的技術為網(wǎng)站帶來了可觀訪問量的同時,也帶來了直接與間接的安全威脅,越來越多的網(wǎng)站開始關注對網(wǎng)絡爬蟲的限制問題。隨著互聯(lián)網(wǎng)的 高速發(fā)展,基于網(wǎng)絡爬蟲與搜索引擎技術的互聯(lián)網(wǎng)應用將會越來越多,網(wǎng)站管理員及安全人員,有必要了解爬蟲的原理及限制方法,準備好應對各種各樣的網(wǎng)絡爬蟲。
如果有需要服務器的租用與托管的敬請聯(lián)系QQ:1501281758    聯(lián)系電話:0371-63322220


本文出自:億恩科技【www.artduck.net】

服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經(jīng)營性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經(jīng)營性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經(jīng)營性ICP/ISP證:贛B2-20080012
  • 服務器/云主機 24小時售后服務電話:0371-60135900
  • 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
  • 專注服務器托管17年
    掃掃關注-微信公眾號
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區(qū)翠竹街1號總部企業(yè)基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網(wǎng)安備41019702002023號
      0
     
     
     
     

    0371-60135900
    7*24小時客服服務熱線

     
     
    天天做人人爱夜夜爽2020| 午夜欧美福利| 日韩在线观看网站| 97视频免费在线| 国产国语在线播放视频| 日日夜夜婷婷| 国产网站麻豆精品视频| 青青青草影院 | 久久久久久久久综合影视网| 午夜在线影院| 亚洲女人国产香蕉久久精品 | 99色精品| 精品视频在线看 | 色综合久久天天综线观看| 国产不卡在线观看视频| 精品视频在线观看视频免费视频 | 午夜欧美福利| 日本在线不卡视频| 午夜激情视频在线播放| 国产伦理精品| 韩国毛片免费| 精品国产一区二区三区国产馆| 欧美a级v片不卡在线观看| 国产亚洲精品aaa大片| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 你懂的福利视频| 亚洲精品久久玖玖玖玖| 国产不卡高清在线观看视频| 欧美激情在线精品video| 国产伦精品一区三区视频| 国产亚洲精品成人a在线| a级精品九九九大片免费看| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 中文字幕一区二区三区精彩视频| 国产一区二区精品久| 成人a级高清视频在线观看| 久久国产精品只做精品| 麻豆午夜视频| 欧美a级v片不卡在线观看| 国产视频一区在线| 日本在线不卡视频| 九九九国产| 久久国产精品自由自在| 日本伦理黄色大片在线观看网站| 美女免费精品视频在线观看| 麻豆网站在线免费观看| 国产高清视频免费观看| 亚洲精品影院久久久久久| 欧美电影免费| 日韩免费片| 国产a网| 精品美女| 超级乱淫黄漫画免费| 国产成人欧美一区二区三区的| 四虎影视精品永久免费网站| 日日爽天天| 亚洲精品久久玖玖玖玖| 国产精品自拍亚洲| 精品在线视频播放| 青青久久精品| 毛片的网站| 国产一区二区高清视频| 国产视频久久久久| 国产成人啪精品| 国产视频在线免费观看| 午夜欧美福利| 91麻豆精品国产综合久久久| 欧美电影免费看大全| 久久久久久久久综合影视网| 亚洲不卡一区二区三区在线| 日本特黄特黄aaaaa大片| 韩国三级视频网站| 超级乱淫黄漫画免费| 亚飞与亚基在线观看| 午夜在线亚洲| 黄色福利片| 欧美激情一区二区三区中文字幕| 欧美激情一区二区三区在线| 日本乱中文字幕系列| 久久国产精品只做精品| 一级片片| 日韩一级黄色大片| 91麻豆爱豆果冻天美星空| 九九九国产| 深夜做爰性大片中文| 中文字幕Aⅴ资源网| 四虎影视久久久免费| 欧美爱爱动态| 九九精品影院| 色综合久久天天综合| 美国一区二区三区| 欧美大片一区| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 亚洲爆爽| 国产国语在线播放视频| 韩国毛片 免费| 久久国产精品只做精品| 成人高清视频免费观看| 成人免费一级纶理片| 色综合久久天天综线观看| 精品国产一区二区三区国产馆| 欧美日本韩国| 一级女性全黄生活片免费| 国产韩国精品一区二区三区| 尤物视频网站在线观看| 久久久久久久久综合影视网| 亚欧成人乱码一区二区| 国产网站麻豆精品视频| 久久国产影院| 欧美激情一区二区三区在线播放| 久久99青青久久99久久| 成人免费观看网欧美片| 国产一区免费在线观看| a级精品九九九大片免费看| 日韩在线观看视频黄| 久久99中文字幕久久| 国产视频在线免费观看| 日韩专区在线播放| 精品国产一区二区三区精东影业| 日本在线不卡视频| 可以免费看污视频的网站| 韩国三级视频在线观看| 韩国毛片 免费| 日韩免费在线视频| 国产成人欧美一区二区三区的| 精品毛片视频| 美女免费毛片| 一级毛片视频免费| 99热精品在线| 四虎影视久久久| 国产成人女人在线视频观看| 日本伦理片网站| 精品视频在线观看视频免费视频| 欧美一级视频免费观看| 台湾毛片| 国产一区二区精品久| 九九精品久久| 国产一区二区精品久| 日韩一级黄色大片| 久久久久久久网| 麻豆网站在线免费观看| 日韩欧美一及在线播放| 国产视频一区二区在线播放| 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 成人免费网站久久久| 国产精品自拍亚洲| 国产一区二区精品久久91| 午夜精品国产自在现线拍| 国产麻豆精品免费密入口| 久久99中文字幕| 中文字幕Aⅴ资源网| 国产91精品一区二区| 国产成人欧美一区二区三区的| 一级女性全黄久久生活片| 美女免费精品视频在线观看| 欧美激情一区二区三区在线播放| 亚洲精品永久一区| 久久久久久久男人的天堂| 久久99中文字幕久久| 日韩中文字幕一区二区不卡| 日本免费乱人伦在线观看 | 日韩av成人| 成人av在线播放| 四虎影视库| 你懂的在线观看视频| 91麻豆精品国产自产在线 | 日韩一级黄色| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 日韩avdvd| 香蕉视频亚洲一级| 二级片在线观看| 精品在线观看一区| 精品视频免费在线| 国产成人啪精品视频免费软件| 免费国产在线观看| 欧美a级片免费看| 一本伊大人香蕉高清在线观看| 欧美大片aaaa一级毛片| 国产亚洲精品aaa大片| 国产网站免费观看| 国产原创中文字幕| 九九精品在线播放| 欧美激情一区二区三区在线| 欧美一区二区三区在线观看| 国产高清视频免费| 久久久成人网| a级黄色毛片免费播放视频| 成人影视在线播放| 日本在线www| 日韩免费片| 一级片免费在线观看视频| 久久99爰这里有精品国产| 九九九在线视频| 久久福利影视| 国产视频一区在线| 日韩在线观看视频黄| 日韩在线观看网站| 国产成人精品在线| 九九精品影院|