如何來應對海量數據的挑戰? |
發布時間: 2012/6/20 20:19:46 |
隨著物聯網、社交網絡等新的互聯網技術的發展,在為人們帶來便利的同時,也產生了大量的、結構化的非格式化的數據。如何通過數據挖掘,從海量數據中獲得有用的信息,為用戶提供好的用戶體驗,增強企業的競爭力,這對企業來說是一個挑戰。
各巨頭的數據量級大曝光
百度威廉·張表示,“數百PB,每一天需要處理的數據是數十個TB,許多數據要在幾秒鐘之內處理,很多數據在幾分鐘之內要處理,更多的是幾個小時之內處理就夠了,幾個小時處理數十個PB的數據,也是很困難的。所有的策略都是針對實時性和數據處理的時效性理來做的。互聯網用戶的需求是更加實時,如微博、團購、秒殺等,所以說實時處理十分重要。”
Yahoo!周軼平談道,“雅虎的云計算平臺綜述超過三萬臺機器,最大的超過4000太左右,總存儲容量超過了100PB。”他表示,雅虎最近放了很多精力在保護用戶的隱私和數據安全性上,歐盟規定雅虎不能夠存儲用戶的數據超過一百天,雖然不能保存,但是雅虎做很深入的數據挖掘,從數據瓦局得到一些真正有價值的信息,并把這些信息保存下來。
SAP杜濤也介紹了其需要幫助客戶處理的數據量的級別,“SAP作為企業級應用的提供商,更關注客戶的數據量是多少,這些客戶包括中小型企業到大型的客戶,其中有數據密集型的企業,如電信、金融、政府、零售等等,客戶的數量級包括從幾個TB到數百個TB。”同時,SAP自己有一個很大的數據中心,主要是為SAP的客戶提供服務,有三萬臺服務器,數據量大概是15TB并且有越來越多的客戶的數據會在SAP的數據中心。
如何存儲并利用這些海量的數據?
如此海量的數據,如何進行存儲、分析、處理?并基于海量數據的挖掘,為企業創造更大的商業價值?針對海量數據的挖掘的技術架構,幾位專家分別介紹了自己的法寶。
SAP杜濤從兩個方面介紹SAP的海量數據處理方法,“一方面,在SAP的數據中心,采用了標準的云計算所用的虛擬化和分布式存儲;另一方面,針對單獨的企業,SAP在4月16號在德國發生了內存計算技術。海量數據的讀取和分析,在傳統的架構下,基于磁盤的IO是以毫秒級來計算的,而在內存RAM中處理時間是nm級的。所以SAP把客戶的數據經過壓縮的處理放到內存中去,進行讀取和分析,把之前在應用層的分析放到內存里面去做,提升性能,幫助用戶充分利用他們的數據。”
Yahoo!的云計算的體系是以Hadoop為中心的,周軼平介紹到,并從數據采集(HDFS)、數據存儲和處理、數據服務三個層面入手,介紹了雅虎的海量數據處理的方案。數據采集方面,yahoo建立了DataHave負責從雅虎遍布全球數據中心中的幾十萬臺機器上實時收集數據,它有2個干道,主干道負責把數據以很高的一致性經過各種過濾清理以后,放到Hadoop的平臺上。但是這樣的處理方法實時性不是很高,為了滿足實時性的需求,還有一個旁道系統,能夠在秒級直接將數據源導入到Hadoop上。雅虎的數據處理都是基于Hadoop的實時的服務,同時Yahoop還有一套很大的不同業務邏輯所需求的服務系統,超過一半的數據處理都是使用HadoopPig數據引擎。
百度威廉·張表示,面對互聯網的云計算,大搜索是基于索引的,如何對數據進行實時地快速的更新,就需要進行一些優化。比如說根據數據更新的頻率,建立在更新系統快或是更新系統慢的系統之上,根據地域的登錄跟重要性的登錄把它放到南方或者是北方的機房里,也就是說,主要是根據數據的應用來策略。機器學習的算法,內存里面的數據進行高復雜度的計算,可能要花費很長的時間,這在百度的環境中是不行的,無論是判斷用戶的需求、從用戶行為中得知需要推薦什么內容和什么廣告,這些都需要非常高的時效性和極規模的機器學習。
提供最全面的IDC資訊: 提供服務器托管租用方案; 業務代表:億恩柯南 QQ:965171276 電話:0371-63322201 文章摘自:IDC評述。 本文出自:億恩科技【www.artduck.net】 |