国产麻豆精品视频-国产麻豆精品免费视频-国产麻豆精品免费密入口-国产麻豆精品高清在线播放-国产麻豆精品hdvideoss-国产麻豆精品

始創于2000年 股票代碼:831685
咨詢熱線:0371-60135900 注冊有禮 登錄
  • 掛牌上市企業
  • 60秒人工響應
  • 99.99%連通率
  • 7*24h人工
  • 故障100倍補償
您的位置: 網站首頁 > 幫助中心>文章內容

武永衛:清華云存儲構架及其安全

發布時間:  2012/7/28 8:54:49

2012年1月11日,第六屆中國IDC產業年度大典在北京國家會議中心盛大開幕,本屆大會以“構建云數據中心暨云應用創新論壇”為主題,邀電信運營商、IDC企業、設備廠商、互聯網等業界同仁共同探討云計算時代下的IDC產業機遇與責任,清華大學教授武永衛發表演講:清華云存儲構架及其安全。 

清華大學教授武永衛:各位好,首先就是抱歉,今天早上到遲了。我抱歉的措施是什么?就是講的快一點。今天關注的問題是云存儲,因為大家一聽到做科研的,你們做的東西都是研究著玩的,我今天講的內容,在清華大學校園里面,有兩萬的用戶,僅僅是清華大學的學生和老師來用,對其他人不給用,因為我們不像新浪這么大的全球用戶,我們盤子比較小。說到兩萬這個數字,我特別自豪,看到他們的用戶才十七萬。我們的數據量已經的100T了,他們才幾十T,所以我很自豪。我講的是云存儲,首先說一下自己的認識。首先我們說的云計算,包括今天新浪做的很多事情,因為他們是互聯網的大公司,有很多的用戶,他們核心,包括今天做的APP,特點就是對數據量大量的交互沒有,就是給大家提供小信息的交互,或者小信息的獲取,網站、微博,都是這一類,或者打一些小游戲。打游戲,在云里的支持肯定有問題。所以這是一類應用。
我今天關注的一類應用,就是希望把這類應用推到各個單位內部,以一個單位,以前有一個概念叫私有云,我個人認為就是指一個企業或者一個組織,或者一個校園,以這樣的單位組織為我們的需求點,而不是對全體開發。兩者有什么區別?在校園里面、單位里面具有非常優良的網絡條件,千兆以太網到桌面,任何一個單位的千兆以太網80%都用不起來,我們就是幫助他們用起來,提供更好的產品。
我們一直認為云計算是一個模式,根本沒有什么新的技術,倒是有一些新的問題。我剛剛問的問題,解決起來很難,里面有一些新問題倒有可能,絕對沒有太多的新技術,大家不要太膜拜。
第二,存儲是云計算的左腿,沒有存儲,云計算就沒有辦法玩,沒有云計算,云存儲可以繼續玩。我90年代開始用ICQ,那個時候QQ沒有到國內。后來騰訊就是把ICQ漢化,在中國。這個東西在中國時髦起來了,在美國就是時髦不起來。當時用這個感覺就是找不認識的人,認識的目的就是干一些自己任何時候在老師同學面前不敢做的事情,說一些自己可以撒野的話,然后覺得這個對象不錯,就是見見面,就是這個事兒。就是認識以前不認識的人。現在很多的QQ群、Facebook等,我們已經認識很多的人,由于時間地點,慢慢遺忘了,那就提供一個渠道,讓這些人都聚起來,沒有事情,就是在QQ群里面跟以前的朋友聯系一下。
所謂的數據社交是什么?我們希望認識的是一些志同道合的人。我們在清華的一個感覺,這種需求為什么這么強烈?有的同學就對Mac的開發程序感興趣,他們希望互相交流,代碼貢獻出來。對Mac沒有開發的程序,暴露出來有什么用?無非就是一個垃圾。但是對有興趣的人,這就是一個寶貝。所以具有真實的社會關系或者具有共同的特征。還有一類,真實的社會關系,在座的各位如果有了小孩,每個人都有家庭,Share一下旅游的照片,拿回來,現在一張照片5到10兆,幾百兆的照片,怎么給父母看?只能抱著一個電腦,插上U盤來進行觀看。如果父母在外地的話,這件事情就麻煩了,幾百G的東西沒有很快進行共享。我們說的就是數據創造,創造出數據,然后把數據分享給別人,跟別人共同分享為核心,這就是數據社交。我剛剛說了清華的Mac水果籃子,還有一個清華的跳水隊,用我們的社區概念干什么?就是在我們社區放500G的東西,我們偷偷的看了一下,我也沒有看到他們的數據,也偷偷看了一下,為什么放這么多數據,跳水動作的照片,還有視頻內容,到跳水館,拿一個Pad一播,就給他們看一下,糾正跳水的問題。一拍一上傳,隊員在宿舍里面各自又可以看這些照片了,他們就是做這個事情。
我就說明一個問題,數據社交核心問題就是數據量比較大,如果只是消息的話,就是建議大家用新浪,我們以大數據量為核心。
在座的都是大學畢業生,社區有600個,100多個都是班級,比如說G53,就是2005年入學的第三個班級,全是班級出游的照片和DV,這些東西現在還搬不走,畢業了,希望我天天開著,已經700多G了,想搬還搬不走,對企業運營來說就非常重要了,離不開你的時候,就是你賺錢的開始。
現在開始說存儲,以前我們獲得了FTP  迅雷、電驢等,就是很快的將想要的內容下載下來,清華大學按流量收費的時候,這些事情同學們不敢做了,下載一個電影幾百塊錢就沒有了,問題就來了,對于單位來說,我的市場就來了。
Dropbox,在全球做得最好,中國做的網盤都是朝他們學習,一個模子。不管學成什么樣,都是一樣的,本質上來說,還是一個備份。也就是說對用戶感覺來說,像使用本地文件一樣使用這個東西。對于快盤的開發者,系統開發的角度來說,他們同時都是像FTP一樣,沒有太多的東西。也就是說不是經過網絡讀寫文件,而是把文件在本地做了Cache,再放到后端,FTP把數據傳過去,舊的覆蓋掉,就是做同步的問題。所有數據在本地需要做Cache,在網上有實際,本地必須有實際,除非不換電腦,個人數據超過100G的話,按照國家目前的三網融合,我不知道需要下載多長時間,我使用過快盤的速度,也使用Dropbox,就不知道怎么辦了。說別人不好,但是別人也有非常優秀的地方,只是不愿意說。先說他們的缺點,把他們的缺點解決掉,說成我的優勢。寫論文也是這樣,做搜索也是這樣。
我們做了云存儲,第一,有云的特征,通過網絡能夠很容易獲得。什么叫容易呢?隨時隨地隨方式,手機、Mac、筆記本、臺式機、集群,任何時候在任何操作系統下,很快獲取想要的內容。什么叫獲得,HTTP叫獲得,不需要一定要先下載下來,可以做Cache一部分,沒有的話,就直接讀寫。90年代使用的NFS一樣,這樣的情況下,IO效率肯定降低,要求比較高的話,就對Cache進行修改,IO不高可以放在網上。大家現在整天分享的東西都是照片、DV,這些東西需要修改嗎?不需要,僅僅需要看。這樣的東西不需要做Cache,通過網絡足夠可以看了?凑掌ㄈ迕,把照片五兆的東西傳到桌面上,就覺得沒有什么區別了,就跟在本地感覺一樣了,這樣就很好。
第三點,永不丟失,數據資產成為一輩子的資產,美國存一個密碼和用戶名的密碼存下來遺傳的時候,就是收費,每年12美金,這樣就可以賺錢了,把密碼和用戶名繼承下來,傳給后代,就是要收費。數據資產一定要遺傳,跟房產一樣,一輩子的資產要遺傳下來,放在我們這里非常安全,不會丟失?蓪彶,意味著我們可以看。我們最終解決的是技術問題,讓系統管理員看不到。
為了做這個事情,我們有三個階段,第一,創造一個模式出來,云計算成功的地方就是有新的模式。我們做了類似于分布式的FTP的東西,用我們的東西還是要上傳下載,我們提出一個概念叫社區,社區叫做任何一小撮人放在一起就是一個社區,一個班級、一個組織、一個協會叫一個社區,把內容共享出來。所以就是很容易創建和使用的社區。
我們就是為了驗證這件事情,在校園里面建了這么一個東西,這個東西怕大家聽不懂,簡單說一下使用方式。三種用戶,第一,對個人,就是跟網盤一樣,網上有空間,可以放數據,可以拿數據。第二,就是社區,加入100個社區,相當于C盤下面多了100個目錄,不同的文件有不同的內容,就是跟別人分享的。其實每一個人都有很多的社交的圈子,唯一最終的交集就是你自己,其他都沒有交集。這樣的社區圈子里,就是很多不同的目錄。
還有一個就是公共和傳統的FTP沒有很大的區別。
其他技術上的內容,我相信,現在的技術很成熟,大家用心學,計算機不復雜,沒有想不到的,只有做不到的。構架也不說了。
我說一下界面,最終大家使用的感受很重要,右上角就是界面,是客戶端,使用習慣是一模一樣,跟本地的資源管理器沒有任何的整合,我們自己開發的。第二,可以把本地的C盤、D盤,中間公共的,下面一登錄,就會把個人的空間和社區都列出來了,有自己的文件,還有下面下載的速度、質量、進度的感受。這個東西為什么在學校里使用很快,99%的客戶不搞計算機的,使用習慣就是保留,資源管理器怎么用,他們就一直使用下來了。
最重要的是速度要快,清華大學做下來,平均五兆/秒,看3D也看不了實時的,還需要下載,我們做到5mb/s.有一個故事,我們老師有一個小孩,促進了社會和諧,為什么促進?老教授有一個小孩,在二環以內工作,離清華很遠,平時社交活動很多,懶得回家,這位老教授,就是我們組的,跟他的小孩講,我們組做了一個東西,里面有電影,可以看一下,這個小孩說,這個消息好,每天回來,先下載5個電影,吃完飯就可以看了,就是在我們的社區里。從那以后,每周周末就回來了,促進了家庭和諧。為什么我這里快?就是清華大學校園網5mb/s,很快就能拿到資源。其他的快速共享等,還有數據社交,這個詞只有我現在在鼓吹,希望大家理解。移動硬盤、硬盤擴容等,我們已經到了200G的數據,都是學生自己放上去的。這是一些其他的地方用我們的東西,這是去年的PPT,我們數據量是100T,每天有1.3T的數據流入流出,新浪的數據量沒有我們高,我們在校園網里,很快,又是視頻,量很大,1.3T從系統進來或者出去,其他方面就不想說了。
當然還有其他的單位,他們也用,都是免費在用,以后就不會免費了,F在里面有一個核心的問題,就是那么多的數據資源哪里來的,我要告訴大家一開始的時候,里面放了3T的視頻數據,都是我們組學生自己的,他們自己的硬盤,放在里面,就不用占硬盤了,就把視頻數據放進去了,學生都愿意看。結果清華里面有一個電影協會,說維護里面的電影,維護什么?就是最后誰上傳片子,是西歐還是東亞的,還是幽默的,就是分分類,整理之后給大家。結果同學們非常愿意互相分享,為什么?如果你的同學說,你看那個片子多么好,肯定想看,怎么給他呢?難道拿一個U盤考嗎?還挺麻煩。所以數據全是同學們自己奉獻的,這就叫共享,他們貢獻出來,自己獲得共享之后的好處。這就是我的數據產生的途徑。
典型的社區,每個社區多少人,2008年,2010年的數據都有了。現在說新的內容,現在中國類似于網盤的東西,查了一下,去年6、7月份的時候,是有17個,現在估計已經有170個了,因為門檻太低,都會做。我們說說這個東西,我們加了一個定語,Meepo,就是新型,第一,實現文件數據的存儲和共享,將網絡資源與本地無縫集成。所看到的社區資源、公共資源,100T的數據,在本地和本地硬盤完全整合,使用模式就在資源管理器里,客戶端都沒有了。有人說,快盤也這樣,Dropbox也是這樣,他們只能是個人數據,或者小組共享的一部分數據,數據量非常有限,必須所有的東西做Cache,100T的數據做Cache,PC機做不了,我們通過網絡的文件系統,網絡文件直接讀寫,這就是本質上的區別。
理念方面,個人空間、社區空間、公共空間一脈相承,沒有太多的區別。還有一個金,金山快盤就出來了,放一個M,就是M盤,金盤和M盤的區別,就是前面剛剛已經說到的,大家可以看到內部都是一樣,跟C盤、D盤都一樣,都是資源管理器的使用模式,F在要回答大家一個問題,你說的天花亂墜,在清華大學校園里玩,有什么用呢?在座的各位有清華的嗎?沒有,所以對在座的各位都沒有意義。我現在要說的是,如果我們全國有7000所大學,有用了我們這個系統,再把這個系統連接起來,我現在已經連接起來了,開始給各個大學布,連接起來之后,上研究生,換了一個大學,通過后端自動的遷移,像谷歌的mail一樣。這是第一件事情,就可以允許在全國跑來跑去。
第二,把千所大學連接起來,每一所大學,所有的教育,就是在學生時代都沒有問題了,我們大多數的學生要走出校園,走出校園的時候,我們就在在座各位所擅長的IDC機房里布,就是最終的系統,希望的是一個廣泛分布,也就是說大規模的分布。不像我們現在谷歌,甚至國內的互聯網公司,也就是在我們中國布一個數據中心,谷歌已經不錯了。我們國內最多布的點就是20幾個點,已經是很大的了,包括存圖片等,我了解的就是20多個點,我的希望就是廣泛分布,使用效率就馬上上來了。我們的出發點跟在座的互聯網公司是不一樣。這樣的代價非常大,起步非常艱難,誰布這些點,技術誰來維護,我們在大學里好辦一點,走上社會還沒有想,首先希望在大學里面做。
說一下安全,新浪的專家說的非常對,安全一定要和系統結合起來,系統的特點決定安全怎么做。我們做數據的,拿DFS來說,前面的東西沒有用DFS,DFS為互聯網公司打造的,不是為實時讀取打造的,有學生問我,能不能用DFS來做某某東西,谷歌做GFS,一開始就是支持搜索,而不是做其他業務服務的。DFS有了,我們要做安全,我想這個上面說了很多,傳統的都能做。比如說控制放在交換機上,進入數據中心之前就訪問,讓你不進門,現在中國人好客,都是先進來再說,這不行,先把門關著,不合格就不行。進來之后,要訪問的數據在哪個機器上,只去那個機器,不要瞎跑,亂跑亂撞,就是給黑客最大的作案空間。第三,就是做防彈衣。我們現在做監視器,數據最終都要監視什么時候流動,被誰看。清華100T數據,都被學校的宣傳部門專門找到我,需要審查,我說為什么?安全部門已經發現你們這個里面的數據量特別大,我們樓里的千兆,就是FIT輸入95%的流量都是我這個系統出去的,以為是什么?就讓他們查,看了一遍走了。這個東西就是通過后期的觀察。說實話,用戶將隱私的照片放在上面,能Check這個事情確實不太合理。
我們后面會說,技術上不能解決這件事情的時候,只能說都誰看過,系統管理員看過,也需要記載下來,一看,這個家伙太不地道了,看人家的數據干嗎?這就是監視器。還有一個防火防災,文件分成不同的片,放在不同的服務器上,一本書撕碎,怎么合起來,慢慢合吧。再說防彈衣,穿防彈衣之前,先介紹一下業界做數據怎么做?所謂的加密,也就是說用戶把數據在這個地方存,根據用戶名密碼,然后加密,之后存在硬盤上,這樣不靠譜。為什么?加密過程,很多數據要進內存,把內存跟蹤下來,公司所有的帳號密碼都可以看到,因為運行過程沒有保護出來,內存里面還是露著的。網絡上通過很多的方式,但是到了機器,讓他們加密,是不靠譜的。我們來說,我們做這件事情,只為了防止系統管理員看不到,別人看不到都是訪問控制,可以做得很復雜,也可以做得很簡單。訪問控制沒有太多新花樣,科研領域來說,沒有太多新花樣,誰都可以做到別人看不見,立法律法規,公司的規章制度可以限制,本質上來說,不能防止有些人作案。希望這個人沒有作案的能力,殺人沒有刀就是殺不了,就是不要給他刀的意思。進程保護就是這個意思。所謂的進程保護,我們在操作系統下裝一個類似虛擬機,VMM,是輕量級的東西,把所有的東西都管理起來,這樣操作系統運行在這個虛擬機上,操作系統上運行各種各樣的進程,我們左邊兩個安全應用的進程需要保護的時候,所要訪問任何硬件的時候,首先必須注冊,需要保護。對所有硬件的訪問,我必須去審查,也就是說有TCB去審查,只要讓你訪問,內存操作系統管理員肯定能看的,所有數據往內存、硬盤、Cache里面放的時候,因為比權限管理員好,都可以進行處理,加密的方式有很多種,可以加密處理。處理完之后,要做計算,在計算的時候,在CPU進行運算,再進內存、硬盤、Cache的時候,還加密。這樣的話,系統管理員是可以看到硬盤,也可以看到內存和Cache,看到的全是不認識的東西。或者是原來80寫成8,這就是我們做的,F在這個東西沒有到商業化的程度,也不是說不可用。現在已經在我們的校園網里面沒有做這個事情,在我們的實驗室已經做了。
大家可以看到南橋、北橋,IOMMU  MMU 的原理,我都不講了。其他的東西比較簡單,也不多講了。用了進程加密保護起來之后損耗的性能。可以簡單的看到,如果用SSSL,通過一個客戶端直接到系統里,我只說服務器端,CPU利用率多了15.39%,再加上我們的保護方式,也就是說進程加密之后,多了19.45%,也就是說只消耗了多余的4.4%過一點的CPU.多核時代了,CPU閑得沒事兒干了,CPU利用率還可以忍受。加上SSSL,在服務器端,在校園網里每秒達到370兆B,用我們這個之后,也是少了0.02兆,也可以忍受。加起來,下面一張表說明了,Cline端的情況,不是很大的問題,用戶都是分散的,沒有關系。服務器端性能可以容忍。
下面這一張圖是說明對一萬個100K文件同時操作來看,也差不多,損失也不是很大,結果類似。就是得到這樣的結論。
下面一個故事,就是當我們把一個數據平臺做好的時候,上面的應用可以很多,打游戲也罷,我非常吃驚的一點,去年不知道康熙來了,去年才知道,這個節目看的人很多,有的人天天把康熙來了放上去,就在安卓手機上開發這樣的應用,在校園網通過WiFi,3G也可以看,就可以看里面的頻道。這個東西每天有300個人看,就是300次的觀看,在校園網。這是最高的,挺好玩的,就看了一下,當你有了數據,有了對外開發的接口,網絡的系統暴露出來,開發出來的App可以有很多。照相機做一個插件,照的照片可以上傳上來,應用做到成千上萬,Appstore很多,這些不是我們做的,鼓勵大家慢慢去做。以后還可以做聊天,謝謝大家!
主持人:感謝武教授的演講,目前中國的網盤也有100多了,大學有很多的優點,目前普通的是沒有辦法具備的,比如說在線點播,我也挺驚訝的,實現跟本地PC無線的結合,通過網盤在線的點播,不需要下載到本地,再看資料,也可以直接打開,這是網盤當中很好的創新和體驗。接下來有一個提問的環節,有三個名額。
提問:您好,剛才我聽您說,就是做存儲的時候,大部分的數據,目前認為應該是少修改,都是讀取的操作。我關注最近的火車票訂票難的問題,網站經常登錄上去的時候,會出現擁塞,可能是用戶過多的問題。還有一個問題,是不是跟大的數據量修改也有關系。因為訂票,一張票不能兩個人訂,對于登錄量又大,數據量又大,同時兼顧修改的時候,存儲應該怎么做?
清華大學教授武永衛:與時俱進,我這兩天看了,也不知道硬盤怎么這么衰,我認識鐵路信息中心的人,怎么做成那樣,他說就幾臺服務器,數據分布不開,分布就存在一致的問題,訂票的票要檢查,這是他們最大的問題,跟我們的問題還不太一樣,我們客戶端都是分布的,大家在不同的渠道到一個地方,訪問數據中心的地方,數據中心的地方是瓶頸,數據中心的地方解決這個瓶頸的時候,只有兩個辦法。第一,多放數據服務器,為什么說廣泛分布,多放數據服務器,每一個服務器對外都是千兆帶寬。第二,每一個服務器都有光纖的出口很好,清華都是光纖,其他學校做不到,也沒有辦法。廣泛分布之后,帶來的問題也非常簡單,一致性、維護拷貝等所有都要搞定。我們的核心價值就是體現在中間的那一張圖,這么廣泛分布以后,怎么管理好,怎么讓大家不經過中間這一塊,登錄之后直接獲取服務器的數據,進行修改和讀取,技術的改變,在中間都要記錄下來,沒有中間這一塊,用戶正在讀取數據,中間機器宕了,也沒有問題。或者就是修改和讀取的數據沒有記錄下來,希望通過客戶端里面加一些內容,比如說做了哪些的修改,做了修改注冊以后,收尾的時候,告訴服務器,修改哪些數據,然后再做原數據的搜索。原數據的管理,是做我們這個廣泛分布系統的核心,也是最難的地方。問題太多了,我們大概有700多個問題。
提問:挺好,我想問一下,您最后提到的數據處理保護進程,在您這個系統里用了嗎?
清華大學教授武永衛:實驗室的階段,沒有在清華校園里面布。這里有一個故事,催發我們做這個事情,就是一個女同事,就是清華的計算機老師,有一天突然有一個事兒找我,我在你那兒,把所有數據都放保護進程里了,說你能不能看見,我說你想聽真話還是假話,當然想聽真話,我說能看見,她就走了,過了一會兒打電話,所有的數據都移出來,往哪兒存,這個問題問我沒有用,F在這是作為我們的研究,這件事情還沒有成熟到所有的東西部署上去沒有問題。真正別人用的時候,7×24小時,在校園里面不是產品,斷一個小時,Email可能就會登爆,就是問題太多,就是拼命發問題,我們現在還沒有部署,但是我希望,能在2012或者2013年的時候,在校園環境里面部署試用,還有三個小問題沒有徹底解決好。

清華大學教授武永衛:各位好,首先就是抱歉,今天早上到遲了。我抱歉的措施是什么?就是講的快一點。今天關注的問題是云存儲,因為大家一聽到做科研的,你們做的東西都是研究著玩的,我今天講的內容,在清華大學校園里面,有兩萬的用戶,僅僅是清華大學的學生和老師來用,對其他人不給用,因為我們不像新浪這么大的全球用戶,我們盤子比較小。說到兩萬這個數字,我特別自豪,看到他們的用戶才十七萬。我們的數據量已經的100T了,他們才幾十T,所以我很自豪。我講的是云存儲,首先說一下自己的認識。首先我們說的云計算,包括今天新浪做的很多事情,因為他們是互聯網的大公司,有很多的用戶,他們核心,包括今天做的APP,特點就是對數據量大量的交互沒有,就是給大家提供小信息的交互,或者小信息的獲取,網站、微博,都是這一類,或者打一些小游戲。打游戲,在云里的支持肯定有問題。所以這是一類應用。
我今天關注的一類應用,就是希望把這類應用推到各個單位內部,以一個單位,以前有一個概念叫私有云,我個人認為就是指一個企業或者一個組織,或者一個校園,以這樣的單位組織為我們的需求點,而不是對全體開發。兩者有什么區別?在校園里面、單位里面具有非常優良的網絡條件,千兆以太網到桌面,任何一個單位的千兆以太網80%都用不起來,我們就是幫助他們用起來,提供更好的產品。

我們一直認為云計算是一個模式,根本沒有什么新的技術,倒是有一些新的問題。我剛剛問的問題,解決起來很難,里面有一些新問題倒有可能,絕對沒有太多的新技術,大家不要太膜拜。

第二,存儲是云計算的左腿,沒有存儲,云計算就沒有辦法玩,沒有云計算,云存儲可以繼續玩。我90年代開始用ICQ,那個時候QQ沒有到國內。后來騰訊就是把ICQ漢化,在中國。這個東西在中國時髦起來了,在美國就是時髦不起來。當時用這個感覺就是找不認識的人,認識的目的就是干一些自己任何時候在老師同學面前不敢做的事情,說一些自己可以撒野的話,然后覺得這個對象不錯,就是見見面,就是這個事兒。就是認識以前不認識的人。現在很多的QQ群、Facebook等,我們已經認識很多的人,由于時間地點,慢慢遺忘了,那就提供一個渠道,讓這些人都聚起來,沒有事情,就是在QQ群里面跟以前的朋友聯系一下。

所謂的數據社交是什么?我們希望認識的是一些志同道合的人。我們在清華的一個感覺,這種需求為什么這么強烈?有的同學就對Mac的開發程序感興趣,他們希望互相交流,代碼貢獻出來。對Mac沒有開發的程序,暴露出來有什么用?無非就是一個垃圾。但是對有興趣的人,這就是一個寶貝。所以具有真實的社會關系或者具有共同的特征。還有一類,真實的社會關系,在座的各位如果有了小孩,每個人都有家庭,Share一下旅游的照片,拿回來,現在一張照片5到10兆,幾百兆的照片,怎么給父母看?只能抱著一個電腦,插上U盤來進行觀看。如果父母在外地的話,這件事情就麻煩了,幾百G的東西沒有很快進行共享。我們說的就是數據創造,創造出數據,然后把數據分享給別人,跟別人共同分享為核心,這就是數據社交。我剛剛說了清華的Mac水果籃子,還有一個清華的跳水隊,用我們的社區概念干什么?就是在我們社區放500G的東西,我們偷偷的看了一下,我也沒有看到他們的數據,也偷偷看了一下,為什么放這么多數據,跳水動作的照片,還有視頻內容,到跳水館,拿一個Pad一播,就給他們看一下,糾正跳水的問題。一拍一上傳,隊員在宿舍里面各自又可以看這些照片了,他們就是做這個事情。

我就說明一個問題,數據社交核心問題就是數據量比較大,如果只是消息的話,就是建議大家用新浪,我們以大數據量為核心。

在座的都是大學畢業生,社區有600個,100多個都是班級,比如說G53,就是2005年入學的第三個班級,全是班級出游的照片和DV,這些東西現在還搬不走,畢業了,希望我天天開著,已經700多G了,想搬還搬不走,對企業運營來說就非常重要了,離不開你的時候,就是你賺錢的開始。

現在開始說存儲,以前我們獲得了FTP  迅雷、電驢等,就是很快的將想要的內容下載下來,清華大學按流量收費的時候,這些事情同學們不敢做了,下載一個電影幾百塊錢就沒有了,問題就來了,對于單位來說,我的市場就來了。

Dropbox,在全球做得最好,中國做的網盤都是朝他們學習,一個模子。不管學成什么樣,都是一樣的,本質上來說,還是一個備份。也就是說對用戶感覺來說,像使用本地文件一樣使用這個東西。對于快盤的開發者,系統開發的角度來說,他們同時都是像FTP一樣,沒有太多的東西。也就是說不是經過網絡讀寫文件,而是把文件在本地做了Cache,再放到后端,FTP把數據傳過去,舊的覆蓋掉,就是做同步的問題。所有數據在本地需要做Cache,在網上有實際,本地必須有實際,除非不換電腦,個人數據超過100G的話,按照國家目前的三網融合,我不知道需要下載多長時間,我使用過快盤的速度,也使用Dropbox,就不知道怎么辦了。說別人不好,但是別人也有非常優秀的地方,只是不愿意說。先說他們的缺點,把他們的缺點解決掉,說成我的優勢。寫論文也是這樣,做搜索也是這樣。

我們做了云存儲,第一,有云的特征,通過網絡能夠很容易獲得。什么叫容易呢?隨時隨地隨方式,手機、Mac、筆記本、臺式機、集群,任何時候在任何操作系統下,很快獲取想要的內容。什么叫獲得,HTTP叫獲得,不需要一定要先下載下來,可以做Cache一部分,沒有的話,就直接讀寫。90年代使用的NFS一樣,這樣的情況下,IO效率肯定降低,要求比較高的話,就對Cache進行修改,IO不高可以放在網上。大家現在整天分享的東西都是照片、DV,這些東西需要修改嗎?不需要,僅僅需要看。這樣的東西不需要做Cache,通過網絡足夠可以看了?凑掌ㄈ迕,把照片五兆的東西傳到桌面上,就覺得沒有什么區別了,就跟在本地感覺一樣了,這樣就很好。

第三點,永不丟失,數據資產成為一輩子的資產,美國存一個密碼和用戶名的密碼存下來遺傳的時候,就是收費,每年12美金,這樣就可以賺錢了,把密碼和用戶名繼承下來,傳給后代,就是要收費。數據資產一定要遺傳,跟房產一樣,一輩子的資產要遺傳下來,放在我們這里非常安全,不會丟失?蓪彶,意味著我們可以看。我們最終解決的是技術問題,讓系統管理員看不到。

為了做這個事情,我們有三個階段,第一,創造一個模式出來,云計算成功的地方就是有新的模式。我們做了類似于分布式的FTP的東西,用我們的東西還是要上傳下載,我們提出一個概念叫社區,社區叫做任何一小撮人放在一起就是一個社區,一個班級、一個組織、一個協會叫一個社區,把內容共享出來。所以就是很容易創建和使用的社區。

我們就是為了驗證這件事情,在校園里面建了這么一個東西,這個東西怕大家聽不懂,簡單說一下使用方式。三種用戶,第一,對個人,就是跟網盤一樣,網上有空間,可以放數據,可以拿數據。第二,就是社區,加入100個社區,相當于C盤下面多了100個目錄,不同的文件有不同的內容,就是跟別人分享的。其實每一個人都有很多的社交的圈子,唯一最終的交集就是你自己,其他都沒有交集。這樣的社區圈子里,就是很多不同的目錄。
還有一個就是公共和傳統的FTP沒有很大的區別。

其他技術上的內容,我相信,現在的技術很成熟,大家用心學,計算機不復雜,沒有想不到的,只有做不到的。構架也不說了。

我說一下界面,最終大家使用的感受很重要,右上角就是界面,是客戶端,使用習慣是一模一樣,跟本地的資源管理器沒有任何的整合,我們自己開發的。第二,可以把本地的C盤、D盤,中間公共的,下面一登錄,就會把個人的空間和社區都列出來了,有自己的文件,還有下面下載的速度、質量、進度的感受。這個東西為什么在學校里使用很快,99%的客戶不搞計算機的,使用習慣就是保留,資源管理器怎么用,他們就一直使用下來了。

最重要的是速度要快,清華大學做下來,平均五兆/秒,看3D也看不了實時的,還需要下載,我們做到5mb/s.有一個故事,我們老師有一個小孩,促進了社會和諧,為什么促進?老教授有一個小孩,在二環以內工作,離清華很遠,平時社交活動很多,懶得回家,這位老教授,就是我們組的,跟他的小孩講,我們組做了一個東西,里面有電影,可以看一下,這個小孩說,這個消息好,每天回來,先下載5個電影,吃完飯就可以看了,就是在我們的社區里。從那以后,每周周末就回來了,促進了家庭和諧。為什么我這里快?就是清華大學校園網5mb/s,很快就能拿到資源。其他的快速共享等,還有數據社交,這個詞只有我現在在鼓吹,希望大家理解。移動硬盤、硬盤擴容等,我們已經到了200G的數據,都是學生自己放上去的。這是一些其他的地方用我們的東西,這是去年的PPT,我們數據量是100T,每天有1.3T的數據流入流出,新浪的數據量沒有我們高,我們在校園網里,很快,又是視頻,量很大,1.3T從系統進來或者出去,其他方面就不想說了。

當然還有其他的單位,他們也用,都是免費在用,以后就不會免費了,F在里面有一個核心的問題,就是那么多的數據資源哪里來的,我要告訴大家一開始的時候,里面放了3T的視頻數據,都是我們組學生自己的,他們自己的硬盤,放在里面,就不用占硬盤了,就把視頻數據放進去了,學生都愿意看。結果清華里面有一個電影協會,說維護里面的電影,維護什么?就是最后誰上傳片子,是西歐還是東亞的,還是幽默的,就是分分類,整理之后給大家。結果同學們非常愿意互相分享,為什么?如果你的同學說,你看那個片子多么好,肯定想看,怎么給他呢?難道拿一個U盤考嗎?還挺麻煩。所以數據全是同學們自己奉獻的,這就叫共享,他們貢獻出來,自己獲得共享之后的好處。這就是我的數據產生的途徑。

典型的社區,每個社區多少人,2008年,2010年的數據都有了,F在說新的內容,現在中國類似于網盤的東西,查了一下,去年6、7月份的時候,是有17個,現在估計已經有170個了,因為門檻太低,都會做。我們說說這個東西,我們加了一個定語,Meepo,就是新型,第一,實現文件數據的存儲和共享,將網絡資源與本地無縫集成。所看到的社區資源、公共資源,100T的數據,在本地和本地硬盤完全整合,使用模式就在資源管理器里,客戶端都沒有了。有人說,快盤也這樣,Dropbox也是這樣,他們只能是個人數據,或者小組共享的一部分數據,數據量非常有限,必須所有的東西做Cache,100T的數據做Cache,PC機做不了,我們通過網絡的文件系統,網絡文件直接讀寫,這就是本質上的區別。

理念方面,個人空間、社區空間、公共空間一脈相承,沒有太多的區別。還有一個金,金山快盤就出來了,放一個M,就是M盤,金盤和M盤的區別,就是前面剛剛已經說到的,大家可以看到內部都是一樣,跟C盤、D盤都一樣,都是資源管理器的使用模式。現在要回答大家一個問題,你說的天花亂墜,在清華大學校園里玩,有什么用呢?在座的各位有清華的嗎?沒有,所以對在座的各位都沒有意義。我現在要說的是,如果我們全國有7000所大學,有用了我們這個系統,再把這個系統連接起來,我現在已經連接起來了,開始給各個大學布,連接起來之后,上研究生,換了一個大學,通過后端自動的遷移,像谷歌的mail一樣。這是第一件事情,就可以允許在全國跑來跑去。

第二,把千所大學連接起來,每一所大學,所有的教育,就是在學生時代都沒有問題了,我們大多數的學生要走出校園,走出校園的時候,我們就在在座各位所擅長的IDC機房里布,就是最終的系統,希望的是一個廣泛分布,也就是說大規模的分布。不像我們現在谷歌,甚至國內的互聯網公司,也就是在我們中國布一個數據中心,谷歌已經不錯了。我們國內最多布的點就是20幾個點,已經是很大的了,包括存圖片等,我了解的就是20多個點,我的希望就是廣泛分布,使用效率就馬上上來了。我們的出發點跟在座的互聯網公司是不一樣。這樣的代價非常大,起步非常艱難,誰布這些點,技術誰來維護,我們在大學里好辦一點,走上社會還沒有想,首先希望在大學里面做。

說一下安全,新浪的專家說的非常對,安全一定要和系統結合起來,系統的特點決定安全怎么做。我們做數據的,拿DFS來說,前面的東西沒有用DFS,DFS為互聯網公司打造的,不是為實時讀取打造的,有學生問我,能不能用DFS來做某某東西,谷歌做GFS,一開始就是支持搜索,而不是做其他業務服務的。DFS有了,我們要做安全,我想這個上面說了很多,傳統的都能做。比如說控制放在交換機上,進入數據中心之前就訪問,讓你不進門,現在中國人好客,都是先進來再說,這不行,先把門關著,不合格就不行。進來之后,要訪問的數據在哪個機器上,只去那個機器,不要瞎跑,亂跑亂撞,就是給黑客最大的作案空間。第三,就是做防彈衣。我們現在做監視器,數據最終都要監視什么時候流動,被誰看。清華100T數據,都被學校的宣傳部門專門找到我,需要審查,我說為什么?安全部門已經發現你們這個里面的數據量特別大,我們樓里的千兆,就是FIT輸入95%的流量都是我這個系統出去的,以為是什么?就讓他們查,看了一遍走了。這個東西就是通過后期的觀察。說實話,用戶將隱私的照片放在上面,能Check這個事情確實不太合理。

我們后面會說,技術上不能解決這件事情的時候,只能說都誰看過,系統管理員看過,也需要記載下來,一看,這個家伙太不地道了,看人家的數據干嗎?這就是監視器。還有一個防火防災,文件分成不同的片,放在不同的服務器上,一本書撕碎,怎么合起來,慢慢合吧。再說防彈衣,穿防彈衣之前,先介紹一下業界做數據怎么做?所謂的加密,也就是說用戶把數據在這個地方存,根據用戶名密碼,然后加密,之后存在硬盤上,這樣不靠譜。為什么?加密過程,很多數據要進內存,把內存跟蹤下來,公司所有的帳號密碼都可以看到,因為運行過程沒有保護出來,內存里面還是露著的。網絡上通過很多的方式,但是到了機器,讓他們加密,是不靠譜的。我們來說,我們做這件事情,只為了防止系統管理員看不到,別人看不到都是訪問控制,可以做得很復雜,也可以做得很簡單。訪問控制沒有太多新花樣,科研領域來說,沒有太多新花樣,誰都可以做到別人看不見,立法律法規,公司的規章制度可以限制,本質上來說,不能防止有些人作案。希望這個人沒有作案的能力,殺人沒有刀就是殺不了,就是不要給他刀的意思。進程保護就是這個意思。所謂的進程保護,我們在操作系統下裝一個類似虛擬機,VMM,是輕量級的東西,把所有的東西都管理起來,這樣操作系統運行在這個虛擬機上,操作系統上運行各種各樣的進程,我們左邊兩個安全應用的進程需要保護的時候,所要訪問任何硬件的時候,首先必須注冊,需要保護。對所有硬件的訪問,我必須去審查,也就是說有TCB去審查,只要讓你訪問,內存操作系統管理員肯定能看的,所有數據往內存、硬盤、Cache里面放的時候,因為比權限管理員好,都可以進行處理,加密的方式有很多種,可以加密處理。處理完之后,要做計算,在計算的時候,在CPU進行運算,再進內存、硬盤、Cache的時候,還加密。這樣的話,系統管理員是可以看到硬盤,也可以看到內存和Cache,看到的全是不認識的東西;蛘呤窃瓉80寫成8,這就是我們做的,F在這個東西沒有到商業化的程度,也不是說不可用,F在已經在我們的校園網里面沒有做這個事情,在我們的實驗室已經做了。

大家可以看到南橋、北橋,IOMMU  MMU 的原理,我都不講了。其他的東西比較簡單,也不多講了。用了進程加密保護起來之后損耗的性能?梢院唵蔚目吹剑绻肧SSL,通過一個客戶端直接到系統里,我只說服務器端,CPU利用率多了15.39%,再加上我們的保護方式,也就是說進程加密之后,多了19.45%,也就是說只消耗了多余的4.4%過一點的CPU.多核時代了,CPU閑得沒事兒干了,CPU利用率還可以忍受。加上SSSL,在服務器端,在校園網里每秒達到370兆B,用我們這個之后,也是少了0.02兆,也可以忍受。加起來,下面一張表說明了,Cline端的情況,不是很大的問題,用戶都是分散的,沒有關系。服務器端性能可以容忍。
下面這一張圖是說明對一萬個100K文件同時操作來看,也差不多,損失也不是很大,結果類似。就是得到這樣的結論。

下面一個故事,就是當我們把一個數據平臺做好的時候,上面的應用可以很多,打游戲也罷,我非常吃驚的一點,去年不知道康熙來了,去年才知道,這個節目看的人很多,有的人天天把康熙來了放上去,就在安卓手機上開發這樣的應用,在校園網通過WiFi,3G也可以看,就可以看里面的頻道。這個東西每天有300個人看,就是300次的觀看,在校園網。這是最高的,挺好玩的,就看了一下,當你有了數據,有了對外開發的接口,網絡的系統暴露出來,開發出來的App可以有很多。照相機做一個插件,照的照片可以上傳上來,應用做到成千上萬,Appstore很多,這些不是我們做的,鼓勵大家慢慢去做。以后還可以做聊天,謝謝大家!

主持人:感謝武教授的演講,目前中國的網盤也有100多了,大學有很多的優點,目前普通的是沒有辦法具備的,比如說在線點播,我也挺驚訝的,實現跟本地PC無線的結合,通過網盤在線的點播,不需要下載到本地,再看資料,也可以直接打開,這是網盤當中很好的創新和體驗。接下來有一個提問的環節,有三個名額。

提問:您好,剛才我聽您說,就是做存儲的時候,大部分的數據,目前認為應該是少修改,都是讀取的操作。我關注最近的火車票訂票難的問題,網站經常登錄上去的時候,會出現擁塞,可能是用戶過多的問題。還有一個問題,是不是跟大的數據量修改也有關系。因為訂票,一張票不能兩個人訂,對于登錄量又大,數據量又大,同時兼顧修改的時候,存儲應該怎么做?

清華大學教授武永衛:與時俱進,我這兩天看了,也不知道硬盤怎么這么衰,我認識鐵路信息中心的人,怎么做成那樣,他說就幾臺服務器,數據分布不開,分布就存在一致的問題,訂票的票要檢查,這是他們最大的問題,跟我們的問題還不太一樣,我們客戶端都是分布的,大家在不同的渠道到一個地方,訪問數據中心的地方,數據中心的地方是瓶頸,數據中心的地方解決這個瓶頸的時候,只有兩個辦法。第一,多放數據服務器,為什么說廣泛分布,多放數據服務器,每一個服務器對外都是千兆帶寬。第二,每一個服務器都有光纖的出口很好,清華都是光纖,其他學校做不到,也沒有辦法。廣泛分布之后,帶來的問題也非常簡單,一致性、維護拷貝等所有都要搞定。我們的核心價值就是體現在中間的那一張圖,這么廣泛分布以后,怎么管理好,怎么讓大家不經過中間這一塊,登錄之后直接獲取服務器的數據,進行修改和讀取,技術的改變,在中間都要記錄下來,沒有中間這一塊,用戶正在讀取數據,中間機器宕了,也沒有問題。或者就是修改和讀取的數據沒有記錄下來,希望通過客戶端里面加一些內容,比如說做了哪些的修改,做了修改注冊以后,收尾的時候,告訴服務器,修改哪些數據,然后再做原數據的搜索。原數據的管理,是做我們這個廣泛分布系統的核心,也是最難的地方。問題太多了,我們大概有700多個問題。

提問:挺好,我想問一下,您最后提到的數據處理保護進程,在您這個系統里用了嗎?

清華大學教授武永衛:實驗室的階段,沒有在清華校園里面布。這里有一個故事,催發我們做這個事情,就是一個女同事,就是清華的計算機老師,有一天突然有一個事兒找我,我在你那兒,把所有數據都放保護進程里了,說你能不能看見,我說你想聽真話還是假話,當然想聽真話,我說能看見,她就走了,過了一會兒打電話,所有的數據都移出來,往哪兒存,這個問題問我沒有用,F在這是作為我們的研究,這件事情還沒有成熟到所有的東西部署上去沒有問題。真正別人用的時候,7×24小時,在校園里面不是產品,斷一個小時,Email可能就會登爆,就是問題太多,就是拼命發問題,我們現在還沒有部署,但是我希望,能在2012或者2013年的時候,在校園環境里面部署試用,還有三個小問題沒有徹底解決好。


本文出自:億恩科技【www.artduck.net】

服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經營性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經營性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經營性ICP/ISP證:贛B2-20080012
  • 服務器/云主機 24小時售后服務電話:0371-60135900
  • 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
  • 專注服務器托管17年
    掃掃關注-微信公眾號
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區翠竹街1號總部企業基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網安備41019702002023號
      0
     
     
     
     

    0371-60135900
    7*24小時客服服務熱線