文章內容

基于Hadoop的存儲平臺解海洋數據孤島之困

發布時間: 2012/8/6 16:14:36

本文提出了一種基于云計算技術進行管理和存儲海量海洋科學數據方法，構建了海量海洋科學數據存儲云計算平臺解決方案，采用Linux集群技術，設計開發一個基于Hadoop的海量數據存儲平臺。

隨著《北部灣經濟區發展規劃》頒布實施，以北部灣經濟區海洋為研究樣本的系列重大基礎研究專項和重大科學研究項目正在逐一展開，屆時將產生海量的海洋科學數據，這些數據具有海量、復雜、多樣、異構、動態變化等特性。而且目前各項目的海洋科學數據均缺乏統一的采集和存儲的標準和規范，形成“數據孤島”。如何存儲和管理海量的海洋科學數據，使這些這些數據得到高效的利用，成為進行海洋科學研究項目的關鍵之一。因此構建一個北部灣海洋科學數據存儲平臺是目前充分發揮各重大基礎科學研究項目研究效益的現實途徑，也是北部灣經濟區可持續發展的必然要求。

1平臺總體設計

1．1平臺總體框架結構

（1）結合海量數據異構性、分布性、多樣性等特點，從系統編程實現角度考慮，本系統采用MVC三層架構設計，使結構更加清晰，系統易于擴展。

顯示層：為用戶提供方便、易用和友好界面，普通用戶可以通過頁面瀏覽和查詢海洋數據，高級用戶可以利用系統提供的公共API接口，擴展系統。

業務處理層：并行處理海量海洋科學數據，并對整個平臺系統配置管理。

數據資源層：是整個平臺的基礎，存儲和管理海量海洋科從系統功能角度考慮，可以將整個系統分三層：第一層是數據訪問層。對于海量數據存儲，在存取數據時不會只局限對一種數據庫的操作，本層需要對各種數據庫提供的不同數據源進行屏蔽，提供數據庫訪問服務，這樣系統才能夠適應處理存儲海量數據的要求，具有較好的可擴展性和完備性，方便管理和部署。

第二層是數據處理層。數據處理層作為整個系統的核心，同時也是本系統設計開發的重點內容。它采用分布式數據庫技術、Linux集群技術等，提供了對海量數據的并行加載存儲等主要功能。只有通過這一層對海量數據并行處理，才能把處理后的數據存儲到本系統的分布式數據庫中。同時提供了保證系統能夠正常運行的管理支撐服務。