大數據冷儲存系統研究內容,研究成果,研究產出專利

Time: 2019-11-30  admin    

成果名稱

大數據冷儲存系統

類型(論文,獎勵等),級別(期刊影響因子,獎勵級別),項目背景或支持渠道;

期刊論文:

論文名稱作者期刊
Exploring various levels of parallelism in high-performance CRC algorithmsChi M, He D, Liu JIEEE Access,2019,影響因子:4.098

會議論文:

論文名稱作者會議
VACA: A High-Performance Variable-length Adaptive CRC AlgorithmChi M, Liu J2017 IEEE 28th Annual International Symposium on Personal
Fast Software-based Table-less Algorithm for CRC GenerationChi M, He D, Liu J2018 21st International Symposium on Wireless Personal Multimedia Communications (WPMC)

項目背景:

    隨着數據時代數據量的爆發性增長,隨之而來的問題是如何有效的大規模的數據進行存儲和管理。    

通常根據數據使用的頻率,可以將數據分為「熱」數據和「冷」數據。目前市場上大規模的「熱」數據存儲系統成本和功耗都比較高,不適宜存儲大量的「冷」數據,「冷」數據通常都是用離線存儲介質進行存儲,致使讀取數據耗時非常長,通常以小時計。總之,目前市場的存儲系統,不是成本很高,就是速度很慢。因此,迫切需要一個能兼顧成本和訪問效率的大規模數據存儲系統來解決這一問題。 

支持渠道:由北京浩瀚深度信息技術股份有限公司提供經費支持。

成果依託什麼項目(課題),開展了哪幾項內容研究;

        ● 項目名稱:高密度低功耗海量存儲服務系統研發

        ● 項目內容:設計4U高密度存儲服務器;研究低功耗存儲技術;研究提升系統性能和可擴展性的方案及技術;設計提升系統接口兼容性方案。 

項目成果突破了哪幾項關鍵技術,形成哪些產品、裝備,發表多少篇論文,授權專利幾項等?

關鍵技術:

        · 高密度:自研存儲服務器,達到1U的空間內可以放置16個3.5寸硬盤的高密度,大大超過普通服務器每U4盤或者6盤的密度,實現真正的高密度存儲。

        · 低成本:採用糾錯碼算法進行數據存儲,在保障數據安全的前提下大幅度節約存儲空間,缺省配置下的存儲效率是0.75。舉例來說,100MB的原始存儲空間,其中75MB用來存真實的數據,另外25MB用了存這些數據的糾錯碼,這些糾錯碼可以在數據受損的情況下通過計算恢復出原始數據。其它存儲方案大多採用3副本的方式,存儲效率是0.33,也就是說100MB的容量,只有33MB是用來存數據的,其它都是冗餘。此外,我們自研的低功耗存儲服務器硬件,也大幅度降低了總體成本。

        · 低功耗:自研低功耗存儲服務器,支持對單獨硬盤的通斷電控制,在硬盤上數據長時間不用時,關閉硬盤以實現最高的能耗節約,可以實現比傳統服務器節約90%的電費。由於整體產品能耗很低,對機房空調的需求也大大降低,也同樣節約了另外一大筆開銷。

        · 響應快:採用硬盤作為存儲介質,只需要通電加載就可以讀取數據,不需要像磁帶光盤等離線存儲需要機械臂拿去介質並排隊等待驅動器空閒才能讀取,大幅提高響應時間。

        · 吞吐大:採用分佈式設計,數據被分散在多台服務器的硬盤中,讀寫時多個過程並發進行,大幅提高整體的吞吐能力。磁帶光盤等離線存儲需要排隊等待驅動器,並發能力非常受限。

        · 高容錯:缺省配置下是12:4,數據會被分成12塊,然後計算出4塊糾錯碼,這16塊數據被分別保存在16個硬盤上,如果壞掉4塊(含)以下的硬盤,數據仍然可以恢復出來。此外,系統採用分佈式高容錯的設計,一定數量的服務器故障等也不會影響數據安全,系統仍然可用。

        · 可擴展:系統可以輕鬆進行水平擴展,添加存儲服務器就可以增加存儲空間,系統可以輕鬆擴展到100PB規模。

該成果產出了四項專利:

● 專利名稱:一種文件檢索方法及裝置

● 專利公佈號:CN108090139A

● 專利內容:本發明實施例提供了一種文件檢索方法及裝置,涉及計算機技術領域,該方法包括:接收文件檢索請求,其中,上述文件檢索請求中攜帶檢索關鍵字;檢索分佈式文件系統中文件元數據與上述檢索請求中攜帶的檢索關鍵字匹配的文件;獲得檢索結果。與現有技術相比,應用本發明實施例提供的方案,可以通過存儲在分佈式文件系統中的文件的文件元數據與搜索請求中攜帶的檢索關鍵字的匹配關係,檢索分佈式文件系統中文件元數據與檢索請求中攜帶的檢索關鍵字匹配的文件,從而提高了文件檢索效率。

● 專利名稱:一種數據存儲方法及裝置

● 專利公佈號:CN106599195A

● 專利內容:本發明實施例提供了一種數據存儲方法及裝置,該方法根據所接收的第二節點發送的針對廣播的數據存儲請求對應的反饋信息,從第二節點中確定第一存儲節點,利用預設的公鑰對待存儲數據進行加密,並對加密後的待存儲數據進行編碼,得到編碼結果;將編碼結果劃分為數據塊,並將利用公鑰對應的私鑰生成的數字簽名添加至每一數據塊;確定各個添加數字簽名後的數據塊的存儲節點,將數據塊發送至所確定的存儲節點中存儲。應用本發明實施例提供的方案能夠提高數據存儲的安全性。

● 專利名稱:一種海量網絡數據環境下的元數據同步方法及系統

● 專利公佈號:CN109302495A

● 專利內容:本發明實施例提供了一種海量網絡數據環境下的元數據同步方法及系統,所述方法包括:中心節點服務器中的元數據庫表內的元數據由第一穩定版本號更新為第二穩定版本號後,向子節點管理設備發送通知消息;其中,所述第二穩定版本號高於所述第一穩定版本號;所述子節點管理設備接收到所述通知消息後,從所述中心節點服務器中獲取所述元數據庫表,所述元數據庫表內的元數據的版本號為所述第二穩定版本號;子節點管理設備將所獲取的元數據庫表發送給子節點服務器,以使所述中心節點服務器及所述子節點服務器的元數據庫表內的元數據同步。本發明實施例,使得元數據同步系統中的元數據庫表內的元數據及時同步。

● 專利名稱:一種CRC計算方法及裝置

● 專利公佈號:CN107451008A

● 專利內容:本發明實施例提供了一種CRC計算方法及裝置,所述方法包括:獲取目標輸入數據;將所述目標輸入數據依次劃分成n個序列長度相同的目標數據序列;利用n個處理器對n個目標數據序列進行並行循環冗餘校驗CRC計算,得到對應的n個第一CRC值;獲取各第一CRC值對應的目標序列影響係數;分別將各第一CRC值與對應的目標序列影響係數進行迦羅瓦域乘法運算,得到n個第二CRC值;對n個第二CRC值進行異或運算,得到目標CRC值,以實現對所述目標輸入數據的CRC計算。本發明實施例能夠減少在CRC計算過程中的異或運算的次數,提高了計算速率;另外,本發明實施例減少了線程同步的次數,進一步提高了計算速率。

成果在哪些地方推廣應用,合同額達到多少?

        該系統已經部署到多個環境中,不僅在數據備份場景,還是在視頻監控場景,都有應用。比如在瀋陽鐵路局的數據備份業務,局方的大量培訓教學課件、教學視頻和相關課程信息,在經過了最初的集中培訓之後,數據移入冷存儲,節約出存儲空間給更多新的培訓內容,同時滿足老的培訓仍然會有稀疏的請求的要求。在北郵保衛處和北京南站的視頻監控系統中,該系統提供了PB級的容量,支持7日內視頻2秒內快速回放,7日到一個月的視頻30秒左右回放,極大的提升了視頻回溯的能力

成果在行業引領作用,經濟效益和社會效益,可附上2-3張展現項目成果的圖片。

        該結果實現了密度高、成本低、功耗低、速度快、高可用、可擴展的特點,領先於同行業其他產品。

圖片關鍵詞

未來願景等後續工作。

        該成果仍然在緊張的開發和不斷的改進中,我們計劃在不久的將來,對系統進行如下改進:

        ● 改進系統架構

        ● 高壓力讀、寫性能調優

        ● 提高系統穩定性等

        ● 完善接口、管理、指標、測試等多方面的模塊和功能

分享:
Bjsyslm@163.com

bbin宝盈集团聯盟丨工作聯繫郵箱

bbin宝盈集团聯盟 版權所有 @2019 本站的內容若涉及版權問題,請及時通知我們,我們將立即予以刪除!

京ICP備18059187號-2

京ICP備18059187號-2