北京2019年12月2日 /美通社/ -- 生命科學(xué)是通過分子遺傳學(xué)為主,研究生命活動規(guī)律,從而達到治療診斷遺傳病、提高農(nóng)作物產(chǎn)量、保護環(huán)境等目的。生命科學(xué)的數(shù)據(jù)來源和形式多樣,包括基因測序、分子通道、不同的人群等。技術(shù)的提升引領(lǐng)了IT到DT(數(shù)據(jù)時代)的變革,基于基因組數(shù)據(jù)量越來越多的情況下,生命科學(xué)大數(shù)據(jù)的發(fā)展前景將更加廣闊。利用信息技術(shù)將數(shù)據(jù)轉(zhuǎn)換成更好理解的基礎(chǔ)生命科學(xué)機制,其分析結(jié)果將給人類帶來更多福音。
計算和存儲是大數(shù)據(jù)研究中不可或缺的重要技術(shù)和支撐,生命科學(xué)大數(shù)據(jù)的研究也不例外。中國科學(xué)院上海生命科學(xué)研究院(以下簡稱:生科院),是國家級生命科學(xué)研究平臺,整體實力和技術(shù)水平處于國內(nèi)領(lǐng)先。它的領(lǐng)先除了生物技術(shù)之外,信息技術(shù)也扮演者重要的角色。在本次項目中,由曙光為生科院建設(shè)生物醫(yī)學(xué)大數(shù)據(jù)信息系統(tǒng)基礎(chǔ)平臺(以下簡稱:生物醫(yī)學(xué)大數(shù)據(jù)平臺)。平臺建成后將面向生命科學(xué)研究、生物醫(yī)藥研發(fā)、臨床醫(yī)學(xué)研究與應(yīng)用,推動生物醫(yī)藥技術(shù)企業(yè)創(chuàng)新發(fā)展,支撐數(shù)據(jù)密集型科學(xué)研究和生物信息共享。
安全穩(wěn)定存儲系統(tǒng),滿足生物醫(yī)學(xué)用戶需求
生物醫(yī)學(xué)數(shù)據(jù)的主要類型為文本文件、圖像文件、二進制文件等非結(jié)構(gòu)化數(shù)據(jù),對存儲的要求主要在存儲容量的大小和大文件讀寫通量的高低,此外少量的關(guān)鍵數(shù)據(jù)庫、索引等結(jié)構(gòu)化數(shù)據(jù),則對存儲的IOPS和穩(wěn)定讀寫能力要求較高。
未來,生物醫(yī)學(xué)大數(shù)據(jù)平臺將成為面向生物醫(yī)學(xué)大數(shù)據(jù)開放研究平臺,面向世界的國際數(shù)據(jù)交流接口和合作研究基地,海量生物醫(yī)學(xué)大數(shù)據(jù)資源的匯聚、管理和共享,數(shù)據(jù)的安全性至關(guān)重要。
兩地三中心架構(gòu),打造高可用生物醫(yī)學(xué)大數(shù)據(jù)平臺
生物醫(yī)學(xué)大數(shù)據(jù)平臺基礎(chǔ)設(shè)施由三個中心組成,分別為張江中心、岳陽路中心和貴州中心,每個中心都需要承載相關(guān)的業(yè)務(wù)系統(tǒng)。三個中心通過科技網(wǎng)鏈路相互連通,通過同城雙活、異地容災(zāi)的兩地三中心架構(gòu),滿足生物醫(yī)學(xué)大數(shù)據(jù)平臺業(yè)務(wù)高可用和高穩(wěn)定性。
存儲系統(tǒng)作為本項目的重要建設(shè)內(nèi)容,分別構(gòu)建了業(yè)務(wù)系統(tǒng)存儲、高性能存儲和大容量存儲三類資源,滿足業(yè)務(wù)、計算和海量文件對存儲空間和性能的需求。
業(yè)務(wù)系統(tǒng)存儲采用高性能磁盤陣列,以滿足業(yè)務(wù)應(yīng)用的需求;其中配備緩存加速技術(shù)滿足生物數(shù)據(jù)庫、云平臺等高I/O讀寫需求。系統(tǒng)配置一套ParaStor分布式存儲系統(tǒng)滿足海量非結(jié)構(gòu)化生物基因數(shù)據(jù)的計算需求;其大容量存儲采用性價比高的分布式存儲,配置Infiniband接口,滿足基礎(chǔ)海量實驗數(shù)據(jù)的共享和離線備份的需求。
存儲系統(tǒng)在保障數(shù)據(jù)安全的同時還充分考慮的業(yè)務(wù)系統(tǒng)的穩(wěn)定運行。在備份系統(tǒng)建設(shè)上,采用曙光DBStor備份存儲系統(tǒng)和LTO5高速磁帶庫套件,支持異地容災(zāi)和備份系統(tǒng)審計,通過磁帶異地存儲的方式實現(xiàn)了系統(tǒng)遠程容災(zāi)。
通過多層次的存儲系統(tǒng)設(shè)計,方案滿足上海生科院生物醫(yī)學(xué)大數(shù)據(jù)平臺海量生物數(shù)據(jù)存儲、計算與共享需求,更具備遠程容災(zāi)功能,實現(xiàn)生物醫(yī)學(xué)實驗數(shù)據(jù)的集中存儲、高效共享和安全保障。為生科院建立具有國際先進水平的科學(xué)研究綜合數(shù)據(jù)庫,提供了強有力的計算分析能力和信息安全保障。