北京2023年4月21日 /美通社/ -- "一花一世界",這句話在蛋白質(zhì)、DNA所在的微觀世界里體現(xiàn)得淋漓盡致,大到動植物、小到細菌,都蘊含著獨特的DNA,例如人體內(nèi)就包含著23對染色體、30億個堿基對的數(shù)據(jù)量。探索這些堿基對蘊藏的"生命密碼",對于腫瘤早篩、罕見病診治、靶向藥物研制、遺傳演化和精準醫(yī)學研究等方面有重大助益。近期,北京英信未來科技有限公司(以下簡稱北京英信)聯(lián)合浪潮信息,為求臻醫(yī)學的高通量測序平臺提供了分布式存儲平臺,為全國數(shù)百家醫(yī)院的腫瘤患者提供了精準、高效的腫瘤基因檢測服務。
腫瘤基因檢測 為何要跑在大數(shù)據(jù)上
基因檢測作為醫(yī)療領域的新應用,不僅需要基于大數(shù)據(jù)平臺,利用極為精密的測序系統(tǒng)將基因序列解讀出來,還要通過大數(shù)據(jù)分析、比對,精確地了解每個基因片段發(fā)揮的作用。在這方面,求臻醫(yī)學擁有專業(yè)、豐富的經(jīng)驗。
求臻醫(yī)學成立于2017年,以新一代基因測序和先進信息挖掘技術為基礎,依托《中國腫瘤基因圖譜計劃》和《腫瘤精準醫(yī)學大數(shù)據(jù)平臺》項目,深度融合基因檢測和人工智能,致力于腫瘤液態(tài)活檢領域診斷產(chǎn)品的開發(fā)及智能迭代升級,業(yè)務涵蓋腫瘤早篩、伴隨診斷、動態(tài)監(jiān)測、預后評估等多場景應用領域,同時不斷探索發(fā)現(xiàn)中國人腫瘤基線及特異的生物標志物,助力抗腫瘤藥物的研發(fā)。
然而,隨著業(yè)務高速發(fā)展,求臻醫(yī)學服務的醫(yī)院、患者越來越多,數(shù)據(jù)量也相應的急速增長,原有的數(shù)據(jù)存儲系統(tǒng)常常因巨量訪問而超過性能閾值,存儲系統(tǒng)也存在容量空間嚴重不足的情況。在這種情況下,求臻醫(yī)學計劃對原有的數(shù)據(jù)存儲平臺進行升級,新建的數(shù)據(jù)存儲平臺將主要支持腫瘤精準診療的生物醫(yī)學信息化平臺。
此平臺涵蓋了知識數(shù)據(jù)庫、臨床信息采集系統(tǒng)、數(shù)據(jù)注釋接口(API)等模塊系統(tǒng),可以基于大數(shù)據(jù)分析為基因檢測客戶生成個體化的檢測報告。整個信息平臺數(shù)據(jù)存儲的基礎設施有著較大的挑戰(zhàn)和要求:
首先,是存儲數(shù)據(jù)量的需求。一個完整的基因測序樣本會產(chǎn)生千萬量級的文件。據(jù)了解,目前一臺先進的測序儀、分析儀等設備每天捕捉的測序數(shù)據(jù)平均水平已達到4TB,加之基因信息分析過程一般會產(chǎn)生原始數(shù)據(jù)量5倍左右的中間文件及結果,PB級別存儲空間已經(jīng)成為存儲設備的基本要求。
其次,是數(shù)據(jù)可靠性的需求。腫瘤基因檢測數(shù)據(jù)作為腫瘤精準診療核心數(shù)據(jù),檢測數(shù)據(jù)通常需要長期保存多年,通過合理的生命周期管理系統(tǒng)進行歸檔保留,數(shù)據(jù)的自動化遷移歸檔、數(shù)據(jù)的安全性、存儲的易擴展性是數(shù)據(jù)歸檔存儲考慮的重要因素。
最后,基因測序訪問實時性要求高。基因測序過程是一個超高并發(fā)的文件轉(zhuǎn)換過程,整個生產(chǎn)過程有非常密集的文件讀取和寫入。整個生物樣本的導入過程對文件存儲的性能有著極高的要求,滿足科研任務對不同文件高帶寬的存儲需求,既要文件系統(tǒng)必須提供超大文件數(shù)量的支持,同時必須在有限的時間內(nèi)完成海量小文件的導入。
分布式存儲:為基因測序構建數(shù)據(jù)基座
針對求臻醫(yī)學基因測序應用數(shù)據(jù)量增長快、性能和可靠性要求高的業(yè)務特點,浪潮信息攜手合作伙伴北京英信為求臻醫(yī)學提供了專業(yè)化的存儲解決方案。方案采用AS13000高密分布式存儲,節(jié)點間管理網(wǎng)絡采用千兆交換機,通過100GB高速IB網(wǎng)絡連接前端并行計算業(yè)務集群,為前端業(yè)務構建了一套大容量、高可靠、高性能、低延遲的數(shù)據(jù)存儲平臺。
在容量方面,AS13000分布式存儲集群由5個節(jié)點組成,每節(jié)點采用35塊8T大容量硬盤配置,可提供PB級存儲容量,滿足海量數(shù)據(jù)存儲需求。值得一提的是,該解決方案可實現(xiàn)分鐘級擴充,最大可擴展至5120節(jié)點,在擴容同時可保障業(yè)務性能無明顯波動,性能與容量隨著節(jié)點的擴展而線性增長,避免對現(xiàn)有計算任務讀寫訪問性能造成影響,使得存儲系統(tǒng)的容量、性能在未來可隨時按需擴展。
在可靠性方面,浪潮信息分布式存儲平臺AS13000提供副本和糾刪碼兩種數(shù)據(jù)保護方式,為用戶提供多層級的數(shù)據(jù)保護及容災功能,充分保證檢測任務以及前端計算任務7x24小時的連續(xù)讀寫訪問。結合信息平臺檢測數(shù)據(jù)需要長期保存的業(yè)務特點,浪潮信息采用三副本的數(shù)據(jù)冗余保護方式,同時,還可搭配InView智能統(tǒng)一存儲管理平臺,對基因測序數(shù)據(jù)中心的設備進行管理,提供容量、性能、故障的智能化預測性分析,幫助運維人員預防硬件潛在故障,降低了存儲的復雜性,同時也有效地降低了運維成本。
在性能方面,浪潮信息分布式存儲解決方案針對基因測序數(shù)據(jù)特點采用冷熱數(shù)據(jù)分級存儲搭配全局緩存技術,實現(xiàn)熱數(shù)據(jù)快速響應,延遲降低40%。對于對象類型數(shù)據(jù),采用對象聚合技術,來提升單次落盤的對象大小,降低落盤操作次數(shù),單節(jié)點恒定聚合帶寬達2GB/s以上,確保基因測序任務的讀寫性能。
目前,基因測序應用范圍在大幅擴展,從科研服務的基因圖譜、遺傳多樣性,到醫(yī)療服務的疾病早篩和治療都能涵蓋,這對未來提升醫(yī)療智慧水平意義重大。浪潮信息始終堅持通過數(shù)據(jù)的力量,為基因測序基礎研究儲能,驅(qū)動精準醫(yī)療應用加速發(fā)展。