貝瑞十年 | 被Deadline催生的大數據庫創新
講述人:
張巖,貝瑞基因DBA。
2015年8月加入貝瑞,張(zhang)巖入職(zhi)伊始正是臨床基(ji)因(yin)檢測數(shu)據(ju)激增的(de)(de)時期,他參與了(le)貝瑞基(ji)因(yin)數(shu)據(ju)庫的(de)(de)搭建,并成長為(wei)(wei)一名具有(you)基(ji)因(yin)大數(shu)據(ju)綜合管理能(neng)力的(de)(de)IT技術主管。以(yi)張(zhang)巖為(wei)(wei)代(dai)表的(de)(de)IT人默(mo)默(mo)地耕耘在基(ji)因(yin)行業(ye),為(wei)(wei)公司(si)快(kuai)速擴張(zhang)及未來(lai)布局奠定了(le)堅(jian)實的(de)(de)基(ji)礎。
每一(yi)次按質保(bao)量(liang)地提前(qian)交付給客戶測序(xu)數(shu)(shu)據(ju)時(shi),張巖都會感覺自己和同(tong)事(shi)們的付出(chu)又一(yi)次得到了認可,對基(ji)因(yin)(yin)大(da)數(shu)(shu)據(ju)這匹“野馬”又多(duo)了一(yi)些馴服經驗。張巖所在的部(bu)門是(shi)一(yi)個容易被大(da)多(duo)數(shu)(shu)人誤(wu)解的部(bu)門,誤(wu)以為他(ta)們只是(shi)負責(ze)公司的電腦、網絡等事(shi)情,事(shi)實卻是(shi),IT部(bu)門提供的基(ji)因(yin)(yin)大(da)數(shu)(shu)據(ju)綜合管理方案對貝瑞(rui)基(ji)因(yin)(yin)而言是(shi)核心的存在。
貝瑞擁有業內數(shu)(shu)一(yi)數(shu)(shu)二(er)的(de)測序平(ping)臺(tai),不僅型號(hao)更新快,數(shu)(shu)據(ju)產出(chu)量也呈幾(ji)何式上升,貝瑞的(de)IT部門承(cheng)擔的(de)任務也就越來越重(zhong)。在這(zhe)背后,貝瑞基因(yin)的(de)IT工程師(shi)們,默(mo)默(mo)地(di)全力以赴(fu)保證每一(yi)次(ci)檢測快速且精準地(di)完成(cheng)、每一(yi)個(ge)檢測數(shu)(shu)據(ju)得到安全保存。
張巖覺(jue)得,來(lai)到(dao)貝瑞機會與挑戰并存,“基因大(da)數據是全新的東西,我們常常是在(zai)遇到(dao)讓人頭痛(tong)的困難(nan)時,完成了大(da)大(da)小小的創(chuang)新。”
比如,貝瑞數據拆分(fen)系(xi)統的誕生(sheng)。
一個(ge)完整的測(ce)(ce)序(xu)服務流程包括(kuo)樣(yang)本處理(li)、文庫(ku)制備(bei)、上機測(ce)(ce)序(xu)、數(shu)(shu)(shu)據(ju)拆(chai)分(fen)、質控(kong)分(fen)析(xi)和(he)交付五大(da)步驟。交付數(shu)(shu)(shu)據(ju)并不是一個(ge)簡單(dan)的環節,因(yin)涉及到(dao)數(shu)(shu)(shu)據(ju)拆(chai)分(fen),需要強大(da)的計(ji)算能(neng)力(li)和(he)海量數(shu)(shu)(shu)據(ju)的支撐。
“四年前HiSeq測序(xu)(xu)(xu)儀是貝瑞的(de)(de)(de)主要機型,每次下機數(shu)據(ju)(ju)(ju)只有(you)幾十GB,相當(dang)于(yu)幾十部(bu)電影的(de)(de)(de)存(cun)儲量(liang),兩三個小時(shi)就拆(chai)分(fen)完了(le)(le),可以(yi)很(hen)快把結果(guo)交付給客戶。可是,基(ji)因(yin)測序(xu)(xu)(xu)行業的(de)(de)(de)發(fa)展(zhan)速度太快了(le)(le),很(hen)快公司有(you)了(le)(le)NovaSeq測序(xu)(xu)(xu)儀,每次下機數(shu)據(ju)(ju)(ju)量(liang)達到(dao)了(le)(le)4TB,相當(dang)于(yu)近(jin)2000部(bu)高清(qing)電影的(de)(de)(de)存(cun)儲量(liang),從幾十GB到(dao)4TB,數(shu)據(ju)(ju)(ju)量(liang)增(zeng)長(chang)超(chao)過了(le)(le)40倍。”張巖感(gan)嘆道。
數據處理量的(de)(de)增加(jia)意味著(zhu)當前(qian)體系(xi)下分析時(shi)間的(de)(de)增加(jia),每次交付前(qian)的(de)(de)拆分時(shi)間會拉長(chang)到15-20個小時(shi)。那段時(shi)間,張(zhang)巖他(ta)們總是接到其它部門(men)催(cui)數據的(de)(de)電(dian)話(hua),用張(zhang)巖的(de)(de)話(hua)說,他(ta)們每天早(zao)上一睜眼就面臨Deadline的(de)(de)連環奪命call。
之前公司采(cai)用(yong)了當時主流的“SGE集群+NAS存儲集中式架構(gou)”,明顯地現在這個架構(gou)有些吃力(li)了。是升級這個架構(gou)還是徹底(di)推(tui)翻重來,成為擺在IT工(gong)程師們面前的關鍵問題。
公司管理層和(he)IT團隊(dui)花了整(zheng)整(zheng)一周的時間,反(fan)復考慮行業(ye)增(zeng)長(chang)趨勢、數(shu)據(ju)(ju)增(zeng)長(chang)趨勢和(he)現有系(xi)統(tong)的擴(kuo)充性,最后一致(zhi)認為:數(shu)據(ju)(ju)系(xi)統(tong)的改革,底層架構(gou)是重(zhong)中之重(zhong),只有底層架構(gou)足夠穩(wen)定、強大,日(ri)后再(zai)升級、擴(kuo)容都不是問題。貝瑞(rui)必須打造一個擁有自(zi)主知識產權(quan)的、強大的數(shu)據(ju)(ju)拆分系(xi)統(tong),以便支撐(cheng)未來(lai)海量的數(shu)據(ju)(ju)。
IT工(gong)程(cheng)師們不負眾望搭建了(le)一個(ge)全新的(de)(de)(de)(de)(de)架構。“以(yi)前8-12個(ge)小時完(wan)(wan)成(cheng)的(de)(de)(de)(de)(de)拆分(fen),現在2個(ge)小時就可以(yi)做完(wan)(wan),甚至可以(yi)實現40分(fen)鐘(zhong)完(wan)(wan)成(cheng)。這是(shi)全行業里貝瑞獨有的(de)(de)(de)(de)(de)技術。”張巖的(de)(de)(de)(de)(de)雙眼(yan)里透(tou)出IT宅特(te)有的(de)(de)(de)(de)(de)驕傲,仿(fang)佛(fo)徹底遺(yi)忘了(le)開(kai)發過程(cheng)中的(de)(de)(de)(de)(de)一切(qie)緊張和壓力。
張巖把基(ji)(ji)礎架構的(de)(de)工作比(bi)作房子打地基(ji)(ji):“基(ji)(ji)礎環境(jing)規劃好(hao)了,無論是(shi)檢測100萬人還是(shi)檢測1億人,都可以在底層框架之上(shang)進行橫向擴(kuo)展。今后(hou)貝瑞(rui)的(de)(de)測序機位(wei)將(jiang)擴(kuo)充(chong)到1000個,支持100萬人以上(shang)的(de)(de)全基(ji)(ji)因組數據(ju)的(de)(de)存儲(chu)和處理完全沒有問題。”
是的,張巖描(miao)述的情景并不(bu)夸(kua)張。基(ji)因(yin)大(da)數據(ju)(ju)正日益(yi)展露其巨大(da)價值,成為基(ji)因(yin)行業(ye)下(xia)游數據(ju)(ju)應用市場(chang)的決定性因(yin)素。在(zai)臨床上,可(ke)用于疾(ji)病篩(shai)查和診斷、用藥(yao)指導,預后監測;在(zai)藥(yao)物(wu)研發(fa)(fa)方(fang)(fang)面(mian)(mian),大(da)數據(ju)(ju)可(ke)以(yi)在(zai)藥(yao)物(wu)研發(fa)(fa)之初就設定更加清晰的治療目標,讓精準(zhun)治療真(zhen)正落地(di);在(zai)大(da)眾健康(kang)方(fang)(fang)面(mian)(mian),可(ke)以(yi)給(gei)出精準(zhun)的、個性化的健康(kang)指導。可(ke)以(yi)想象的是,在(zai)不(bu)久的將(jiang)來,基(ji)因(yin)大(da)數據(ju)(ju)將(jiang)會貫(guan)穿人類(lei)生(sheng)活的始終。
2015年(nian),貝瑞(rui)基因(yin)開始(shi)建設(she)百萬人群(qun)的(de)基因(yin)組數(shu)據庫(ku),這是其布局基因(yin)大數(shu)據的(de)第一步。2017年(nian),貝瑞(rui)基因(yin)在福(fu)州市(shi)濱(bin)海新區(qu)的(de)健(jian)康醫療(liao)大數(shu)據產(chan)(chan)業(ye)園里,打造數(shu)字生命產(chan)(chan)業(ye)園,通過基因(yin)測序技(ji)術將生命數(shu)字化,最(zui)終實現(xian)婚前(qian)、孕前(qian)、產(chan)(chan)前(qian)、新生兒(er)、幼兒(er)、少年(nian)、壯年(nian)到老年(nian)的(de)全(quan)生命周期的(de)健(jian)康管理(li)。
生命數字化將成為人類發(fa)展的一(yi)個重要(yao)節(jie)點,張巖們成功跨界成為基(ji)因(yin)行業的IT大拿,一(yi)磚一(yi)瓦地推動(dong)著貝瑞實現其基(ji)因(yin)大計。
先利(li)其器,再(zai)成其事(shi)。