基因測序作為醫(yī)療健康行業(yè)的火爆技術(shù),近年來越來越得到臨床的認可,并逐步被應(yīng)用到各大領(lǐng)域中。尤其是精準醫(yī)療概念提出以后,基因測序更是備受青睞,它為精準醫(yī)療解答了很多未知的問題。
如今,基因測序已經(jīng)形成了一定的產(chǎn)業(yè)規(guī)模,大量的企業(yè)以不同形式躋身進來。但是,在表面飛速發(fā)展的背后,技術(shù)上仍有大量的挑戰(zhàn)。外媒《GEN》ShawnC.Baker博士撰文講解該領(lǐng)域面臨的困難與挑戰(zhàn)。編譯如下:
過去十年里,高通量測序技術(shù)經(jīng)歷了跨越式的發(fā)展,測序能力大幅上升,費用下降,兩者的變化都是數(shù)量級的。到目前為止,全球范圍內(nèi),共配備測序設(shè)備超過一萬臺。
過去十幾年來,主要的平臺公司都致力于提升系統(tǒng)的易用性。Illumina的最新桌面系統(tǒng),比如NextSeq、MiSeq、和MiniSeq系統(tǒng),均通過試劑盒進行操作,以減少了手工操作的次數(shù)和開機時間。
一直以來,Illumina的系統(tǒng)都比賽默飛的IonTorrent系統(tǒng)更加易用,但后者最新的系統(tǒng)IonS5特別設(shè)計簡化了整個工作流程,涉及設(shè)計準備庫到數(shù)據(jù)生成的整個流程。
行業(yè)外讀者在聽聞了測序行業(yè)的許多進展后,如強大的測序能力、更低的成本以及更好的易用性,可能會誤認為,基因測序所有的困難已經(jīng)都解決了,測序過程的所有障礙都移除了。
但是真正的困難還剛開始,大量的挑戰(zhàn)在前方。
樣品質(zhì)量
問題最嚴重的一個領(lǐng)域,也是易被忽略的是:樣品質(zhì)量,雖然測試平臺經(jīng)常會校準,使用的樣本也是經(jīng)過校準的,但是真實世界中的樣本經(jīng)常會面臨很多意想不到的挑戰(zhàn)。
在人類基因測序中,一個最普遍使用的樣本類型是FFPE(formalin-fixedparaffin-embedded)。FFPE的廣泛應(yīng)用有多種原因,其中最重要的是豐富性。據(jù)估計,全球范圍內(nèi),有超過100億FFPE樣本存檔。FFPE塊的臨床樣本存儲已經(jīng)變成工業(yè)級別的標準實踐,其樣本數(shù)量將繼續(xù)保持增長。
除全球范圍的廣泛應(yīng)用外,F(xiàn)FPE樣本通常包含著大量可用的表型信息。例如,F(xiàn)FPE樣本可與治療方法和臨床數(shù)據(jù)綜合應(yīng)用。
但FFPE樣本出現(xiàn)的問題是:固定過程和存儲條件均會造成大量的DNA損傷。
BioCule公司CEO、聯(lián)合創(chuàng)始人HansG.Thormar博士認為,
“評估了BioCule的QC平臺超過1000份樣本后,我們看到了DNA樣品中大量的變異和各種類型的損傷,例如鏈間、鏈內(nèi)交聯(lián),單鏈DNA的聚合以及單鏈DNA破壞。”
“DNA損傷的變異數(shù)量和類型,如果忽略,可能會對最終結(jié)果產(chǎn)生負面影響。”
Thormar認為,這對下游應(yīng)用比如測序的影響是巨大的:從簡單測序文庫構(gòu)建的失敗到虛假文庫的產(chǎn)生,最終導(dǎo)致結(jié)果的錯誤。因此,在測序項目開始時正確評估每個樣本的質(zhì)量變得至關(guān)重要。
測序文庫
盡管,各大測序平臺公司花大力氣在降低生成原始序列的成本上,但是在構(gòu)建測序庫方面卻不然。人類基因測序的測序文庫的構(gòu)建,每個樣本大約花費50美元,在總花銷中是相對較小的一部分。但是在其他應(yīng)用中,例如細菌基因組測序或低深度RNA測序,它占據(jù)總成本很大一部分。
幾個小組研究了多元化自制解決方案,期望可以有效降低成本,但在商業(yè)領(lǐng)域并沒有太多發(fā)展。在開發(fā)單細胞測序解決方案中有一個亮點,例如10XGenomics公司的Chromium(TM)系統(tǒng),利用基于珠的系統(tǒng)可以并行處理數(shù)百到數(shù)萬個樣品。
10XGenomics公司的CEO兼聯(lián)合創(chuàng)始人SergeSaxonov博士堅持道,
我們認為單細胞RNA測序是進行基因表達分析的正確方式,在接下來的幾年,全球許多地區(qū),RNA試驗將轉(zhuǎn)向單細胞分辨率,我們的平臺有可能在這方面引領(lǐng)浪潮。
對于大型項目,比如在降低樣品成本方面,單細胞RNA測序中要求的高度多元解決方案將是關(guān)鍵的因素。
長讀數(shù)與短讀數(shù)
Illumina對于基因測序市場的主導(dǎo),意味著到目前為止產(chǎn)生的絕大多數(shù)數(shù)據(jù)都基于短讀數(shù)(shortreads,高通量測序平臺產(chǎn)生的序列就稱為reads,這是測序讀到的堿基序列片段,測序的最小單位)。大量短讀數(shù)的產(chǎn)生對大多數(shù)的應(yīng)用都很適用。例如檢測基因組DNA的單核苷酸多態(tài)性和計數(shù)RNA的轉(zhuǎn)錄物。然而,在許多其他的應(yīng)用中,僅有短讀數(shù)是不夠的,例如閱讀基因組的高度重復(fù)區(qū)域和確定長鏈結(jié)構(gòu)。
長讀數(shù)平臺,例如PacificBiosciences公司的RSII和Sequel,OxfordNanopore的MinION,通常能生成15-20kb范圍長度的讀數(shù),最高曾報道過超過100kb長度的讀數(shù)。這樣的平臺贏得科學(xué)界的贊賞,例如加利福尼亞大學(xué)戴維斯分校細胞生物學(xué)教授CharlesGasser博士。
Gasser博士評論道,“我對于用長讀數(shù)方法進行基因組裝配的成功印象深刻,特別是與短讀數(shù)高保真數(shù)據(jù)相結(jié)合時的混合裝配中。技術(shù)的結(jié)合使得小群體、小預(yù)算的單個研究者從一個新的生物基因組中產(chǎn)生一個可用的組裝。”
為了充分利用這些長讀數(shù)平臺,有必要通過新方法進行制備DNA樣品,標準分子生物學(xué)方法尚未優(yōu)化用來分離超長鏈DNA片段,所以,在制備長讀數(shù)庫時必須特別小心。
例如,供應(yīng)商創(chuàng)建了一種高分子量試劑盒用于分離大于100kb的的DNA片段,優(yōu)化靶向DNA方案來選擇性富集DNA的大片段,為了保證長讀數(shù)產(chǎn)量的最大化,這些方法和技術(shù)必須掌握。
短讀數(shù)的一種特殊形式是鏈接讀數(shù),例如10XGenomics,可作為真正長讀數(shù)的一種替代方法。鏈接讀數(shù)是這樣產(chǎn)生的:每個長DNA片段,通常大于100kb,其中產(chǎn)生的每個短讀數(shù),均加入一個獨一無二的條形碼,在分析階段,這種獨特的條形碼就可以將分離的短讀數(shù)鏈接在一起,從而提供長鏈基因信息,使得構(gòu)建大單倍型塊和對復(fù)雜結(jié)構(gòu)信息的闡釋成為可能。
Saxonov博士建議道,短讀數(shù)測序,因其高精確度和高通量,通常具有強大的功能,但只能獲取小部分的基因信息。這是因為基因組是基本重復(fù)的,基因組中的大量信息編碼在長鏈中。
數(shù)據(jù)分析
研究人員面臨的領(lǐng)一大挑戰(zhàn)是生成的數(shù)據(jù)量非常大。單個30X人全基因組樣品的BAM文件(半壓縮比對文件)約為90GB;一個相對中等的項目,包含100個樣本,其BAM文件可達到9TB。
一個IlluminaHiSeqX儀器,每年能產(chǎn)生超過130TB的數(shù)據(jù),很快數(shù)據(jù)的存儲就變成一個大問題。例如,Broad研究所以每12分鐘分析一個30X人全基因組速率產(chǎn)生基因測序數(shù)據(jù)——每年可產(chǎn)生將近4000TB的BAM文件。
BAM文件可以轉(zhuǎn)化為VCF文件(變體調(diào)用格式),后者僅包含不同于標準序列的信息。雖然VCF文件小并且更加好用,但是保存原始序列文件仍是必要的,方便研究者將來查看這些數(shù)據(jù)。
隨著測序成本下降,一些人就得出這樣的結(jié)論:對樣本重測序會很容易,并且可能更便宜,而分析大量數(shù)據(jù)時,研究人員的選擇空間非常大。但事實上,在OMICtools中有超過3000個序列分析工具可供選擇,研究人員想要找到最好的那一個,也不容易。
臨床解釋和報銷
最后,對于臨床樣本,還有一個挑戰(zhàn):對于測序序列的變異提供一致可靠的解釋。
一個典型的外顯子包含1萬——2萬個突變,全基因樣本則會產(chǎn)生超過300萬種變異。在通常的解釋中,根據(jù)變異造成的疾病相似性分類。
為了協(xié)助指導(dǎo)臨床醫(yī)生,美國醫(yī)學(xué)遺傳學(xué)和基因組學(xué),分子病理學(xué)協(xié)會和美國病理學(xué)家學(xué)院創(chuàng)建了一套對突變進行分類的系統(tǒng)。分類目錄包括致病性,可能致病性,不確定的顯著性(目前占外源和全基因組樣本的絕大多數(shù)),可能良性和良性。
然而,這種方案有其局限性。即時使用一種公認的分類方案分類同一個數(shù)據(jù)庫,不同的項目組可能會提出不同的解釋。對新系統(tǒng)的一個試驗研究中,參與的不同臨床實驗室僅在34%的情況下,對于分類的解釋一致。
如果存在分歧或需要額外的分析來解釋實驗結(jié)果,那么就存在報銷的問題?;贜GS的測試的報銷可能是一個大障礙,但是對于解釋的報銷幾乎是不可能的。
Rady兒童基因組醫(yī)學(xué)研究所臨床研究員JenniferFriedman博士說,
實驗室不可能對試驗的解釋付費,如果這種服務(wù)可以提供,這是非常有價值的,但是沒有人做到這個。
沒有辦法為此付費,保險公司不報銷。盡管對于精準醫(yī)學(xué)的關(guān)注度上升,但是無論是臨床醫(yī)生或?qū)嶒炇易龀龅慕忉?,都沒有被醫(yī)療保健支付者承認或是重視。
到目前為止,病人樣本的分析基本上是作為一個研究項目來對待的,是在研究型醫(yī)院中的一個選擇,并且僅用于有限數(shù)量的患者。
未來展望
了解道,盡管過去幾年有很大的進步,但是整個NGS工作流程,從樣品文庫構(gòu)建到數(shù)據(jù)分析,仍然存在大量的挑戰(zhàn)。隨著基礎(chǔ)技術(shù)的進步,新的挑戰(zhàn)將繼續(xù)出現(xiàn),對于這些基因組技術(shù)的廣泛應(yīng)用和最大化改善人類健康而言,解決這些挑戰(zhàn)是至關(guān)重要的。