两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

測(cè)序讀段的DENOVO組裝的方法、系統(tǒng)和過程與流程

文檔序號(hào):12509571閱讀:2353來源:國(guó)知局
測(cè)序讀段的DE NOVO組裝的方法、系統(tǒng)和過程與流程

本申請(qǐng)要求于2014年10月10日提交的題目為“METHODS,SYSTEMS AND PROCESSES OF DE NOVO ASSEMBLY OF SEQUENCING READS”的臨時(shí)專利申請(qǐng)?zhí)?2/062636的權(quán)益,其發(fā)明人為Karel Knovicka和Kevin Jacobs,并且其由代理檔案號(hào)055911-0432229指定。包括所有文本、表格和附圖的在先專利申請(qǐng)的全部?jī)?nèi)容通過引用并入本文。

技術(shù)領(lǐng)域

本技術(shù)涉及核酸操作、分析和高通量測(cè)序的方法和過程。



背景技術(shù):

生物體(例如,動(dòng)物、植物、微生物、病毒)的遺傳信息被編碼在脫氧核糖核酸(DNA)或核糖核酸(RNA)中。遺傳信息是表示核酸的一級(jí)結(jié)構(gòu)的核苷酸或修飾的核苷酸序列。生物體的核酸含量(例如,DNA)通常被稱為基因組。在人體中,完整的基因組通常包括位于二十四條染色體上的大約30,000個(gè)基因。大部分基因編碼特定的蛋白質(zhì),其經(jīng)由轉(zhuǎn)錄和翻譯的表達(dá)后實(shí)現(xiàn)活細(xì)胞內(nèi)的一個(gè)或多個(gè)生物化學(xué)功能。

許多醫(yī)學(xué)病癥由基因組內(nèi)的一個(gè)或多個(gè)遺傳變異引起。一些遺傳變異可能使個(gè)人容易感染、或?qū)е轮T如例如糖尿病、動(dòng)脈硬化、肥胖癥、各種自身免疫性疾病和癌癥(例如,結(jié)腸直腸癌、乳腺癌、卵巢癌、肺癌)的多種疾病。這種遺傳性疾病可以由基因組內(nèi)的一個(gè)或多個(gè)核苷酸的添加、取代、插入或缺失引起。

通過分析核酸可以標(biāo)識(shí)遺傳變異。基因組的核酸可以通過各種方法(包括例如涉及大規(guī)模并行測(cè)序的方法)來分析。大規(guī)模并行測(cè)序方法通常生成數(shù)千、數(shù)百萬甚至數(shù)十億的小測(cè)序讀段。為了確定基因序列,每個(gè)讀段通常被映射到參考基因組,同時(shí)讀段集合被組裝成個(gè)體基因組或其部分的序列表示。讀段的映射和組裝過程由一個(gè)或多個(gè)計(jì)算機(jī)(例如,硬件微處理器(即,微處理器)和存儲(chǔ)器)執(zhí)行,并由人類雙手創(chuàng)建的指令(例如,軟件指令和/或算法)集合驅(qū)動(dòng)。當(dāng)對(duì)象的基因組中遇到遺傳變異時(shí),這樣的映射和組裝過程通常失敗?,F(xiàn)有的軟件和程序不正確地映射讀段、不能映射讀段或不能正確地組裝包括遺傳變異的基因組的區(qū)域。本文的方法、系統(tǒng)和過程提供了對(duì)當(dāng)前核酸分析技術(shù)的顯著進(jìn)步和改進(jìn)。



技術(shù)實(shí)現(xiàn)要素:

本文提供的一些方面是分析核酸文庫(kù)的方法,核酸文庫(kù)包括具有存儲(chǔ)在其上的可執(zhí)行程序的非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該程序被配置為指示微處理器:(a)獲得包括多個(gè)讀段配對(duì)物對(duì)的雙端序列讀段的集合,每個(gè)對(duì)包括兩個(gè)讀段配對(duì)物,其中每個(gè)對(duì)中的兩個(gè)讀段配對(duì)物的至少一個(gè)被映射到參考基因組的至少一部分,參考基因組包括預(yù)先選擇的感興趣的基因組區(qū)域,并且其中雙端序列讀段中的一些沒有被映射到參考基因組的該至少一部分,(b)確定序列讀段的集合的堆積關(guān)系,(c)根據(jù)(b)中確定的堆積關(guān)系,構(gòu)建一個(gè)或多個(gè)重疊群,包括迭代地將至少一個(gè)核苷酸添加到一個(gè)或多個(gè)起始讀段的位置3'或5'中,其中位置(例如,前進(jìn)位置)包括多數(shù)共有核苷酸,(d)根據(jù)橋接兩個(gè)或多個(gè)重疊群的一個(gè)或多個(gè)讀段配對(duì)物對(duì),組裝一個(gè)或多個(gè)超重疊群,(e)根據(jù)一個(gè)或多個(gè)超重疊群,生成基因型似然比,以及(f)根據(jù)(e)中生成的基因型似然比,確定遺傳變異的存在或不存在。

在某些方面,堆積關(guān)系包括集合中的兩個(gè)或多個(gè)讀段之間的多個(gè)重疊,其中多個(gè)重疊中的每一個(gè)根據(jù)以下項(xiàng)目選擇:(i)包括第一重疊的集合的第一讀段,第一重疊具有集合的第二讀段,(ii)包括大于預(yù)定比對(duì)得分閾值的比對(duì)得分的第一重疊,(iii)第二讀段擴(kuò)展一個(gè)或多個(gè)核苷酸并經(jīng)過第一讀段的3'端或5'端,以及(iv)第一重疊包括滿足(i)、(ii)和(iii)的、所有可能的第一重疊中的最高比對(duì)得分。在一些方面,堆積關(guān)系包括第二讀段,第二讀段包括第二重疊,第二重疊具有集合的第三讀段,其中(i)第二讀段包括第一重疊,(ii)第二重疊包括大于預(yù)定比對(duì)得分閾值的比對(duì)得分,(iii)第三讀段擴(kuò)展一個(gè)或多個(gè)核苷酸并經(jīng)過第二讀段的3'端或5'端,以及第二讀段和第三讀段以同樣的3'或5'方向擴(kuò)展第一讀段,以及(iv)第二重疊包括滿足(i)、(ii)和(iii)的、所有可能的第二重疊中的最高比對(duì)得分。

在某些方面,多數(shù)共有核苷酸根據(jù)針對(duì)堆積關(guān)系確定的多個(gè)重疊來確定的。在某些實(shí)施例中,構(gòu)建重疊群包括將至少一個(gè)核苷酸迭代地添加到一個(gè)或多個(gè)中間重疊群的每一個(gè)的位置3'或5'。在某些實(shí)施例中,其中位置(例如,前進(jìn)位置)包括兩個(gè)不同的多數(shù)共有核苷酸,構(gòu)建重疊群包括:生成中間重疊群的一個(gè)拷貝,從而提供兩個(gè)相同的中間重疊群,將兩個(gè)不同的多數(shù)共有核苷酸中的一個(gè)添加到兩個(gè)相同的中間重疊群的每一個(gè),其中不同的核苷酸被添加到兩個(gè)相同的中間重疊群中的每一個(gè)。在一些示例中,其中位置(例如,前進(jìn)位置)包括三個(gè)不同的多數(shù)共有核苷酸,構(gòu)建重疊群包括:生成中間重疊群的兩個(gè)拷貝,從而提供三個(gè)相同的中間重疊群,將三個(gè)不同的多數(shù)共有核苷酸中的一個(gè)添加到三個(gè)相同的中間重疊群的每一個(gè),其中不同的核苷酸被添加到三個(gè)相同的中間重疊群中的每一個(gè)。在一些示例中,其中位置(例如,前進(jìn)位置)包括四個(gè)不同的多數(shù)共有核苷酸,構(gòu)建重疊群包括:生成中間重疊群的三個(gè)拷貝,從而提供四個(gè)相同的中間重疊群,將四個(gè)不同的多數(shù)共有核苷酸中的一個(gè)添加到四個(gè)相同的中間重疊群的每一個(gè),其中不同的核苷酸被添加到四個(gè)相同的中間重疊群中的每一個(gè)。

在一些方面,從一個(gè)或多個(gè)人體對(duì)象獲得樣本。

在以下的描述、示例、權(quán)利要求和附圖中進(jìn)一步描述了某些實(shí)施例。

附圖說明

附圖圖示了本技術(shù)的實(shí)施例并且是非限制性的。為了清楚和易于圖示,附圖不按比例繪制,并在某些情況下,各個(gè)方面被夸張或放大,以促進(jìn)對(duì)特定實(shí)施例的理解。

圖1示出了系統(tǒng)流程圖(例如,Kragle)的一個(gè)實(shí)施例。

圖2示出了重疊的一個(gè)實(shí)施例,以及具有默認(rèn)最小擴(kuò)展讀段計(jì)數(shù)(設(shè)為1)的讀段-讀段連接過濾的一個(gè)示例。讀段(紅色)具有向右擴(kuò)展它的讀段A到G(綠色)。這些擴(kuò)展讀段中的一些也具有向右擴(kuò)展它們的讀段(藍(lán)色)。紅色讀段將保持到向右擴(kuò)展它的讀段的三個(gè)連接。將保留讀段A,因?yàn)樗哂凶罡叩梅?,但由于讀段A不具有向右擴(kuò)展它的任何讀段,所以紅色讀段還保留讀段B和C。這兩個(gè)讀段具有相同的得分(1200)并具有向右擴(kuò)展它們的讀段。不需要附加的讀段連接;紅色讀段在三個(gè)連接之間具有其自身被向右擴(kuò)展的至少一個(gè)讀段(讀段B和C均可以被另一讀段向右擴(kuò)展)。

圖3示出了重疊的實(shí)施例。讀段A必須與讀段B(具有多態(tài)性堿基A的單體型)和讀段C(具有多態(tài)性堿基C的單體型)保持連接。將保持到讀段B的連接,因?yàn)槠涫窍蛴覕U(kuò)展讀段A的最高得分讀段(并且如果讀段B自身具有將其向右擴(kuò)展的讀段,那么讀段A自身不需要附加連接)。然而讀段A是向左擴(kuò)展讀段C的最高得分讀段,因此讀段A和讀段C之間的連接由讀段C強(qiáng)制。因此讀段A將具有兩個(gè)連接,兩個(gè)連接均將其向右擴(kuò)展,然而每一個(gè)連接到不同的單體型。

圖4示出了重疊群組裝的一個(gè)實(shí)施例,示出了“所有募集”邊緣和共有序列的擴(kuò)展。一個(gè)堿基擴(kuò)展的“所有募集”間隔內(nèi)部的所有讀段將在當(dāng)前迭代中募集。

圖5示出了重疊群組裝的一個(gè)實(shí)施例,其中多于一個(gè)的多數(shù)共有核苷酸存在用于前進(jìn)位置。圖5示出了重疊群分裂(復(fù)制)的表示。遇到A/C多態(tài)位置并使當(dāng)前重疊群分裂成兩個(gè)。來自具有堿基A的五個(gè)讀段(藍(lán)色)的三個(gè)讀段(或他們的配對(duì)物)跨過了先前的分裂位置。來自具有堿基C(綠色)的三個(gè)讀段對(duì)的2個(gè)跨過了先前分裂位置。沒有堿基獲得單倍型調(diào)整計(jì)數(shù)0,因此兩個(gè)新的重疊群將從當(dāng)前重疊群生成;除了紅色讀段外,一個(gè)重疊群將采用具有堿基A的讀段對(duì)(藍(lán)色讀段),而另一個(gè)重疊群將會(huì)采用具有堿基C的讀段對(duì)(綠色讀段)。

圖6示出了因?yàn)榫哂卸鄳B(tài)堿基C的讀段具有單體型調(diào)整計(jì)數(shù)0(例如,沒有具有堿基C的讀段對(duì)跨過先前的分裂位置)而不支持重疊群分裂的多態(tài)讀段堆積。因此具有堿基C的讀段對(duì)將從重疊群中去除并且不生成新的重疊群。

圖7示出了超重疊群組裝的一個(gè)示例。a)中紅色的重疊群遇到第一A/C多態(tài)位置并分裂出新的重疊群(藍(lán)色)。紅色重疊群遇到另一G/T多態(tài)位置并分裂出另一重疊群(綠色)。當(dāng)藍(lán)色重疊群被建立時(shí),它遇到與紅色重疊群的G/T分裂相同的G/T多態(tài)位置(相同的讀段組合物和讀段中相同的位置)。因此該分裂僅被標(biāo)記,并且未構(gòu)建藍(lán)色重疊群的剩余部分。然而,在重疊群整合階段期間,藍(lán)色重疊群被附加了具有匹配分裂的紅色重疊群的兩個(gè)可能端,產(chǎn)生b)中的四個(gè)重疊群中的前兩個(gè)。

圖8示出了重疊群如何被連接以形成超重疊群的一個(gè)實(shí)施例。以下重疊群連接的圖產(chǎn)生了5個(gè)超重疊群(通過圖中的、從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)的5個(gè)路徑)。

圖9示出了讀段對(duì)被比對(duì)到錯(cuò)誤插入附近的假設(shè)序列。錯(cuò)誤插入由讀段(藍(lán)色)組成,這些配對(duì)物不會(huì)跨過相鄰的側(cè)翼。這些錯(cuò)誤插入通常發(fā)生在重復(fù)區(qū)域中,在重復(fù)區(qū)域中,在來自真實(shí)重復(fù)序列的讀段和源于該區(qū)域外部序列的讀段中的重復(fù)序列的讀段之間,完成一些錯(cuò)誤比對(duì)。

圖10示出了包括形成堆積關(guān)系、組裝重疊群、組裝超重疊群和生成基因型概率的一個(gè)實(shí)施例的概況。

圖11描述了生成堆積關(guān)系(例如,讀段-讀段比對(duì))的過程的一個(gè)示例。

圖12示出了過濾重疊的一個(gè)實(shí)施例。

圖13示出了讀段比對(duì)圖循環(huán)的一個(gè)實(shí)施例。

圖14示出了組裝重疊群和/或超重疊群的一個(gè)實(shí)施例。

圖15描述了重疊群組裝的一個(gè)實(shí)施例。

圖16描述了重疊群組裝的另一實(shí)施例。

圖17描述了包括在重疊群組裝過程期間分裂(例如,復(fù)制)重疊群的一個(gè)實(shí)施例。

圖18描述了完成重疊群組裝的一個(gè)實(shí)施例。

圖19示出了組裝超重疊群的一個(gè)實(shí)施例。

圖20示出了二倍體假設(shè)的一個(gè)示例。

圖21示出了包括插入懲罰部分的基因型似然模型的一個(gè)示例。

圖22示出了分離等位基因表示的推導(dǎo)的一個(gè)示例。

圖23示出了Kragle方法的一部分的一個(gè)實(shí)施例。

圖24示出了通過應(yīng)用Kragle獲得的結(jié)果的一個(gè)示例。

圖25示出了CFTR識(shí)別系統(tǒng)的一個(gè)示例。

圖26示出了具有挑戰(zhàn)性的組裝任務(wù)的一個(gè)示例。

圖27示出了針對(duì)BRCA1基因的外顯子19中的確認(rèn)的雜合缺失的、兩個(gè)組裝的單體型的映射的一個(gè)示例。該圖顯示了包含缺失的單體型2的3’側(cè)的映射。

圖28示出了單體型2的5’側(cè)的映射的、并組裝BRCA1基因的外顯子19中的實(shí)驗(yàn)上確認(rèn)的缺失的一個(gè)示例。

具體實(shí)施方式

下一代測(cè)序(NGS)允許通過比傳統(tǒng)測(cè)序方法更快速和更便宜的方法對(duì)基因組范圍內(nèi)的核酸進(jìn)行測(cè)序。本文的方法和過程提供了可以用于定位和標(biāo)識(shí)遺傳變異和/或相關(guān)疾病和病癥的先進(jìn)測(cè)序技術(shù)的改進(jìn)。在一些實(shí)施例中,本文提供了部分地包括操作和分析通常由大規(guī)模并行測(cè)序方法獲得的序列讀段的方法。

傳統(tǒng)的組裝器和準(zhǔn)直器通常不能正確地組裝包括遺傳變異(例如,短串聯(lián)重復(fù)(STR)、多態(tài)性、插入等)的基因組序列。調(diào)用諸如STR的遺傳變異對(duì)于大多數(shù)準(zhǔn)直器和映射器來說都是難題?,F(xiàn)有的算法和軟件包無法正確地映射和比對(duì)包括這種遺傳變異的基因組區(qū)域內(nèi)的讀段。在這方面被測(cè)試并失敗的組裝器的示例包括Lobstr、Repeatseq和諸如GATK Haplotype Caller、AMOS de-novo組裝器、Mira de-novo組裝器、FERMI、SGA和其他的通用de-novo組裝器。非常需要能夠正確地和常規(guī)地組裝包括遺傳變異的基因組區(qū)域和/或精確地從測(cè)序讀段的集合中標(biāo)識(shí)遺傳變異的新的以及改進(jìn)的系統(tǒng)和方法(例如,依賴微處理器的方法)。在本文中描述并請(qǐng)求保護(hù)這樣的方法、系統(tǒng)和過程。

對(duì)象

對(duì)象可以是任意生物或非生物體,包括但不限于人類、非人類的動(dòng)物、植物、細(xì)菌、真菌、病毒或原生生物。對(duì)象可以是任意年齡(例如,胚胎、胎兒、嬰兒、兒童、成人)。對(duì)象可以是任意性別(例如,雄性、雌性、或其組合)。對(duì)象可以是懷孕的。對(duì)象可以是患者(例如,人類患者)。

樣本

本文提供了用于分析樣本的方法和組合物。樣本(例如,包括核酸的樣本)可以從合適的對(duì)象獲得。樣本可以從對(duì)象或其部位直接分離或獲得。在一些實(shí)施例中,樣本從個(gè)體或醫(yī)學(xué)專業(yè)人員處間接獲得。樣本可以是從對(duì)象或其部位分離或獲得的任意標(biāo)本。樣本可以是從多個(gè)對(duì)象分離或獲得的任意標(biāo)本。標(biāo)本的非限制性示例包括來自對(duì)象的流體或組織,包括但不限于血液或血液制品(例如,血清、血漿、血小板、血沉棕黃層等)、臍帶血、絨毛膜絨毛、羊水、腦脊髓液、脊髓液、灌洗液(例如,肺、胃、腹膜、導(dǎo)管、耳、關(guān)節(jié)鏡)、活組織檢查樣本、胚胎刺激樣本、細(xì)胞(血細(xì)胞、淋巴細(xì)胞、胎盤細(xì)胞、干細(xì)胞、骨髓來源的細(xì)胞、胚胎或胎兒細(xì)胞)或其部分(例如,線粒體、細(xì)胞核、提取物等)、尿液、糞便、痰液、唾液、鼻粘膜、前列腺液、灌洗液、精液、淋巴液、膽汁、眼淚、汗液、乳汁、乳液等、或其組合。從其中提取核酸的流體或組織樣本可以是非細(xì)胞組成的(例如,無細(xì)胞)。組織的非限制性示例包括器官組織(例如,肝、腎、肺、胸腺、腎上腺、皮膚、膀胱、生殖器官、腸、結(jié)腸、脾、腦等)、上皮組織、頭發(fā)、頭發(fā)毛囊、人體內(nèi)的導(dǎo)管、動(dòng)物體內(nèi)的管道、骨、眼、鼻、口、喉、耳、指甲等、其部分或其組合。樣本可以包括正常的、健康的、患病的(例如,感染)和/或癌性的(例如,癌細(xì)胞)細(xì)胞或組織。從對(duì)象獲得的樣本可以包括多種微生物(例如,病毒核酸、胎兒核酸、細(xì)菌核酸、寄生蟲核酸)的細(xì)胞或細(xì)胞材料(例如,核酸)。

在一些實(shí)施例中,樣本包括核酸或其片段。樣本可以包括從一個(gè)或多個(gè)對(duì)象獲得的核酸。在一些實(shí)施例中,樣本包括從單個(gè)對(duì)象獲得的核酸。在一些實(shí)施例中,樣本包括核酸的混合物。核酸的混合物可以包括具有不同核苷酸序列、不同片段長(zhǎng)度、不同來源(例如,基因組來源、細(xì)胞或組織來源、對(duì)象來源等或其組合)或其組合的兩個(gè)或多個(gè)核酸種類。樣本可以包括合成核酸。

核酸

術(shù)語“核酸”指來自諸如DNA(例如,互補(bǔ)DNA(cDNA)、基因組DNA(gDNA)等)、RNA(例如,消息RNA(mRNA)、短抑制性RNA(siRNA)、核糖體RNA(rRNA)、tRNA、微RNA)、和/或DNA或RNA類似物(例如,含有堿基類似物、糖類似物和/非特異性骨架(non-native backbone)等)、RNA/DNA雜交體和聚酰胺核酸(PNA)的任意組合物的一個(gè)或多個(gè)核酸(例如,核酸的集合或子集),所有這些可以是單鏈或雙鏈形式,除非另有限定,可以涵蓋可以以與天然存在的核苷酸類似的方式作用的已知的天然核苷酸類似物。除非特別限定,該術(shù)語涵蓋包括脫氧核糖核苷酸、核糖核苷酸和天然核苷酸的已知類似物的核酸。核酸可以包括,作為等同物、衍生物或其變體、由核苷酸類似物、單鏈(“有義”或“反義”、“加”鏈或“減”鏈、“向前”讀取框架或“反向”讀取框架)和雙鏈核苷酸合成的RNA或DNA的合適的類似物。核酸可以是單鏈或雙鏈的。核酸可以是2個(gè)或更多個(gè)、3個(gè)或更多個(gè)、4個(gè)或更多個(gè)或5個(gè)或更多個(gè)連續(xù)的核苷酸的任意長(zhǎng)度。核酸可以包括本領(lǐng)域已知的從特定5’到3’順序的核苷酸的序列(例如,核酸序列,例如,序列)。

核酸可以是天然存在的和/或可以由人合成、復(fù)制或改變。例如,核酸可以是擴(kuò)增子。核酸可以來自核酸文庫(kù)(例如,gDNA、cDNA或RNA文庫(kù)等)。核酸可以是合成的(例如,化學(xué)合成)或生成的(例如,通過體外聚合酶擴(kuò)展、例如通過擴(kuò)增、例如通過PCR)。在一些實(shí)施例中,核酸可以是或可以來自質(zhì)粒、噬菌體、病毒、自主復(fù)制序列(ARS)、著絲粒、人造染色體、染色體或能夠在體外或在宿主細(xì)胞、細(xì)胞、細(xì)胞的細(xì)胞核或細(xì)胞質(zhì)中復(fù)制或被復(fù)制的其他核酸。核酸(例如,核酸文庫(kù))可以包含來自一個(gè)樣本或兩個(gè)或更多個(gè)樣本(例如,來自1個(gè)或更多個(gè)、2個(gè)或更多個(gè)、3個(gè)或更多個(gè)、4個(gè)或更多個(gè)、5個(gè)或更多個(gè)、6個(gè)或更多個(gè)、7個(gè)或更多個(gè)、8個(gè)或更多個(gè)、9個(gè)或更多個(gè)、10個(gè)或更多個(gè)、11個(gè)或更多個(gè)、12個(gè)或更多個(gè)、13個(gè)或更多個(gè)、14個(gè)或更多個(gè)、15個(gè)或更多個(gè)、16個(gè)或更多個(gè)、17個(gè)或更多個(gè)、18個(gè)或更多個(gè)、19個(gè)或更多個(gè)、或20個(gè)或更多個(gè)樣本)的核酸。為本文所述的過程或方法提供的核酸可包括來自1至1000個(gè)、1至500個(gè)、1至200個(gè)、1至100個(gè)、1至50個(gè)、1至20個(gè)或1至10個(gè)樣本的核酸。

術(shù)語“基因”是指產(chǎn)生多肽鏈時(shí)涉及的DNA片段,并且可以包括涉及基因產(chǎn)品的轉(zhuǎn)錄/翻譯與轉(zhuǎn)錄/翻譯的調(diào)整以及個(gè)體編碼片段(外顯子)之間的插入序列(內(nèi)含子)的、編碼區(qū)域之前和之后的區(qū)域(頭部和尾部)。由于基因序列的遺傳變異(例如,基因的編碼和非編碼部分中的突變),基因可能不一定產(chǎn)生肽或可能產(chǎn)生截短的蛋白質(zhì)或非功能性蛋白質(zhì)。通??梢酝ㄟ^與參考基因組中的基因的同源性來標(biāo)識(shí)無論是功能性還是非功能性的基因。

寡核苷酸是相對(duì)較短的核酸。寡核苷酸可以為約2至150、2至100、2至50或2至約35個(gè)核酸的長(zhǎng)度。在一些實(shí)施例中,寡核苷酸是單鏈的。在某些實(shí)施例中,寡核苷酸是引物。引物通常被配置為與選定的互補(bǔ)核酸雜交,并且被配置為在雜交后由聚合酶擴(kuò)展。

核酸分離和純化

可以使用本領(lǐng)域已知的合適方法從一個(gè)或多個(gè)對(duì)象、一個(gè)或多個(gè)樣本或一個(gè)或多個(gè)源衍生、分離、提取、純化或部分純化核酸??梢允褂萌魏魏线m的方法來分離、提取和/或純化核酸。

本文使用的術(shù)語“分離”是指從其原始環(huán)境(例如,天然存在的天然環(huán)境、或外源性表達(dá)的宿主細(xì)胞)中移除的核酸,因此是通過人的干預(yù)(例如,“由人類雙手”)從其原始環(huán)境改變。本文使用的術(shù)語“分離的核酸”可以指從對(duì)象(例如,人類對(duì)象)移除的核酸。與源樣本中存在的核酸分子數(shù)目相比,分離的核酸由更少核酸分子(例如,蛋白質(zhì)、脂質(zhì)、小化合物、碳水化合物、污染物、顆粒、聚集體、鹽、洗滌劑等)提供。包含分離的核酸的組合物可以是約50%至大于99%不包含非核酸分子。包含分離的核酸的組合物可以是約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%不包含非核酸分子。本文使用的術(shù)語“純化”可以指:與在使核酸進(jìn)行純化程序之前存在的非核酸分子的量相比,提供含有較少非核酸分子的核酸。包括純化的核酸的組合物可以是至少約60%、70%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%不包含其他非核酸分子。包括純化的核酸的組合物可以是至少約60%、70%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%不包含其他核酸。包括純化的核酸的組合物可以包括在應(yīng)用純化方法之前的樣本中存在的總核酸的至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或大于99%。

核酸測(cè)序

在某些實(shí)施例中,通過包括核酸測(cè)序的過程分析核酸(例如,擴(kuò)增子、文庫(kù)的核酸、捕獲的核酸)。在一些實(shí)施例中,核酸可以被測(cè)序。在一些實(shí)施例中,獲得完整的或基本上完整的序列,并且有時(shí)獲得局部序列。

可以使用對(duì)核酸測(cè)序的合適的方法,方法的非限制性示例包括Maxim&Gilbert、鏈終止法、合成測(cè)序、連接法測(cè)序、質(zhì)譜測(cè)序、基于顯微鏡的技術(shù)等或其組合。在一些實(shí)施例中,第一代技術(shù)(例如諸如Sanger測(cè)序方法,其包括自動(dòng)Sanger測(cè)序方法、包括微流體Sanger測(cè)序)可以用于本文提供的方法。在一些實(shí)施例中,可以使用包括使用核酸成像技術(shù)(例如,透射電子顯微鏡(TEM)和原子力顯微鏡(AFM))的測(cè)序技術(shù)。在一些實(shí)施例中,使用高通量測(cè)序方法。高通量測(cè)序方法通常涉及有時(shí)在流動(dòng)池內(nèi)、以大規(guī)模并行方式測(cè)序的克隆地?cái)U(kuò)增的DNA模板或單個(gè)DNA分子。能夠以大規(guī)模并行方式對(duì)DNA測(cè)序的下一代(例如,第2代和第3代)測(cè)序技術(shù)可用于本文所述的方法,并且在本文中統(tǒng)稱為“大規(guī)模并行測(cè)序”(MPS)。用于進(jìn)行本文描述的方法的任何合適的MPS或下一代測(cè)序方法、系統(tǒng)或技術(shù)平臺(tái)可用于獲得測(cè)序讀段,其非限制性示例包括Illumina/Solex/HiSeq(例如,Illumina的基因組分析儀、基因組分析儀II、HISEQ 2000;HISEQ 2500、SOLiD、Roche/454、PACBIO、SMRT、Helicos True Single Molecule Sequencing、Ion Torrent和Ion基于半導(dǎo)體的測(cè)序、WildFire、基于5500、555xl W和/或5500xl W遺傳分析儀(例如,由Life Technologies開發(fā)和銷售的)的技術(shù)、Polony測(cè)序、焦磷酸測(cè)序、大規(guī)模并行簽名測(cè)序、RNA聚合酶(RNAP)測(cè)序、IBS方法、LaserGen系統(tǒng)和方法、化學(xué)敏感場(chǎng)效應(yīng)晶體管(CHEMFET)陣列、基于電子顯微鏡的測(cè)序、納米球測(cè)序、合成測(cè)序、連接法測(cè)序、雜交測(cè)序等或其變體。本文中也考慮包括使用發(fā)展中的核酸成像技術(shù)(例如,透射電子顯微鏡(TEM)和原子力顯微鏡(AFM))的附加測(cè)序技術(shù)。在一些實(shí)施例中,使用高通量測(cè)序方法。高通量測(cè)序方法通常涉及有時(shí)在流動(dòng)池內(nèi)、以大規(guī)模方式測(cè)序的克隆擴(kuò)增的DNA模板或單個(gè)DNA 分子。在一些實(shí)施例中,MPS測(cè)序方法利用靶標(biāo)方法,其中序列讀段從特定染色體、基因或感興趣區(qū)域生成。特定染色體、基因或感興趣區(qū)域在本文中有時(shí)被稱為靶標(biāo)基因組區(qū)域。在某些實(shí)施例中,使用非靶標(biāo)方法,其中樣本中大部分或全部核酸片段被隨機(jī)測(cè)序、擴(kuò)增和/或捕獲。

序列讀段

使核酸通過測(cè)序方法通常提供序列讀段。如本文中所用,“讀段”(例如,“讀段”,“序列讀段”)是通過本文所述或本領(lǐng)域已知的任何測(cè)序過程產(chǎn)生的短核苷酸序列。讀段可以從核酸片段的一端生成(“單端讀段”),有時(shí)從核酸片段的兩端生成(例如,雙端讀段、雙端序列讀段、兩端讀段)。雙端讀段通常包括一個(gè)或多個(gè)讀段對(duì)(例如,兩個(gè)讀段、讀段配對(duì)物對(duì)),每個(gè)讀段對(duì)從被測(cè)序的核酸片段的每個(gè)端獲得。讀段配對(duì)物對(duì)的每個(gè)讀段在本文中有時(shí)被稱為讀段配對(duì)物。雙端測(cè)序方法(例如,其中一個(gè)或多個(gè)核酸文庫(kù)被測(cè)序)經(jīng)常產(chǎn)生多個(gè)讀段配對(duì)物對(duì)和多個(gè)讀段配對(duì)物。

序列讀段的長(zhǎng)度通常與特定的測(cè)序技術(shù)相關(guān)聯(lián)。例如,高通量方法和/或下一代序列提供可以從數(shù)十到數(shù)百個(gè)堿基對(duì)(bp)的大小變化的序列讀段。在一些實(shí)施例中,序列讀段是約15bp至約900bp長(zhǎng)的平均數(shù)、中位數(shù)、平均值或絕對(duì)長(zhǎng)度。在某些實(shí)施例中,序列讀段是約1000bp或更大的平均數(shù)、中位數(shù)、平均值或絕對(duì)長(zhǎng)度。

單端讀段可以是任何合適的長(zhǎng)度。在一些實(shí)施例中,單端讀段的標(biāo)稱值、平均值、平均數(shù)或絕對(duì)長(zhǎng)度有時(shí)為約10個(gè)核苷酸至約1000個(gè)連續(xù)核苷酸、約10個(gè)核苷酸至約500個(gè)連續(xù)核苷酸、約10個(gè)核苷酸至約250個(gè)連續(xù)核苷酸、約10個(gè)核苷酸至約200個(gè)連續(xù)核苷酸、約10個(gè)核苷酸至約150個(gè)連續(xù)核苷酸、約15個(gè)連續(xù)核苷酸至約100個(gè)連續(xù)核苷酸、約20個(gè)連續(xù)核苷酸至約75個(gè)連續(xù)核苷酸、或約30個(gè)連續(xù)核苷酸或約50個(gè)連續(xù)核苷酸。在某些實(shí)施例中,單端讀段的標(biāo)稱值、平均數(shù)、平均值或絕對(duì)長(zhǎng)度為約5個(gè)、6個(gè)、7個(gè)、8個(gè)、9個(gè)、10個(gè)、11個(gè)、12個(gè)、13個(gè)、14個(gè)、15個(gè)、16個(gè)、17個(gè)、18 個(gè)、19個(gè)、20個(gè)、21個(gè)、22個(gè)、23個(gè)、24個(gè)、25個(gè)、26個(gè)、27個(gè)、28個(gè)、29個(gè)、30個(gè)、31個(gè)、32個(gè)、33個(gè)、34個(gè)、35個(gè)、36個(gè)、37個(gè)、38個(gè)、39個(gè)、40個(gè)、41個(gè)、42個(gè)、43個(gè)、44個(gè)、45個(gè)、46個(gè)、47個(gè)、48個(gè)、49個(gè)或50個(gè)或更多個(gè)核苷酸長(zhǎng)度。

雙端讀段(例如,讀段配對(duì)物)可以是任何合適的長(zhǎng)度。在某些實(shí)施例中,核酸片段的兩端以合適的讀段長(zhǎng)度進(jìn)行測(cè)序,該讀段長(zhǎng)度足以將每個(gè)讀段(例如,片段模板的兩端的讀段)映射到參考基因組。在某些實(shí)施例中,雙端讀段的標(biāo)稱值、平均數(shù)、平均值或絕對(duì)長(zhǎng)度為約10個(gè)連續(xù)核苷酸至約500個(gè)連續(xù)核苷酸、約10個(gè)連續(xù)核苷酸至約400個(gè)連續(xù)核苷酸、約10個(gè)連續(xù)核苷酸至約300個(gè)連續(xù)核苷酸、約50個(gè)連續(xù)核苷酸至約200個(gè)連續(xù)核苷酸、約100個(gè)連續(xù)核苷酸至約200個(gè)連續(xù)核苷酸、或約100個(gè)連續(xù)核苷酸至約150個(gè)連續(xù)核苷酸。在某些實(shí)施例中,雙端讀段的標(biāo)稱值、平均數(shù)、平均值或絕對(duì)長(zhǎng)度為約125個(gè)、126個(gè)、127個(gè)、128個(gè)、129個(gè)、130個(gè)、131個(gè)、132個(gè)、133個(gè)、134個(gè)、135個(gè)、136個(gè)、137個(gè)、138個(gè)、139個(gè)、140個(gè)、141個(gè)、142個(gè)、143個(gè)、144個(gè)、145個(gè)、146個(gè)、147個(gè)、148個(gè)、149個(gè)、150個(gè)、151個(gè)、152個(gè)、153個(gè)、154個(gè)、155個(gè)、156個(gè)、157個(gè)、158個(gè)、159個(gè)、160個(gè)、165個(gè)、166個(gè)、167個(gè)、168個(gè)、169個(gè)、170個(gè)或更多個(gè)核苷酸。

讀段通常是物理核酸中核苷酸序列的表示。例如,在含有序列的ATGC描繪讀段中,在物理核酸中,“A”表示腺嘌呤核苷酸,“T”表示胸腺嘧啶核苷酸,“G”表示鳥嘌呤核苷酸,“C”表示胞嘧啶核苷酸。相對(duì)短的讀段的混合物可以通過本文所述的過程轉(zhuǎn)化成對(duì)象中存在的基因組核酸的表示。例如,相對(duì)較短的讀段的混合物可以被轉(zhuǎn)化為復(fù)制數(shù)變異(例如,復(fù)制數(shù)變異)、遺傳變異或非整倍體的表示。來自多個(gè)對(duì)象的核酸混合物的讀段可以轉(zhuǎn)化為多個(gè)對(duì)象中的每一個(gè)的基因組或其部分的表示。在某些實(shí)施例中,“獲得”來自對(duì)象的樣本的核酸序列讀段和/或“獲得”來自一個(gè)或多個(gè)參考者的生物標(biāo)本的核酸序列讀段可以涉及對(duì)核酸直接測(cè)序以獲得序列信息。在一些實(shí)施例中,“獲得”可以涉及接收由他人從核酸直接獲得的序列信息。

映射讀段

序列讀段可以被映射。在一些實(shí)施例中,可以使用合適的映射方法、過程或算法。在某些實(shí)施例中,在本文中使用修改的映射方法和過程。下面描述了映射過程的某些方面。

映射核苷酸序列讀段(例如,來自其物理基因組位置未知的片段的序列信息)可以以多種方式進(jìn)行,并且通常包括將獲得的序列讀段或其部分與參考基因組中的匹配序列比對(duì)。在這種比對(duì)中,序列讀段通常比對(duì)到參考序列,比對(duì)的序列讀段被命名為“映射的”、“映射的序列讀段”或“映射的讀段”。

如本文中所用,術(shù)語“比對(duì)的”、“比對(duì)”或“比對(duì)中”是指可以被標(biāo)識(shí)為匹配(例如,100%相同)或部分匹配的兩個(gè)或多個(gè)核酸序列。比對(duì)可以手動(dòng)地或通過計(jì)算機(jī)(例如,軟件、程序、計(jì)算機(jī)程序組件或算法)進(jìn)行,其非限制性示例包括作為Illumina基因組分析管道的部分分布的核苷酸數(shù)據(jù)(ELAND)高效局部比對(duì)計(jì)算機(jī)程序。序列讀段的比對(duì)可以是100%的序列匹配。在一些情況下,比對(duì)小于100%的序列匹配(例如,非完美匹配、部分匹配、部分比對(duì))。在某些實(shí)施例中,比對(duì)為約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%或75%的匹配。在一些實(shí)施例中,比對(duì)包括錯(cuò)配。在一些實(shí)施例中,比對(duì)包括1個(gè)、2個(gè)、3個(gè)、4個(gè)、5個(gè)或更多個(gè)錯(cuò)配??梢允褂脙蓚€(gè)鏈中任意一個(gè)來比對(duì)兩個(gè)或多個(gè)序列。在某些實(shí)施例中,核酸序列與另一個(gè)核酸序列的反向互補(bǔ)序列比對(duì)。

可以使用各種計(jì)算方法將序列讀段映射和/或比對(duì)到參考基因組。序列讀段可以由映射組件或包括映射組件(例如,合適的映射和/或比對(duì)程序)的機(jī)器或計(jì)算機(jī)映射,該映射組件通常將讀段映射到參考基因組或其片段。通常通過使用合適的映射和/或比對(duì)程序來將序列讀段和/或雙端讀段映射到參考基因組,程序的非限制性示例包括BWA(Li H.and Durbin R.(2009)Bioinformatics 25,1754–60)、Novoalign[Novocraft(2010)]、Bowtie(Langmead B,et al.,(2009)Genome Biol.10:R25)、SOAP2(Li R,et al.,(2009)Bioinformatics 25,1966–67)、BFAST(Homer N,et al.,(2009)PLoS ONE 4,e7767)、GASSST(Rizk,G.和Lavenier,D.(2010)Bioinformatics 26,2534–2540)、和MPscan(Rivals E.,et al.(2009)Lecture Notes in Computer Science 5724,246–260)等??梢允褂煤线m的短讀段比對(duì)程序來映射和/或比對(duì)序列讀段和/或雙端讀段。短讀段比對(duì)程序的非限制性示例是BarraCUDA、BFAST、BLASTN、BLAST、BLAT、BLITZ、Bowtie(例如,BOWTIE 1、BOWTIE 2)、BWA、CASHX、CUDA-EC、CUSHAW、CUSHAW2、drFAST、FASTA、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP、Geneious Assembler、iSAAC、LAST、MAQ、mrFAST、mrsFAST、MOSAIK、MPscan、Novoalign、NovoalignCS、Novocraft、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、PROBEMATCH、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOCS、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、UGENE、VelociMapper、TimeLogic、XpressAlign、ZOOM等、其變體或其組合。映射組件可以通過本領(lǐng)域公知或本文描述的合適方法對(duì)測(cè)序讀段進(jìn)行映射。在某些實(shí)施例中,需要映射組件或包括映射組件的機(jī)器或計(jì)算機(jī)來提供映射的序列讀段。映射組件通常包括合適的映射和/或比對(duì)程序或算法。

在某些實(shí)施例中,與序列讀段相關(guān)聯(lián)的一個(gè)或多個(gè)序列讀段和/或信息以合適的計(jì)算機(jī)可讀格式存儲(chǔ)在非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上和/或從非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)訪問。存儲(chǔ)在非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的信息有時(shí)被稱為文件或數(shù)據(jù)文件。讀段(例如,單獨(dú)讀段、雙端讀段、讀段配對(duì)物、讀段配對(duì)物對(duì))、所選擇的讀段、讀段的集合或子集和/或與一個(gè)或多個(gè)讀段相關(guān)聯(lián)的信息通常存儲(chǔ)在文件或數(shù)據(jù)文件中。文件通常包括格式。例如,序列讀段有時(shí)以包括關(guān)于一個(gè)或多個(gè)序列讀段的信息的格式存儲(chǔ),這種信息的非限制性示例包括完整的或部分的核酸序列、可映射性、可映射性得分,映射位置、與其他映射或未映射讀段的相對(duì)位置或距離(例如,讀段配對(duì)物之間的估計(jì)距離)、相對(duì)于參考基因組或其他讀段(例如,相對(duì)于讀段配對(duì)物)的定向、讀段配對(duì)物的估計(jì)或精確位置、G/C內(nèi)容等或其組合。“計(jì)算機(jī)可讀格式”通常在本文中被稱為格式。在一些實(shí)施例中,以合適的二進(jìn)制格式、文本格式等或其組合存儲(chǔ)和/或訪問序列讀段。二進(jìn)制格式有時(shí)是BAM格式。文本格式有時(shí)是序列比對(duì)/映射(SAM)格式。二進(jìn)制和/或文本格式的非限制性示例包括BAM、排序的BAM、SAM、SRF、FASTA、FASTQ、Gzip等或其組合。

在某些實(shí)施例中,本文的程序被配置為指示微處理器獲得或獲取一個(gè)或多個(gè)文件(例如,排序的bam文件)。在一些實(shí)施例中,本文的程序被配置為指示微處理器獲得或獲取一個(gè)或多個(gè)FASTQ文件(例如,針對(duì)第一讀段和第二讀段的FASTQ文件)和/或一個(gè)或多個(gè)參考文件(例如,F(xiàn)ASTA或FASTQ文件)。在一些實(shí)施例中,本文中的程序指示微處理器調(diào)用計(jì)算機(jī)程序組件和/或向一個(gè)或多個(gè)計(jì)算機(jī)程序組件(例如,接合體(adapter)修剪器組件、BWA-MEM準(zhǔn)直器、插入尺寸分布組件、samtools等)傳遞數(shù)據(jù)和/或信息(例如,文件)或傳遞來自一個(gè)或多個(gè)計(jì)算機(jī)程序組件的數(shù)據(jù)和/或信息(例如,文件)。在一些實(shí)施例中,程序指示處理器調(diào)用計(jì)算機(jī)程序組件,該計(jì)算機(jī)程序組件創(chuàng)建用于輸入到另一處理步驟的新文件和格式(參見示例1和圖1)。在一些實(shí)施例中,第一格式的序列讀段被壓縮成第二格式,第二格式需要比第一格式少的存儲(chǔ)空間。本文使用的術(shù)語“壓縮”是指數(shù)據(jù)壓縮、源編碼和/或比特率降低的過程,其中計(jì)算機(jī)可讀數(shù)據(jù)文件的大小減小。壓縮組件的非限制性示例包括GZIP和BGZF等或其變體。

在一些實(shí)施例中,讀段可以唯一地或非唯一地映射到參考基因組。如果讀段與參考基因組中的單個(gè)序列比對(duì),則將其視為“唯一映射”。如果讀段與參考基因組中的兩個(gè)或多個(gè)序列比對(duì),則將其視為“非唯一映射”。在一些實(shí)施例中,從進(jìn)一步分析(例如,量化)消除非唯一映射的讀段。在某些實(shí)施例中,可以允許一定程度的錯(cuò)配(0-1)來考慮可能存在于參考基因組和來自被映射的個(gè)體樣本的讀段之間的單核苷酸多態(tài)性。在一些實(shí)施例中,被映射到參考序列的讀段不允許任何程度的錯(cuò)配。

如本文中所用,術(shù)語“參考基因組”可以指可用于參考來自對(duì)象的經(jīng)標(biāo)識(shí)的序列的、任何生物或病毒的、任何特定已知的、經(jīng)測(cè)序或表征(無論是部分地或完全地)的基因組。參考基因組有時(shí)指參考基因組的片段(例如,染色體或其部分,例如參考基因組的一個(gè)或多個(gè)部分)。人類基因組、人類基因組組裝和/或來自任何其他生物體的基因組可用作參考基因組。在國(guó)家生物技術(shù)信息中心www.ncbi.nlm.nih.gov可以找到一個(gè)或多個(gè)人類基因組、人類基因組組裝以及其他生物的基因組?!盎蚪M”是指以核酸序列表達(dá)的、生物或病毒的完整遺傳信息。如本文中所用,參考序列或參考基因組通常是來自個(gè)體或多個(gè)個(gè)體的組裝的或部分組裝的基因組序列。在一些實(shí)施例中,參考基因組是來自一個(gè)或多個(gè)人類個(gè)體的組裝的或部分組裝的基因組序列。在一些實(shí)施例中,參考基因組包括分配給染色體的序列。本文所用的術(shù)語“參考序列”是指一個(gè)或多個(gè)參考樣本的一個(gè)或多個(gè)多核苷酸序列。在一些實(shí)施例中,參考序列包括從參考樣本獲得的序列讀段。在一些實(shí)施例中,參考序列包括序列讀段、讀段的組裝和/或共有DNA序列(例如,序列重疊群)。在一些實(shí)施例中,從基本上不包含遺傳變異(例如,所討論的遺傳變異)的參考對(duì)象獲得參考樣本。在一些實(shí)施例中,從包括已知的遺傳變異的參考對(duì)象獲得參考樣本。本文所用的術(shù)語“參考”可以指參考基因組、參考序列、參考樣本和/或參考對(duì)象。在一些實(shí)施例中,可以在本領(lǐng)域已知的核酸數(shù)據(jù)庫(kù)中找到序列讀段和/或?qū)⑿蛄凶x段與本領(lǐng)域已知的核酸數(shù)據(jù)庫(kù)中的序列比對(duì),本領(lǐng)域已知的核酸數(shù)據(jù)庫(kù)中包括例如GenBank、dbEST、dbSTS、EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室)和DDBJ(日本DNA數(shù)據(jù)庫(kù))。BLAST或類似工具可用于根據(jù)序列數(shù)據(jù)庫(kù)搜索所標(biāo)識(shí)的序列。

在一些實(shí)施例中,針對(duì)基因組區(qū)域(例如,部分、基因組部分)評(píng)估可映射性。可映射性是將核苷酸序列讀段明確地比對(duì)到參考基因組的一部分的能力,通常存在多達(dá)指定數(shù)量的錯(cuò)配,包括例如0個(gè)、1個(gè)、2個(gè)或多個(gè)錯(cuò)配。在一些實(shí)施例中,可映射性被提供作為得分或值,其中得分或值由合適的映射算法或計(jì)算機(jī)映射軟件生成。與包括唯一核苷酸序列的延伸的基因組區(qū)域比對(duì)的高質(zhì)量序列讀段有時(shí)具有高的可映射性值。

根據(jù)參考基因組,雙端讀段有時(shí)被映射到相同多核苷酸片段的相對(duì)端。在一些實(shí)施例中,僅讀段配對(duì)物對(duì)的一個(gè)讀段被映射到參考基因組。在一些實(shí)施例中,讀段配對(duì)物對(duì)的讀段配對(duì)物被獨(dú)立映射。在一些實(shí)施例中,在映射過程中考慮來自讀段配對(duì)物對(duì)的所有讀段配對(duì)物的信息(例如,定向、估計(jì)插入尺寸、讀段之間的估計(jì)距離)。參考基因組通常用于確定和/或推斷位于讀段配對(duì)物對(duì)之間的核酸序列。位于兩個(gè)雙端讀段之間的核酸在本文中通常被稱為插入。在一些實(shí)施例中,通過將讀段配對(duì)物對(duì)的所有讀段配對(duì)物映射到參考序列來確定或估計(jì)插入尺寸。在一些實(shí)施例中,根據(jù)分布來估計(jì)或確定插入尺寸(例如,長(zhǎng)度)。在某些實(shí)施例中,從插入尺寸分布確定包括可行插入的插入尺寸的概率。在一些實(shí)施例中,由合適的分布和/或合適的分布函數(shù)確定插入尺寸。在一些實(shí)施例中,由通常包括分布函數(shù)的插入尺寸分布組件來確定插入尺寸或估計(jì)的插入尺寸。分布函數(shù)的非限制性示例包括概率函數(shù)、概率分布函數(shù)、概率密度函數(shù)(PDF)、核密度函數(shù)(核密度估計(jì))、累積分布函數(shù)、概率質(zhì)量函數(shù)、離散概率分布、絕對(duì)連續(xù)單變量分布等任何合適的分布或其組合。有時(shí)由平均的、歸一化的和/或加權(quán)的插入長(zhǎng)度生成插入尺寸。有時(shí)根據(jù)估計(jì)的和/或已知的從被測(cè)序的核酸文庫(kù)的片段衍生的核酸片段長(zhǎng)度來估計(jì)插入尺寸分布。在一些實(shí)施例中,合適的存儲(chǔ)介質(zhì)包括存儲(chǔ)的估計(jì)插入長(zhǎng)度、插入長(zhǎng)度分布等。在某些實(shí)施例中,序列讀段包括插入尺寸分布、估計(jì)插入長(zhǎng)度、讀段配對(duì)物之間的估計(jì)距離等,或其組合。

讀段募集

在一些實(shí)施例中,本文的方法、過程或系統(tǒng)包括讀段募集過程。讀段募集過程通常由讀段募集組件進(jìn)行。在某些實(shí)施例中,讀段募集過程包括獲得和/或選擇如本文所述的序列讀段。在一些實(shí)施例中,讀段募集過程包括從多個(gè)讀段中獲取和/或選擇讀段子集的方法。

在一些實(shí)施例中,讀段配對(duì)物對(duì)(例如,從雙端測(cè)序方法獲得)的一個(gè)讀取配對(duì)物映射到參考基因組,并且讀段配對(duì)物對(duì)的另一個(gè)讀段配對(duì)物被錯(cuò)誤地映射到參考基因組、不能映射到參考基因組或包括低的可映射性得分。這樣的讀段配對(duì)物對(duì)有時(shí)被稱為不一致的讀段配對(duì)物對(duì)。在一些實(shí)施例中,不一致的讀段配對(duì)物對(duì)包括映射到感興趣的參考基因組的區(qū)域(例如,感興趣的基因組區(qū)域)的一個(gè)讀段配對(duì)物,而另一個(gè)讀段配對(duì)物不能映射到感興趣的參考基因組的一部分。在一些實(shí)施例中,不一致的讀段配對(duì)物對(duì)包括映射到感興趣的參考基因組的一部分(例如,感興趣的基因組區(qū)域的一部分)的第一讀段配對(duì)物和映射到參考基因組的不期望位置的第二讀段配對(duì)物。參考基因組的不期望位置的非限制性示例包括(i)與第一讀段映射的染色體不同的染色體,(ii)與第一讀段配對(duì)物分離超過預(yù)定距離的基因組位置,預(yù)定距離的非限制性示例包括從估計(jì)的插入尺寸預(yù)測(cè)的距離;超過300bp、超過500bp、超過1000bp、超過5000bp、或超過10000bp的距離,以及(iii)與第一讀段不一致的定向(例如,相反定向)等或其組合。在一些實(shí)施例中,不一致的讀段配對(duì)物對(duì)包括映射到參考基因組或其部分的第一片段的第一讀段配對(duì)物,以及不可映射的和/或包括低可映射性(例如,低可映射性得分)的第二讀段配對(duì)物。在一些實(shí)施例中,不一致的讀段配對(duì)物對(duì)包括映射到參考基因組或其一部分的第一片段的第一讀段配對(duì)物,以及第二讀段配對(duì)物,其中第二讀段配對(duì)物或其部分的可映射性未被確定。可以通過合適的不一致讀段標(biāo)識(shí)組件或包括不一致讀段標(biāo)識(shí)組件的機(jī)器標(biāo)識(shí)不一致的讀段配對(duì)物對(duì),該不一致讀段標(biāo)識(shí)組件通常標(biāo)識(shí)不一致的讀段配對(duì)物對(duì)。不一致讀段標(biāo)識(shí)組件的非限制性示例包括SVDetect、Lumpy、BreakDancer、BreakDancerMax、CREST、DELLY等或其組合。在一些實(shí)施例中,不一致讀段配對(duì)物對(duì)不被算法或組件標(biāo)識(shí)。在某些實(shí)施例中,通過標(biāo)識(shí)雙端讀段配對(duì)物的算法來標(biāo)識(shí)不一致讀段對(duì),其中讀段配對(duì)物對(duì)的一個(gè)讀段配對(duì)物映射到參考基因組,并且讀段配對(duì)物對(duì)的另一個(gè)讀段配對(duì)物被錯(cuò)誤地映射到參考基因組、不能映射到參考基因組或包括低可映射性得分。

在一些實(shí)施例中,讀段募集過程(例如,從多個(gè)讀段中)選擇和/或獲得映射到感興趣的基因組區(qū)域中的參考基因組的所有雙端讀段。在一些實(shí)施例中,獲得和/或使用感興趣的基因組區(qū)域中的所有雙端讀段用于本文中的分析,其中每個(gè)讀段配對(duì)物對(duì)中的至少一個(gè)完全或部分地映射到參考基因組。在一些實(shí)施例中,獲得和/或使用所有雙端讀段用于本文中的分析,其中每個(gè)讀段配對(duì)物對(duì)中的至少一個(gè)完全或部分地映射到感興趣的基因組區(qū)域的參考基因組。在一些實(shí)施例中,獲得和/或使用所有不一致的讀段配對(duì)物對(duì)用于本文中的分析,其中每個(gè)不一致的讀段配對(duì)物對(duì)的讀段中的至少一個(gè)映射到感興趣的基因組區(qū)域中的參考基因組。

在一些實(shí)施例中,本文的方法或系統(tǒng)包括獲得包含多個(gè)讀段配對(duì)物對(duì)的雙端序列讀段的集合。在一些實(shí)施例中,本文的方法或系統(tǒng)包括獲得由多個(gè)讀段配對(duì)物對(duì)組成的雙端序列讀段的集合。在某些實(shí)施例中,從雙端測(cè)序方法獲得讀段配對(duì)物對(duì)的測(cè)序讀段的每個(gè)對(duì)。在某些實(shí)施例中,讀段配對(duì)物對(duì)的測(cè)序讀段的每個(gè)對(duì)由兩個(gè)讀段配對(duì)物組成。讀段配對(duì)物通常是測(cè)序讀段。在一些實(shí)施例中,本文的方法或系統(tǒng)包括獲得包含多個(gè)讀段配對(duì)物對(duì)的雙端序列讀段的集合,其中每個(gè)對(duì)的讀段配對(duì)物中的至少一個(gè)或其部分被映射到參考基因組的至少一部分,參考基因組包括預(yù)先選擇的感興趣的基因組區(qū)域,并且其中雙端序列讀段中的一些未被映射到包括預(yù)先選擇的感興趣的基因組區(qū)域的參考基因組的至少一部分。

在一些實(shí)施例中,本文中的方法和系統(tǒng)通過募集從雙端序列讀段獲得的讀段配對(duì)物對(duì)的所有讀段配對(duì)物來繞過包括擴(kuò)充的STR、序列結(jié)點(diǎn)和大的復(fù)雜變異的區(qū)域中的讀段映射問題,其中讀段配對(duì)物對(duì)的第一讀段映射到感興趣的基因組區(qū)域,而不管讀段配對(duì)物對(duì)的第二讀段的可映射性。在某些實(shí)施例中,本文中的方法和系統(tǒng)利用映射的讀段配對(duì)物的位置、讀段配對(duì)物對(duì)的所有讀段配對(duì)物的定向和/或讀段配對(duì)物之間的估計(jì)距離(例如,估計(jì)的插入尺寸)來組裝從可能包括遺傳變異的對(duì)象獲得的基因組核酸的區(qū)域。

在某些實(shí)施例中,本文中的方法和系統(tǒng)使用讀段被映射到的、一個(gè)感興趣的基因組區(qū)域。在某些實(shí)施例中,本文的方法和系統(tǒng)使用兩個(gè)感興趣的基因組區(qū)域(其可能已經(jīng)使用分裂讀段信號(hào)或不一致的配對(duì)物信號(hào)來標(biāo)識(shí))以募集和/或獲取位于遺傳變異處或接近遺傳變異處的讀段,遺傳變異包括轉(zhuǎn)運(yùn)和/或結(jié)點(diǎn)。在一些實(shí)施例中,感興趣的基因組區(qū)域被預(yù)先選擇(例如,在獲得讀段之前、在募集讀段之前、在分析、映射和/或組裝讀段之前)。感興趣的基因組區(qū)域可以是基因組的任何合適的部分。感興趣的基因組區(qū)域可以包括一個(gè)或多個(gè)染色體、基因、外顯子、內(nèi)含子、非編譯區(qū)(例如,調(diào)節(jié)區(qū)、啟動(dòng)子/增強(qiáng)子區(qū))、甲基化區(qū)、非甲基化區(qū)或其部分。在一些實(shí)施例中,感興趣的基因組區(qū)域包括懷疑具有遺傳變異的區(qū)域或可能含有已知遺傳變異(例如,先前在另一對(duì)象或亞群體中標(biāo)識(shí)的遺傳變異)的區(qū)域。在一些實(shí)施例中,感興趣的基因組區(qū)域包括遺傳變異。在一些實(shí)施例中,感興趣的基因組區(qū)域不包括遺傳變異。

序列讀段(例如,讀段配對(duì)物)通常包括已知的定向。例如,存儲(chǔ)介質(zhì)通常包括包含讀段配對(duì)物的已知定向的文件。在一些實(shí)施例中,讀段配對(duì)物的定向和/或估計(jì)的插入尺寸被用于確定在堆積、重疊群和/或超重疊群內(nèi)的映射的、未映射的、不良映射或不一致讀段配對(duì)物的位置。

在一些實(shí)施例中,序列讀段被修剪。在某些實(shí)施例中,修剪是指從序列讀段中標(biāo)識(shí)和/或移除合成和/或異源核酸或核酸的部分,該合成和/或異源核酸用于構(gòu)建文庫(kù)和/或用于測(cè)序方法。異源核酸通常是異源的或?qū)ο蠡蚪M外的。通常被修剪的合成和/或異源核酸的非限制性示例包括接合體、質(zhì)粒、載體、引物結(jié)合位點(diǎn)、索引標(biāo)簽(例如,核酸條形碼序列)、核酸捕獲序列等或其組合。在一些實(shí)施例中,修剪包括指示處理器刪除和/或忽略測(cè)序讀段的合成和/或異源的那些部分。合成核酸、異源核酸和/或修剪的核酸通常不包括在本文的方法或過程中。在一些實(shí)施例中,在獲得雙端序列讀段的集合之前或期間修剪序列讀段。在一些實(shí)施例中,在確定堆積關(guān)系、過濾、構(gòu)建一個(gè)或多個(gè)重疊群、組裝一個(gè)或多個(gè)超重疊群和/或生成基因型似然比之前或期間修剪序列讀段。在某些實(shí)施例中,修剪由修剪器組件執(zhí)行。

堆積關(guān)系

在一些實(shí)施例中,本文的方法或過程包括確定用于序列讀段的集合或子集的堆積關(guān)系。在一些實(shí)施例中,堆積關(guān)系包括集合中的多個(gè)讀段之間的一個(gè)或多個(gè)重疊(例如,多個(gè)重疊),其中一些讀段映射到感興趣的參考基因組的區(qū)域。在一些實(shí)施例中,堆積關(guān)系包括構(gòu)建平鋪圖。在一些實(shí)施例中,堆積關(guān)系包括雙端序列讀段的集合中的所有讀段。在一些實(shí)施例中,堆積關(guān)系包括雙端序列讀段的集合中的選擇的讀段。在一些實(shí)施例中,重疊包括兩個(gè)或多個(gè)讀段的比對(duì)。在一些實(shí)施例中,重疊包括比對(duì)得分。在某些實(shí)施例中,根據(jù)k-mer哈希策略來確定重疊。

在一些實(shí)施例中,堆積關(guān)系包括多個(gè)重疊。在某些實(shí)施例中,堆積關(guān)系包括被選擇和/或存儲(chǔ)(例如,存儲(chǔ)到存儲(chǔ)器中)的一個(gè)或多個(gè)重疊。有時(shí)確定堆積關(guān)系包括確定和/或評(píng)估多個(gè)讀段之間的所有可能的重疊。在某些實(shí)施例中,僅選擇和/或存儲(chǔ)所有可能的重疊中的一些重疊。在某些實(shí)施例中,所選擇的所有重疊被存儲(chǔ)并用于堆積關(guān)系。

用于堆積關(guān)系的重疊通常符合一個(gè)或多個(gè)標(biāo)準(zhǔn)。例如,在一些實(shí)施例中,第一標(biāo)準(zhǔn)包括高于比對(duì)閾值得分的、第一讀段和第二讀段之間的重疊。在一些實(shí)施例中,在集合的第一讀段包括與集合的第二讀段的重疊并且重疊包括高于預(yù)定比對(duì)得分閾值或截點(diǎn)的比對(duì)得分的情況下,選擇和/或存儲(chǔ)重疊。在一些實(shí)施例中,在集合的第一讀段包括與集合的一個(gè)、兩個(gè)、三個(gè)或多個(gè)其他讀段的重疊并且重疊包括高于預(yù)定比對(duì)得分閾值的比對(duì)得分的情況下,選擇和/或存儲(chǔ)重疊。在一些實(shí)施例中,在集合的第一讀段包括與集合的一個(gè)、兩個(gè)、三個(gè)或多個(gè)其他讀段的重疊、每個(gè)重疊包括高于預(yù)定比對(duì)得分閾值的比對(duì)得分、并且每個(gè)重疊包括相同的比對(duì)得分的情況下選擇和/或存儲(chǔ)重疊??梢酝ㄟ^任何合適的方法或算法來確定比對(duì)得分,合適的方法或算法的非限制性示例包括Smith和Waterman的方法(Smith TF,Waterman MS.,(1981)J.Theor.Biol.91(2):379-80;和Smith TF,Waterman MS.,(1981)J.Mol.Biol.147(1):195-7)以及Needleman的方法(Needleman,S.B.and Wunsch,C.D.(1970)J.Mol.Biol.48(3):443-53)。例如,在一些實(shí)施例中,使用具有比對(duì)得分截點(diǎn)為500的Smith-Waterman算法,其中匹配得分為10,并且錯(cuò)配懲罰為-500。在某些實(shí)施例中,在讀段-讀段比對(duì)中禁止和/或排除插入和缺失(in/del)。在一些實(shí)施例中,用于引發(fā)或擴(kuò)展插入或缺失的懲罰被設(shè)置為足夠高,以排除全部或大部分in/del。在一些實(shí)施例中,不允許間隙。在一些實(shí)施例中,在讀段-讀段的比對(duì)中可以允許或包括一些in/del。

在某些實(shí)施例中,第二標(biāo)準(zhǔn)需要作為所有可能重疊中的最高比對(duì)得分的重疊。在一些實(shí)施例中,被選擇和/或存儲(chǔ)的重疊包括在讀段集合中的第一讀段和任何其他讀段之間的所有可能的重疊(例如,所有可能的比對(duì))的最高比對(duì)得分。有時(shí),被選擇和/或存儲(chǔ)的重疊包括在第一讀段和多個(gè)其他讀段之間確定的多個(gè)重疊(例如,多個(gè)比對(duì))的最高比對(duì)得分。

在一些實(shí)施例中,重疊超過讀段的3’端或5’端擴(kuò)展一個(gè)或多個(gè)核苷酸。在一些實(shí)施例中,第三標(biāo)準(zhǔn)需要重疊超過第一讀段的5’或3’端擴(kuò)展第一讀段。在某些實(shí)施例中,第一讀段包括在5’或3’方向上擴(kuò)展第一讀段并超過第一讀段的端部的重疊。第一讀段和第二讀段之間的、擴(kuò)展第一讀段的重疊通常包括超過第一讀段的3’端或5’端擴(kuò)展第二讀段的一個(gè)或多個(gè)核苷酸。有時(shí),當(dāng)?shù)谝蛔x段和第二讀段重疊、并且重疊超過第一讀段的3’或5’端擴(kuò)展第一讀段時(shí),重疊被選擇或存儲(chǔ)。在一些實(shí)施例中,重疊超過讀段的3’端或5’端擴(kuò)展至少1個(gè)、2個(gè)、3個(gè)、4個(gè)、5個(gè)、6個(gè)、7個(gè)、8個(gè)、9個(gè)、10個(gè)、15個(gè)、20個(gè)、50個(gè)、100個(gè)或至少150個(gè)核苷酸。在某些實(shí)施例中,第一讀段包括與在3’方向上擴(kuò)展第一讀段的第二讀段的第一重疊,并且第一讀段包括與在5’方向上擴(kuò)展第一讀段的第三讀段的第二重疊。在某些實(shí)施例中,堆疊關(guān)系包括第一讀段和第二讀段之間的重疊以及第一讀段和第三讀段之間的重疊,其中重疊在3’和5’方向上擴(kuò)展第一讀段。

在一些實(shí)施例中,堆積關(guān)系包括針對(duì)第一讀段、第二讀段和例如第三讀段的附加選擇的重疊。例如,第一讀段通常包括與第二讀段的第一重疊,其中當(dāng)?shù)诙x段包括與擴(kuò)展第二讀段的第三讀段的重疊時(shí),第一重疊被選擇和/或存儲(chǔ)。在上述示例中,重疊將在相同的3’或5’方向上擴(kuò)展第一讀段和第二讀段。此外,第三讀段可以與或可以不與第一讀段重疊。在一些實(shí)施例中,第一讀段包括具有多個(gè)讀段的多個(gè)重疊,多個(gè)重疊在5’和/或3’方向上擴(kuò)展第一讀段,其中每個(gè)重疊符合標(biāo)準(zhǔn)中的一個(gè)或多個(gè)。在一些實(shí)施例中,第一讀段包括擴(kuò)展超過第一讀段的5’端的至少兩個(gè)重疊以及擴(kuò)展超過第一讀段的3’端的至少兩個(gè)重疊。

在一些實(shí)施例中,堆積關(guān)系包括針對(duì)多個(gè)讀段的多個(gè)被選擇和/或存儲(chǔ)的重疊,其中可以從多個(gè)重疊中選擇每個(gè)重疊。在一些實(shí)施例中,堆積關(guān)系包括針對(duì)讀段的集合的被選擇和/或存儲(chǔ)的多個(gè)重疊,其中每個(gè)重疊滿足以下條件:(i)重疊必須包括第一讀段和第二讀段之間的比對(duì),其中比對(duì)得分高于預(yù)定的比對(duì)得分閾值,(ii)第一讀段和第二讀段之間的重疊必須超過第一讀段的3’端或5’端擴(kuò)展第一讀段,并且(iii)第一讀段和第二讀段之間的重疊包括滿足(i)和(ii)的、在第一讀段和讀段集合中的任何其他讀段之間的所有可能重疊的最高比對(duì)得分。在某些實(shí)施例中,除了上述(i)、(ii)和(iii)之外,第二讀段包括(iv)高于預(yù)定比對(duì)得分閾值的重疊,(v)在相同的3'或5'方向上擴(kuò)展第一讀段和第二讀段并且超過第二讀段的端部的重疊,(vi)是第二讀段和滿足上述(iv)和(v)的任何其他讀段之間的最高比對(duì)得分的重疊。在某些實(shí)施例中,一種方法或過程包括確定堆積關(guān)系,確定堆積關(guān)系包括選擇和/或存儲(chǔ)其中每個(gè)重疊都滿足上述(i)、(ii)和(iii)的集合中的多個(gè)讀段的重疊。在某些實(shí)施例中,集合的每個(gè)讀段包括在5'和/或3'方向上擴(kuò)展讀段的1個(gè)、2個(gè)、3個(gè)、4個(gè)、5個(gè)、6個(gè)、7個(gè)、8個(gè)、9個(gè)、10個(gè)、11個(gè)、12個(gè)、13個(gè)、14個(gè)或15個(gè)或更多個(gè)重疊。堆積關(guān)系通常包括多個(gè)讀段,每個(gè)讀段包括多個(gè)重疊。

在一些實(shí)施例中,重疊包括得分或索引。例如,在某些實(shí)施例中,針對(duì)讀段集合的所有可能的重疊被確定,并且有時(shí)每個(gè)重疊與得分或值相關(guān)聯(lián)。與重疊相關(guān)聯(lián)的得分或值(例如,點(diǎn)值)有時(shí)是從以上的條件(i)、(ii)、(iii)、(iv)和/或(v)中的一個(gè)或多個(gè)確定的和、平均數(shù)或平均值。在一些實(shí)施例中,重疊與比對(duì)得分相關(guān)聯(lián)。在某些實(shí)施例中,重疊被過濾。被過濾的重疊通常從堆積關(guān)系中被移除或刪除。對(duì)于重疊群或超重疊群的de novo組裝,通常不考慮被刪除或過濾的重疊。在一些實(shí)施例中,根據(jù)得分或預(yù)定的截點(diǎn)得分過濾重疊。在一些實(shí)施例中,根據(jù)預(yù)定的比對(duì)得分閾值過濾重疊。在一些實(shí)施例中,不滿足(i)、(ii)、(iii)、(iv)和(v)中的一些或全部的要求的重疊被過濾。過濾算法是已知的,并且可以修改任何合適的過濾器以過濾堆積關(guān)系的重疊。在一些實(shí)施例中,過濾器包括剪枝算法,其遍歷集合中的所有讀段,并維持(例如,根據(jù)(i)、(ii)、(iii)、(iv)和/或(v))被選擇和/或存儲(chǔ)的、針對(duì)每個(gè)讀段的重疊列表。在某些實(shí)施例中,程序指示微處理器針對(duì)讀段的集合過濾多個(gè)重疊。

在某些實(shí)施例中,確定堆積關(guān)系不包括包含糾錯(cuò)的過程。在一些實(shí)施例中,堆積關(guān)系不包括包含插入或缺失的重疊。在一些實(shí)施例中,堆積關(guān)系包括包含一個(gè)或多個(gè)錯(cuò)配的重疊。

重疊群

在一些實(shí)施例中,針對(duì)讀段的集合,組裝和/或構(gòu)建一個(gè)或多個(gè)重疊群。在一些實(shí)施例中,根據(jù)針對(duì)讀段的集合被選擇/或存儲(chǔ)的多個(gè)重疊構(gòu)建一個(gè)或多個(gè)重疊群。在某些實(shí)施例中,根據(jù)包括針對(duì)讀段集合的多個(gè)重疊的堆積關(guān)系構(gòu)建一個(gè)或多個(gè)重疊群。在某些實(shí)施方案中,從一個(gè)或多個(gè)起始讀段構(gòu)建重疊群。在某些實(shí)施例中,從1個(gè)、2個(gè)、3個(gè)、4個(gè)、5個(gè)、6個(gè)、7個(gè)、8個(gè)、9個(gè)或10個(gè)或更多個(gè)起始讀段構(gòu)建一個(gè)或多個(gè)重疊群。起始讀段可以是集合中的任何合適的讀段。有時(shí)起始讀段包括讀段集合的最5’方向的讀段和/或最3’方向的讀段。最5’方向的讀段通常是被映射到感興趣的基因組區(qū)域的最5’方向的區(qū)域的讀段,其中集合的一些或所有序列讀段被映射到該感興趣的基因組區(qū)域。同樣,最3’方向的讀段通常是被映射到感興趣的基因組區(qū)域的最3'方向的區(qū)域的讀段,其中集合的一些或所有序列讀段被映射到該感興趣的基因組區(qū)域。在某些實(shí)施例中,從不是集合中最3’方向或最5’方向的讀段的起始讀段組裝重疊群。

在一些實(shí)施例中,從起始讀段組裝重疊群,并且該過程包括將至少一個(gè)核苷酸迭代地添加到起始讀段的位置3’或5’。起始讀段的位置3’或5’可以是起始讀段的任何合適的核苷酸的位置3’或5’。在一些實(shí)施例中,起始讀段的位置3’或5’是起始讀段的端部(例如,3’端或5’端)的位置3’或5’。在一些實(shí)施例中,起始讀段的位置3’或5’是起始讀段的中值或中間核苷酸的位置3’或5’。通常,向起始讀段的3’或5’位置迭代地添加至少一個(gè)核苷酸的過程包括:首先選擇起始讀段內(nèi)的合適位置(例如,位于合適位置的核苷酸);根據(jù)堆積關(guān)系確定針對(duì)所選擇的位置的多數(shù)共有核苷酸(例如,參見下文確定多數(shù)共有核苷酸);以及將一個(gè)或多個(gè)核苷酸迭代地添加到根據(jù)堆積關(guān)系確定的多數(shù)共有核苷酸的3’和/或5’位置,從而啟動(dòng)了重疊群的組裝。在某些實(shí)施例中,起始讀段是開始重疊群組裝過程的第一讀段,并且募集的讀段的堆積關(guān)系確定了起始讀段的每個(gè)核苷酸位置的多數(shù)共有核苷酸。例如,在某些實(shí)施例中,通過與用于組裝重疊群或超重疊群的過程類似的過程重新組裝起始讀段。

在一些實(shí)施例中,從起始讀段組裝重疊群,并且該方法包括將至少一個(gè)核苷酸迭代地添加中間重疊群的位置3'或5'。在一些實(shí)施例中,中間重疊群包括起始讀段(例如,起始讀取的至少一些核苷酸)和添加到起始讀段的3’和/或5’側(cè)的一個(gè)或多個(gè)核苷酸。在一些實(shí)施例中,中間重疊群包括起始讀段的部分或全部核苷酸。起始讀段或中間重疊群的位置3’或5’通常是緊鄰并超過起始讀段或中間重疊群的in silico組裝核酸序列中的3’或5’端的核苷酸位置。在一些實(shí)施例中,位于緊鄰并超過起始讀段或中間重疊群的3’或5’端的核苷酸位置,在尚未添加多數(shù)共有核苷酸的情況下(例如,在in silico重疊群組裝過程期間尚未添加),在本文中被稱為前進(jìn)位置(例如,參見圖4)。在一些實(shí)施例中,起始讀段的位置3’或5’,在起始讀段的位置3’或5’(例如,起始讀段內(nèi)的核苷酸的3'或5')尚未被多數(shù)共有核苷酸填充的情況下,被稱為前進(jìn)位置。在某些實(shí)施例中,中間重疊群包括起始讀段和添加到起始讀段的3’或5’位置的一個(gè)或多個(gè)核苷酸。核苷酸通常被添加到起始讀段或中間重疊群的位置3’或5’,其中該位置(例如,前進(jìn)位置)包括多數(shù)共有核苷酸。

在某些實(shí)施例中,根據(jù)多個(gè)重疊或比對(duì)來確定多數(shù)共有核苷酸,根據(jù)堆積關(guān)系確定多個(gè)重疊或比對(duì)。有時(shí),根據(jù)被選擇和/或存儲(chǔ)的重疊來將一個(gè)或多個(gè)核酸讀段與起始讀段、中間重疊群或其部分比對(duì)。在某些實(shí)施例中,被選擇和/或存儲(chǔ)的重疊(例如,重疊的讀段)被募集到包括起始讀段或中間重疊群的比對(duì),其中讀段或重疊的一些或全部包括與前進(jìn)位置重疊或比對(duì)的核苷酸。在某些實(shí)施例中,根據(jù)與前進(jìn)位置重疊或比對(duì)的核苷酸確定多數(shù)共有核苷酸。在一些實(shí)施例中,多數(shù)共有核苷酸是位于前進(jìn)位置處或與前進(jìn)位置比對(duì)的核苷酸(例如,A、T、C、G或U),其中重疊的讀段中的至少3個(gè)、至少4個(gè)、至少5個(gè)、至少6個(gè)、至少7個(gè)、至少8個(gè)、至少9個(gè)、至少10個(gè)、至少15個(gè)、至少20個(gè)、至少30個(gè)、至少50個(gè)、至少100個(gè)或至少200個(gè)包括前進(jìn)位置處的相同的核苷酸(例如A、T、G、C或U)。在一些實(shí)施例中,多數(shù)共有核苷酸是位于前進(jìn)位置處或與前進(jìn)位置比對(duì)的核苷酸(例如,A、T、C、G或U),其中重疊讀段的至少5%、至少6%、至少7%、至少8%、至少9%、至少10%、至少15%、至少20%、至少25%、至少30%、或至少50%包括前進(jìn)位置處的相同的核苷酸(例如A、T、G、C或U)。

在重疊群組裝的某些實(shí)施例中,前進(jìn)位置包括單個(gè)多數(shù)共有核苷酸,多數(shù)共有核苷酸被添加到起始讀段或中間重疊群的3’或5’位置,并且針對(duì)前進(jìn)位置重復(fù)in silico過程。在一些實(shí)施例中,前進(jìn)位置包括多態(tài)堿基位置,例如其中多于一個(gè)多數(shù)共有核苷酸存在于前進(jìn)位置(例如,多態(tài)堿基位置)。在針對(duì)多態(tài)堿基位置標(biāo)識(shí)兩個(gè)多數(shù)共有核苷酸的情況下,通常由產(chǎn)生兩個(gè)相同的中間重疊群拷貝的中間重疊群進(jìn)行復(fù)制。在這種情況下,被標(biāo)識(shí)的兩個(gè)多數(shù)共有核苷酸中的一個(gè)被添加到兩個(gè)拷貝中的一個(gè)的前進(jìn)位置,而被標(biāo)識(shí)的另一個(gè)多數(shù)共有核苷酸被添加到另一拷貝的前進(jìn)位置。這個(gè)過程有時(shí)被稱為分裂或分裂重疊群。在某些實(shí)施例中,本文的系統(tǒng)、方法、過程或算法包括分裂一個(gè)或多個(gè)重疊群的方法。在一些實(shí)施例中,計(jì)算機(jī)程序組件(即,組件)向微處理器提供分裂一個(gè)或多個(gè)重疊群的指令。

在其中針對(duì)前進(jìn)位置(例如,多態(tài)堿基位置),三個(gè)多數(shù)共有核苷酸被標(biāo)識(shí)的某些實(shí)施例中,生成中間重疊群的兩個(gè)拷貝,從而產(chǎn)生3個(gè)相同的重疊群,并且三個(gè)多數(shù)共有核苷酸中的每一個(gè)中的一個(gè)被添加到三個(gè)相同的重疊群中的每一個(gè)的前進(jìn)位置。在這種情況下,不同的核苷酸被添加到三個(gè)相同的重疊群中的每一個(gè)。換言之,重疊群被分裂為三個(gè)重疊群。同樣地,在針對(duì)前進(jìn)位置(例如,多態(tài)堿基位置)標(biāo)識(shí)四個(gè)多數(shù)共有核苷酸的情況下,通常生成中間重疊群的三個(gè)拷貝,從而產(chǎn)生4個(gè)相同的重疊群,并且四個(gè)多數(shù)共有核苷酸中的每一個(gè)中的一個(gè)被添加到四個(gè)相同的重疊群中的每一個(gè)的前進(jìn)位置。換言之,重疊群被分裂為四個(gè)重疊群。在某些實(shí)施例中,中間重疊群包括分裂重疊群(例如,由將重疊群分裂導(dǎo)致的重疊群)。

在某些實(shí)施例中,在組裝重疊群的過程期間,重疊群或中間重疊群被分裂多次。例如,在重疊群或中間重疊群的組裝期間,可遇到第一多態(tài)堿基位置和第二多態(tài)堿基位置,其中第一多態(tài)位置導(dǎo)致重疊群的第一分裂,而第二多態(tài)堿基位置可導(dǎo)致重疊群的第二分裂。例如,中間重疊群可以分裂1次或多次、5次或多次、或50次或多次。在某些實(shí)施例中,中間重疊群被分裂1至500次、1至100次、1至50次、1至25次或1至10次。在某些實(shí)施例中,中間重疊群不分裂。在某些實(shí)施例中,在由第一分裂產(chǎn)生的中間重疊群(例如,由遇到第一多態(tài)堿基位置的先前分裂產(chǎn)生的中間重疊群)的組裝期間,遇到第二多態(tài)堿基位置。在這種情況下,中間重疊群可以被再次分裂,或者重疊群可以不被分裂。如果重疊群先前在某個(gè)位置被分裂(例如,第一多態(tài)位置),則分裂過程確定讀段對(duì)或讀段對(duì)的集合是否與第一多態(tài)位置和當(dāng)前遇到的第二個(gè)多態(tài)位置(例如,其中兩個(gè)或多個(gè)多數(shù)共有核苷酸比對(duì)的前進(jìn)位置)重疊。在某些實(shí)施例中,如果存在這樣的重疊讀段對(duì)的集合,并且讀段對(duì)的集合包括(i)在第一多態(tài)位置中添加的第一多態(tài)堿基和(ii)第二多態(tài)堿基位置處的單個(gè)多數(shù)共有核苷酸(例如,相同核苷酸),則針對(duì)第二多態(tài)堿基位置的多數(shù)共有核苷酸在前進(jìn)位置處被添加到中間重疊群鏈,并且重疊群不被分裂。此外,滿足條件(i)和(ii)的上述讀段的集合不用于分裂任何其他重疊群,也不用于組裝另一個(gè)重疊群。在某些實(shí)施例中,如果存在這樣的重疊的讀段對(duì)的集合,并且讀段對(duì)的集合包括(i)在第一多態(tài)位置中添加的第一多態(tài)堿基和(iii)第二多態(tài)堿基位置處的兩個(gè)或多個(gè)多數(shù)共有核苷酸,那么中間重疊體再次被分裂。在某些實(shí)施例中,不滿足條件(i)但是為第二多態(tài)位置提供多數(shù)共有核苷酸的重疊的讀段對(duì)的集合不被用于分裂上述示例中的中間重疊群,并且這樣的讀段對(duì)被排除在以上示例中的組裝中間重疊群之外。這樣的設(shè)計(jì)背后的理由是防止多態(tài)堿基處的分裂,其中包括該多態(tài)堿基的單倍型已經(jīng)被包含在另一重疊群的組裝中。在上述示例中,如果滿足條件(i),并且與第一多態(tài)堿基位置重疊的讀段集合包括針對(duì)第二多態(tài)堿基位置的兩個(gè)或多個(gè)多數(shù)共有核苷酸,則在某些實(shí)施例中,重疊群將被相應(yīng)地分裂。類似地,在某些實(shí)施例中,如果不滿足條件(i),則重疊群將被分裂。在示例1中描述針對(duì)分裂的其他細(xì)節(jié)。

在某些實(shí)施例中,通過復(fù)制已經(jīng)在重疊群中產(chǎn)生的分裂來檢測(cè)圖形循環(huán)。在某些實(shí)施例中,如果檢測(cè)到重復(fù)分裂,則重疊群被標(biāo)記為“壞”,并且終止“壞”重疊群的組裝。在某些實(shí)施例中,標(biāo)記為“壞”的重疊群不用于超重疊群構(gòu)建。

在某些實(shí)施例中,讀段集合中的讀段僅被使用一次來構(gòu)建重疊群。在某些實(shí)施例中,包括被并入重疊群的前進(jìn)位置中的多數(shù)共有核苷酸的讀段不用于向另一個(gè)重疊群添加附加的核苷酸。在某些實(shí)施例中,在重疊群被復(fù)制的情況下,由于存在兩個(gè)或多個(gè)多數(shù)共有核苷酸,讀段將僅被用于繼續(xù)構(gòu)建重疊群拷貝中的一個(gè)。在某些實(shí)施例中,讀段可以在不同的重疊群中被重新使用。

在某些實(shí)施例中,如果遇到已經(jīng)遇到過并在某些其他重疊群中分裂的多態(tài)位置,則該重疊群中的重疊群分裂不被執(zhí)行,而是僅在該重疊群中稱為“重復(fù)”分裂。在這樣的實(shí)施例中,重復(fù)分裂包含共有堿基的同一集合以及在讀段的同一位置處支撐他們的讀段的同一集合。在這樣的實(shí)施例中,一旦所有重疊群被組裝,則通過添加共有序列(來自具有“復(fù)制”分裂的重疊群和來自“復(fù)制分裂”位置后的重疊群所分裂的其他重疊群)的所有可能端來重新引入這些被跳過的分裂。在某些實(shí)施例中,假設(shè)一旦在重疊群建立過程期間遇到以相同方式堆積的讀段的同一集合,則該位置之后的共有序列將是相同的,因?yàn)檫@些讀段將在之后募集相同的讀段集合。在某些實(shí)施例中,這種“重復(fù)”分裂檢測(cè)不應(yīng)該改變組裝的重疊群,而只是加速重疊群組裝計(jì)算過程。

在某些實(shí)施例中,如果分裂的重疊群不能募集任何新的讀段來擴(kuò)展重疊群,而由該分裂位置產(chǎn)生的其他重疊群中的一些可以募集新的讀段,則將該重疊群標(biāo)記為“死胡同”。這些重疊群通常是跟隨由于系統(tǒng)測(cè)序錯(cuò)誤而不是真正的多態(tài)性而導(dǎo)致的共有堿基的結(jié)果。在某些實(shí)施例中,這些“死胡同”重疊群被丟棄。

在某些實(shí)施例中,從小于預(yù)定數(shù)量的讀段或從包含小于預(yù)定數(shù)量的讀段的堆積關(guān)系組裝的重疊群被丟棄或移除。在某些實(shí)施例中,預(yù)定數(shù)量的讀段是大約200讀段或更少、100讀段或更少、50讀段或更少、25讀段或更少或10讀段或更少。在某些實(shí)施例中,通過濾波器丟棄、刪除和/或移除從小于預(yù)定數(shù)量的讀段組裝的重疊群。在某些實(shí)施例中,被丟棄、刪除和/或移除的重疊群不用于組裝超重疊群。

超重疊群

在先前步驟中組裝的重疊群可以跨越感興趣的整個(gè)基因組區(qū)域,或者可以例如在覆蓋度下降或者高讀段錯(cuò)誤率(例如,通常系統(tǒng)的錯(cuò)誤)禁止高得分重疊的地方終止。在某些實(shí)施例中,跨越感興趣的整個(gè)基因組區(qū)域的重疊群是超重疊群并且不需要附加的組裝。超重疊群通常跨越感興趣的整個(gè)基因組區(qū)域。沒有跨越感興趣的整個(gè)基因組區(qū)域的重疊群可以被組裝成超重疊群。在某些實(shí)施例中,一個(gè)或多個(gè)超重疊群由兩個(gè)或多個(gè)重疊群組裝。在某些實(shí)施例中,使用讀段配對(duì)物(例如,讀段配對(duì)物對(duì))來將重疊群鏈接在一起以形成超重疊群。例如,在某些實(shí)施例中,兩個(gè)相鄰重疊群之間的覆蓋間隙可以由讀段配對(duì)物對(duì)的讀段配對(duì)物橋接,其中該對(duì)的第一讀段配對(duì)物提供與第一個(gè)重疊群的重疊,并且該對(duì)的第二個(gè)讀段配對(duì)物提供與另一重疊群的重疊。橋接或連接兩個(gè)相鄰重疊群的對(duì)的讀段配對(duì)物可以提供關(guān)于重疊群之間的估計(jì)距離、重疊群的順序和定向的信息。例如,讀段配對(duì)物之間的估計(jì)插入長(zhǎng)度可以提供兩個(gè)橋接重疊群之間的估計(jì)距離。有時(shí),橋接兩個(gè)重疊群的讀段配對(duì)物的定向提供了兩個(gè)橋接的重疊群相對(duì)彼此的定向和順序。在某些實(shí)施例中,根據(jù)多個(gè)讀段配對(duì)物對(duì),第一重疊群被連接到第二重疊群。在某些實(shí)施例中,根據(jù)至少3個(gè)、至少4個(gè)、至少5個(gè)、至少6個(gè)、至少7個(gè)、至少8個(gè)、至少9個(gè)、至少10個(gè)、至少15個(gè)、至少20個(gè)、至少30個(gè)、或至少50個(gè)讀段配對(duì)物對(duì),第一重疊群被連接到第二重疊群。

在某些實(shí)施例中,一旦兩個(gè)重疊群由一個(gè)或多個(gè)讀段配對(duì)物鏈接,則可以募集和/或比對(duì)附加的讀段、重疊(例如,根據(jù)堆積關(guān)系確定的)和/或重疊群,以組裝被橋接的相鄰重疊群之間的插入序列。

在某些實(shí)施例中,超重疊群構(gòu)建涉及構(gòu)建以重疊群作為頂點(diǎn)并以標(biāo)識(shí)的鏈路(例如,鏈接兩個(gè)重疊群的讀段配對(duì)物)作為定向邊緣的圖形。在某些實(shí)施例中,在兩個(gè)相鄰的重疊群被最少數(shù)量的讀段配對(duì)物對(duì)橋接的情況下,定向邊緣被記錄,其中最小數(shù)量的讀段配對(duì)物對(duì)是至少3個(gè)、至少4個(gè)、至少5個(gè)、至少6個(gè)、至少7個(gè)、至少8個(gè)、至少9個(gè)、至少10個(gè)、至少15個(gè)、至少20個(gè)、至少30個(gè)、或至少50個(gè)讀段配對(duì)物對(duì)。在某些實(shí)施例中,橋接兩個(gè)相鄰重疊群所需的讀段配對(duì)物對(duì)的最小數(shù)目為平均重疊群覆蓋度的至少5%、至少6%、至少7%、至少8%、至少9%、至少10%、至少15%、至少20%、至少25%、至少30%、或至少50%。平均重疊群覆蓋度是指跨越重疊群或中間重疊群的每個(gè)核苷酸位置的讀段的平均數(shù)。例如,與重疊群中的每個(gè)核苷酸位置重疊的讀段的數(shù)目通常被計(jì)算為位置覆蓋度,并且在重疊群中的所有位置上的位置覆蓋度的平均值是平均重疊群覆蓋度。在某些實(shí)施例中,橋接兩個(gè)重疊群的讀段配對(duì)物對(duì)共享相同的定向。在某些實(shí)施例中,通過遍歷圖形中所有路徑,同時(shí)避免循環(huán),從具有0入度的所有頂點(diǎn)開始并以具有0出度的頂點(diǎn)結(jié)束(例如,參見圖8),多于兩個(gè)的重疊群被橋接,從而形成超重疊群。在某些實(shí)施例中,未被連接到任何其他重疊群(例如,同時(shí)具有0入度和0出度)的重疊群創(chuàng)建僅具有一個(gè)重疊群的超重疊群。

單體型分析

在某些實(shí)施例中,通過上述過程組裝的超重疊群表示所有可能的序列排列,因此表示所有可能的單體型序列(即,單體型)。在某些實(shí)施例中,根據(jù)預(yù)定的倍性,單體型由識(shí)別系統(tǒng)直接組合,從而產(chǎn)生所有可能的基因型(例如,基因型假設(shè)、基因型似然性或基因型似然比)。在某些實(shí)施例中,所有單體型在被識(shí)別系統(tǒng)處理之前進(jìn)行單體型分析過程。在某些實(shí)施例中,單體型分析過程啟動(dòng)與每個(gè)單體型相關(guān)聯(lián)的對(duì)象(例如,單體型對(duì)象)。單體型對(duì)象可以包括映射權(quán)重、標(biāo)識(shí)的錯(cuò)誤結(jié)點(diǎn)和/或標(biāo)識(shí)的錯(cuò)誤插入。例如,在某些實(shí)施例中,單體型分析過程包括一些或所有讀段到單體型序列(例如,超重疊群)的重新映射。在某些實(shí)施例中,該重新映射包括在示例I的“識(shí)別系統(tǒng)”部分中描述的映射權(quán)重的預(yù)計(jì)算,其中映射權(quán)重與每個(gè)單體型相關(guān)聯(lián)。在某些實(shí)施例中,單體型分析器(haplotyper)過程還執(zhí)行單體型序列中的錯(cuò)誤結(jié)點(diǎn)和錯(cuò)誤插入的標(biāo)識(shí)(參見下文)。單體型分析器過程通常與識(shí)別系統(tǒng)的功能分開進(jìn)行,以允許識(shí)別系統(tǒng)組件在它們被組合成基因型序列假設(shè)前,有機(jī)會(huì)基于單體型分析過程的輸出(例如,單體型對(duì)象,例如映射權(quán)重、錯(cuò)誤結(jié)點(diǎn)和/或錯(cuò)誤插入的標(biāo)識(shí))來過濾單體型。在某些實(shí)施例中,在每個(gè)單體型對(duì)象中列出被標(biāo)識(shí)的錯(cuò)誤結(jié)點(diǎn)和錯(cuò)誤插入,其中必要信息確定其讀段的支持。然后,識(shí)別系統(tǒng)組件可以基于單體型對(duì)象的屬性(例如,錯(cuò)誤插入)使用截點(diǎn)來過濾和/或移除單體型??梢允褂萌魏魏线m的截點(diǎn)。

錯(cuò)誤結(jié)點(diǎn)標(biāo)識(shí)

在某些實(shí)施例中,單體型分析器過程包括標(biāo)識(shí)錯(cuò)誤結(jié)點(diǎn)的方法。在一些實(shí)施例中,錯(cuò)誤結(jié)點(diǎn)由于假陽性比對(duì)而創(chuàng)建。在某些實(shí)施例中,錯(cuò)誤結(jié)點(diǎn)由序列讀段組成,該序列讀段源自由于某些序列相似性而被募集(例如,獲得)并被包括在重疊群組裝中的基因組的不同部分(例如,感興趣的基因組區(qū)域外部的基因組的部分)。這樣的序列相似性有時(shí)允許一些讀段來加入某些序列,然而結(jié)點(diǎn)將被稀疏覆蓋。單體型分析器過程可以標(biāo)識(shí)單體型序列中的位置,其中跨接結(jié)點(diǎn)位置的讀段對(duì)的數(shù)量遠(yuǎn)低于預(yù)期。在某些實(shí)施例中,單體型分析器過程通過計(jì)算一些距離外的讀段配對(duì)物的預(yù)期數(shù)量(例如,從插入尺寸分布估計(jì))并將它們與觀察到的計(jì)數(shù)進(jìn)行比較來找到可能的錯(cuò)誤結(jié)點(diǎn)。低觀察/預(yù)期比的位置可以被標(biāo)記為可能的錯(cuò)誤結(jié)點(diǎn)。在某些實(shí)施例中,統(tǒng)計(jì)擬合的合適估計(jì)(例如,卡方檢驗(yàn))可用于確定觀察-預(yù)期差異的顯著性。在某些實(shí)施例中,針對(duì)錯(cuò)誤結(jié)點(diǎn),通過使用插入尺寸分布的平均值附近的中心或非中心范圍測(cè)試來標(biāo)識(shí)錯(cuò)誤結(jié)點(diǎn)。有時(shí)使用插入尺寸分布平均值附近范圍的-20%和+80%(例如,對(duì)于Illumina讀段對(duì)文庫(kù),當(dāng)前尺寸為50)的間隔來計(jì)算預(yù)期計(jì)數(shù)并用于搜索觀察到的計(jì)數(shù)。在某些實(shí)施例中,單體型分析器過程單獨(dú)地計(jì)算向前讀段和反向讀段(以反方向的)的觀察和預(yù)期計(jì)數(shù),然后找到比率中的局部最小值。單體型分析器過程有時(shí)會(huì)報(bào)告超過規(guī)定比率截點(diǎn)的所有局部最小值。在某些實(shí)施例中,在向前和反向兩個(gè)方向中執(zhí)行搜索可以給出結(jié)點(diǎn)的算法確認(rèn)。

錯(cuò)誤插入標(biāo)識(shí)

在某些實(shí)施例中,單體型分析器過程包括錯(cuò)誤插入檢測(cè)過程。在某些實(shí)施例中,錯(cuò)誤插入是在in silico組裝的超重疊群內(nèi)的外來或錯(cuò)位的核酸序列的不期望插入或錯(cuò)誤插入。在某些實(shí)施例中,錯(cuò)誤插入檢測(cè)過程確定單體型中存在或不存在錯(cuò)誤插入。在某些實(shí)施例中,錯(cuò)誤插入檢測(cè)過程確定在單體型中存在或不存在錯(cuò)誤插入的可能性或概率。在某些實(shí)施例中,錯(cuò)誤插入檢測(cè)過程對(duì)潛在的錯(cuò)誤插入進(jìn)行標(biāo)記、設(shè)置權(quán)重或評(píng)分,并將這些對(duì)象與單體型相關(guān)聯(lián)。在某些實(shí)施例中,可以使用錯(cuò)誤結(jié)點(diǎn)的配對(duì)(例如,如上所述)來標(biāo)識(shí)錯(cuò)誤插入。然而,為了標(biāo)識(shí)錯(cuò)誤插入,專用的錯(cuò)誤插入檢測(cè)過程通常比錯(cuò)誤結(jié)點(diǎn)算法更靈敏和明確。

在某些實(shí)施例中,錯(cuò)誤插入檢測(cè)過程1)標(biāo)識(shí)映射到單體型的讀段配對(duì)物對(duì),其中讀段配對(duì)物之間的距離大于估計(jì)的插入長(zhǎng)度(例如,由插入尺寸分布組件確定),從而定義讀段配對(duì)物之間假定的錯(cuò)誤插入,以及2)確定假定的插入是否僅由完全包含在假定的插入內(nèi)的讀段配對(duì)物對(duì)占據(jù)。占據(jù)假定的插入?yún)^(qū)域的讀段配對(duì)物是對(duì)特定區(qū)域的in silico組裝有貢獻(xiàn)的讀段??梢允褂萌魏魏线m的方法來確定讀段配對(duì)物是否被完全包括在假定的插入內(nèi)。例如,位于假定的插入側(cè)面的讀段配對(duì)物的中點(diǎn)或末端可用于定義假定的插入的開始和結(jié)束。在某些實(shí)施例中,可以使用與位于假定的插入側(cè)面的讀段配對(duì)物重疊(例如,根據(jù)堆積關(guān)系)的讀段的集合的中點(diǎn)或端部來定義假定的插入?yún)^(qū)域。有時(shí)使用方法的組合。例如,錯(cuò)誤插入過程可以首先標(biāo)識(shí)映射到單體型的讀段配對(duì)物對(duì),其中讀段配對(duì)物的中點(diǎn)之間的距離大于估計(jì)的插入長(zhǎng)度(例如,由插入尺寸分布組件確定),從而根據(jù)側(cè)面讀段配對(duì)物的中點(diǎn)的位置來定義假定的插入的開始和結(jié)束。如果算法確定假定的插入僅被完全包含在假定的插入內(nèi)的讀段配對(duì)物對(duì)占據(jù),則在某些實(shí)施例中,算法可以根據(jù)包括該插入的讀段配對(duì)物的邊緣或端部來重新定義假定的插入邊緣。

在某些實(shí)施例中,錯(cuò)誤插入過程針對(duì)假定的插入內(nèi)的每個(gè)堿基位置重新計(jì)算插入純度的測(cè)量。如果在插入內(nèi)存在大部分由插入讀段(完全包含在建議的錯(cuò)誤插入?yún)^(qū)域內(nèi)的讀段對(duì))組成的、并且不被跨插入邊界的讀段(或具有跨插入邊界或在插入邊界外部的配對(duì)物的讀段)污染的位置,則這種插入被識(shí)別為錯(cuò)誤插入??梢允褂萌魏魏线m的方法來計(jì)算對(duì)于假定的插入內(nèi)的堿基位置的插入純度,和/或定義、重新定義和/或確認(rèn)錯(cuò)誤插入?yún)^(qū)域的長(zhǎng)度和/或邊緣。例如,在某些實(shí)施例中,根據(jù)重疊和根據(jù)堆積關(guān)系,由重疊群組裝過程重新計(jì)算每個(gè)堿基位置,其中從組裝過程中排除完全包含在假定的插入內(nèi)的讀段配對(duì)物對(duì)。當(dāng)使用這種方法時(shí),不可以被多數(shù)共有核苷酸占據(jù)的堿基位置被用于定義和報(bào)告錯(cuò)誤插入?yún)^(qū)域??梢允褂萌魏晤愃频倪^程來定義、重新定義和/或確認(rèn)錯(cuò)誤插入?yún)^(qū)域。

在某些實(shí)施例中,單體型分析器過程對(duì)被確定為包含錯(cuò)誤插入的單體型進(jìn)行標(biāo)記、設(shè)置權(quán)重、懲罰或評(píng)分。在某些實(shí)施例中,單體型分析器過程對(duì)被確定不包含錯(cuò)誤插入的單體型進(jìn)行標(biāo)記、設(shè)置權(quán)重或評(píng)分。在某些實(shí)施例中,識(shí)別系統(tǒng)使用單體型分析器過程分配給單體型的對(duì)象來確定單體型是否將被包括在基因型假設(shè)中。

識(shí)別系統(tǒng)和單體型似然比

在某些實(shí)施例中,識(shí)別系統(tǒng)過程組裝基因型并確定基因型似然比。識(shí)別系統(tǒng)組件通常執(zhí)行識(shí)別系統(tǒng)過程。識(shí)別系統(tǒng)(例如,識(shí)別系統(tǒng)組件)可以從超重疊群組裝組件和/或單體型分析器(例如,單體型組件)接收單體型。在某些實(shí)施例中,識(shí)別系統(tǒng)過程將單體型組合,以生成針對(duì)給定倍性的所有可能的基因型。在某些實(shí)施例中,針對(duì)給定倍性的所有可能的基因型由識(shí)別系統(tǒng)組件(例如,“識(shí)別系統(tǒng)”)組裝。在某些實(shí)施例中,針對(duì)給定倍性確定的每個(gè)可能的基因型被稱為基因型假設(shè)。針對(duì)單倍體、二倍體、三倍體對(duì)象或任何倍性的對(duì)象,可以以所有可能的排列組合單體型。例如,對(duì)于二倍體序列假設(shè),任何兩個(gè)單體型的所有可能的配對(duì)(包括由相同單體型的兩個(gè)拷貝組成的純合排列)可由識(shí)別系統(tǒng)組裝,其中的每個(gè)配對(duì)被稱為基因型假設(shè)。

在這種二倍體基因型中,針對(duì)每個(gè)單體型的單體型貢獻(xiàn)為0.5。在某些實(shí)施例中,單體型可以以任何比例組合,導(dǎo)致對(duì)基因型的分?jǐn)?shù)單體型貢獻(xiàn)。這樣的分?jǐn)?shù)基因型可用于基因型嵌合體(mosaic)個(gè)體樣本或可反映正常組織污染和/或腫瘤異質(zhì)性的腫瘤樣品。在某些實(shí)施例中,由識(shí)別系統(tǒng)組裝的每個(gè)基因型各自是基因型假設(shè)。因此,在某些實(shí)施例中,本文的方法和/或過程根據(jù)一個(gè)或多個(gè)單體型生成基因型似然比。在某些實(shí)施例中,本文的方法和/或過程根據(jù)一個(gè)或多個(gè)單體型及其對(duì)基因型的分?jǐn)?shù)貢獻(xiàn)生成基因型似然比。在某些實(shí)施例中,本文的方法和/或過程根據(jù)一個(gè)或多個(gè)基因型假設(shè)生成基因型似然比。因此,在某些實(shí)施例中,識(shí)別系統(tǒng)過程根據(jù)一個(gè)或多個(gè)單體型生成基因型似然比。在某些實(shí)施例中,識(shí)別系統(tǒng)過程根據(jù)一個(gè)或多個(gè)基因型假設(shè)(例如,一個(gè)被選擇的基因型假設(shè))生成基因型似然比。在某些實(shí)施例中,識(shí)別系統(tǒng)過程根據(jù)包括純合參考基因組排列的基因型假設(shè)生成基因型似然比。

在某些實(shí)施例中,例如根據(jù)錯(cuò)誤結(jié)點(diǎn)、錯(cuò)誤插入的存在或不存在和/或通過映射權(quán)重,由識(shí)別系統(tǒng)過程過濾(例如,排除)由識(shí)別系統(tǒng)從單體型分析器獲得的單體型。經(jīng)過濾的單體型通常不被識(shí)別系統(tǒng)用來組裝基因型或確定基因型似然比。在某些實(shí)施例中,單體型不被識(shí)別系統(tǒng)過程過濾。

在某些實(shí)施例中,針對(duì)感興趣的基因組區(qū)域組裝的基因型的數(shù)量表示針對(duì)給定倍性的該區(qū)域的所有可能的單體型序列排列。任何合適數(shù)量的基因型可以被組裝用于感興趣的基因組區(qū)域。有時(shí)多個(gè)基因型被組裝。有時(shí)1個(gè)或多個(gè)基因型被組裝。在某些實(shí)施例中,1至100,000,000個(gè)、1至1,000,000個(gè)、1至100,000個(gè)、1至10,000個(gè)、1至1000個(gè)、1至500個(gè)、1至200個(gè)、1至50個(gè)或1至20個(gè)基因型被組裝以用于感興趣的基因組區(qū)域。在某些實(shí)施例中,至少5個(gè)、至少10個(gè)、至少20個(gè)、至少30個(gè)、至少50個(gè)、至少100個(gè)、至少500個(gè)或至少1000個(gè)基因型被組裝以用于感興趣的基因組區(qū)域。

在一些實(shí)施例中,識(shí)別系統(tǒng)過程根據(jù)一個(gè)或多個(gè)基因型似然比確定感興趣的基因組區(qū)域(例如,針對(duì)對(duì)象)的基因型。在某些實(shí)施例中,識(shí)別系統(tǒng)過程根據(jù)一個(gè)或多個(gè)基因型似然比確定多個(gè)可能的基因型假設(shè)中最可能和/或最可信的基因型。在某些實(shí)施例中,識(shí)別系統(tǒng)過程可以向醫(yī)療保健專業(yè)人員或結(jié)果組件提供基因型假設(shè)的列表,其中列表包括概率、似然性、統(tǒng)計(jì)置信度量、誤差度量、排名等,或其與每個(gè)基因型假設(shè)相關(guān)聯(lián)的組合。在一些實(shí)施例中,識(shí)別系統(tǒng)過程根據(jù)一個(gè)或多個(gè)基因型假設(shè)確定基因型似然比。在一些實(shí)施例中,識(shí)別系統(tǒng)過程根據(jù)一個(gè)或多個(gè)基因型假設(shè)來確定一個(gè)或多個(gè)基因型似然比。

在一些實(shí)施例中,基因似然比根據(jù)等式(1)確定

其中G是預(yù)定倍性的基因型序列,G0是參考序列,{R}是讀段配對(duì)物對(duì)R的集合,NAG是基因型序列G中的等位基因AG的數(shù)量,NAG0是在參考序列G0中等位基因AG0的數(shù)量,以及FAG是基因型序列G中等位基因AG的分?jǐn)?shù),F(xiàn)AG0是參考序列G0中等位基因AG0的分?jǐn)?shù),W是讀段對(duì)映射權(quán)重,α是映射概率常數(shù)。在一些實(shí)施例中,根據(jù)等式(1)的推導(dǎo)或等式(1)的變形來確定基因型似然比。在示例1中進(jìn)一步描述等式(1)中的項(xiàng)及其推導(dǎo)。

在一些實(shí)施例中,對(duì)象的倍性是已知的、預(yù)先確定的或假設(shè)的。在一些實(shí)施例中,本文的方法或過程不確定對(duì)象的倍性。在一些實(shí)施例中,本文的方法或過程可以確定對(duì)象的估計(jì)的倍性,其中估計(jì)的倍性與概率相關(guān)聯(lián)。在一些實(shí)施例中,本文的方法或過程可以確定對(duì)象的估計(jì)的倍性,其中估計(jì)的倍性與最大似然性相關(guān)聯(lián)。在一些實(shí)施例中倍性是二倍體。在一些實(shí)施例中,針對(duì)人類對(duì)象(二倍體)確定基因型概率。例如,對(duì)于二倍體基因組,等位基因FAG和FAG0的分?jǐn)?shù)各自等于0.5的值。

在一些實(shí)施例中,等式(1)的α的值取決于讀段對(duì)(例如,讀段對(duì)的映射或可映射性)。例如,如果讀段對(duì)在重疊群組裝區(qū)域外部或感興趣的基因組區(qū)域外部具有第二映射,則α值較大(例如,與W的值相當(dāng))。在讀段對(duì)的可映射性差的一些實(shí)施例中,α可以對(duì)應(yīng)于W值。在一些實(shí)施例中,對(duì)于不具有第二映射(例如,良好可映射性)的讀段的α的默認(rèn)值可以為約1e-5或更小、約1e-10或更小、1e-20或更小、約1e-25或更小、約1e-30或更小、約1e-40或更小、約1e-50或更小、約1e-60或更小或約1e-70或更小。在一些實(shí)施例中,對(duì)于不具有第二映射(例如,良好可映射性)的讀段的α的默認(rèn)值為約1e-50或更少。在示例1中提供關(guān)于α和W的附加細(xì)節(jié)。

在一些實(shí)施例中,生成基因型似然比包括將獲得的或募集的一些或所有讀段重新比對(duì)和/或映射。在一些實(shí)施例中,讀段被識(shí)別系統(tǒng)組件(例如,“識(shí)別系統(tǒng)”)重新比對(duì)和/或映射到參考(例如,參考單體型或參考基因型假設(shè))。在一些實(shí)施例中,讀段被單體型組件重新比對(duì)和/或映射到參考(例如,參考單體型或參考基因型假設(shè))。在一些實(shí)施例中,生成基因型似然比包括將所有讀段重新對(duì)準(zhǔn)和/或映射到參考基因組。在一些實(shí)施例中,生成基因型似然比包括將所有讀段重新比對(duì)和/或映射到一個(gè)或多個(gè)單體型。在一些實(shí)施例中,生成基因型似然比包括將所有讀段重新比對(duì)和/或映射到一個(gè)或多個(gè)單體型。在一些實(shí)施例中,生成基因型似然比包括將所有讀段重新比對(duì)和/或映射到被指定為參考的一個(gè)或多個(gè)單體型(例如,基因型假設(shè))。任何合適的單體型或基因型假設(shè)都可以作為參考。

在一些實(shí)施例中,根據(jù)等式(1)確定多個(gè)基因型似然比。在一些實(shí)施例中,針對(duì)多個(gè)基因型假設(shè)(例如,可能的基因型)確定基因型似然比。在一些實(shí)施例中,根據(jù)一個(gè)或多個(gè)單體型或跨越感興趣的基因組的整個(gè)長(zhǎng)度的單體型對(duì),針對(duì)多種基因型假設(shè)(例如,可能的基因型)確定基因型似然比。在某些實(shí)施例中,每個(gè)基因型假設(shè)與概率(例如,通過其總和歸一化的基因型似然比)相關(guān)聯(lián)。

在一些實(shí)施例中,根據(jù)基因型似然比確定對(duì)象中遺傳變異的存在或不存在。在某些實(shí)施例中,包括所有可能基因型中針對(duì)感興趣的基因組區(qū)域的最高概率(例如,最高基因型似然比)的基因型假設(shè)是針對(duì)給定感興趣的基因組區(qū)域的最可能的基因型。在一些實(shí)施例中,最可能的基因型表示針對(duì)感興趣的基因組區(qū)域中的一個(gè)或多個(gè)單體型的核酸序列。在一些實(shí)施例中,根據(jù)最可能的基因型確定遺傳變異的存在或不存在。

在一些實(shí)施例中,具有最高似然比的基因型假設(shè)被用于產(chǎn)生響應(yīng)(call)或確定結(jié)果。在一些實(shí)施例中,具有最高似然比的基因型假設(shè)被用于確定對(duì)象中遺傳變異的存在或不存在。在一些實(shí)施例中,根據(jù)預(yù)定的截點(diǎn)確定最高似然比。在某些實(shí)施例中,將兩個(gè)或多個(gè)似然比確定為最高似然比,并且其他參數(shù)或數(shù)據(jù)被用于確定結(jié)果或基因型。在一些實(shí)施例中,最高似然比的值包括約800至10,000的對(duì)數(shù)似然比。在一些實(shí)施例中,最高似然比包括約1000的對(duì)數(shù)似然比。

在一些實(shí)施例中,兩個(gè)頂部基因型假設(shè)之間的似然比可以用于估計(jì)遺傳變異存在或不存在的置信度。在一些實(shí)施例中,可以評(píng)估基因型假設(shè)的整個(gè)集合來確定遺傳變異的存在或不存在,并且具有變異和不具有變異的假設(shè)的集合可以用于確定樣本中存在變異的置信度。

系統(tǒng)、機(jī)器、存儲(chǔ)介質(zhì)和接口

在沒有計(jì)算機(jī)、微處理器、軟件、計(jì)算機(jī)程序組件或其他機(jī)器的情況下,通常不可以執(zhí)行本文描述的某些過程和方法。本文描述的方法通常是計(jì)算機(jī)實(shí)現(xiàn)的方法,并且方法的一個(gè)或多個(gè)部分有時(shí)由一個(gè)或多個(gè)硬件處理器(例如,微處理器)、計(jì)算機(jī)或微處理器控制的機(jī)器執(zhí)行。屬于本文中描述的方法的實(shí)施例通常適用于通過本文所述的系統(tǒng)、機(jī)器和計(jì)算機(jī)程序產(chǎn)品中的指令實(shí)現(xiàn)的相同或相關(guān)過程。屬于本文中描述的方法的實(shí)施例通常適用于由其上存儲(chǔ)有可執(zhí)行程序的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)實(shí)現(xiàn)的相同或相關(guān)過程,其中程序指示微處理器執(zhí)行該方法或其部分。本文所使用的描述性術(shù)語“非暫時(shí)性”明確地是限制性的并且排除了暫時(shí)性的傳播信號(hào)(例如,傳輸信號(hào)、電子傳輸、波(例如,載波))。本文使用的術(shù)語“非暫時(shí)性計(jì)算機(jī)可讀媒介”和/或“非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)”包括除了暫時(shí)性的傳播信號(hào)之外的所有計(jì)算機(jī)可讀介質(zhì)。在一些實(shí)施例中,本文所述的方法和過程通過自動(dòng)化方法執(zhí)行。在一些實(shí)施例中,本文所述的一個(gè)或多個(gè)步驟和方法由微處理器和/或計(jì)算機(jī)執(zhí)行和/或與存儲(chǔ)器結(jié)合執(zhí)行。在一些實(shí)施例中,自動(dòng)化方法在軟件、計(jì)算機(jī)程序組件、微處理器、外圍設(shè)備和/或包括類似的機(jī)器中實(shí)現(xiàn),其(i)獲得包括多個(gè)讀段配對(duì)物對(duì)的雙端序列讀段的集合,每個(gè)對(duì)包括兩個(gè)讀段配對(duì)物,其中每個(gè)對(duì)的兩個(gè)讀段配對(duì)物中的至少一個(gè)被映射到參考基因組的至少一部分,參考基因組包括預(yù)先選擇的感興趣的基因組區(qū)域,并且其中雙端序列讀段中的一些未被映射到參考基因組的所述至少一部分,(ii)確定序列讀段的集合的堆積關(guān)系,(iii)根據(jù)堆積關(guān)系構(gòu)建一個(gè)或多個(gè)重疊群,(iv)組裝一個(gè)或多個(gè)超重疊群,(v)生成基因型似然比,(vi)確定遺傳變異的存在或不存在,或(vii)執(zhí)行其組合。機(jī)器、軟件和接口可以用于實(shí)施本文描述的方法。使用機(jī)器、軟件和接口,用戶可以輸入、請(qǐng)求、查詢或確定針對(duì)使用特定信息、程序或過程(例如,獲得讀段、募集讀段、映射讀段、生成堆積關(guān)系、構(gòu)建重疊群、組裝單體型、生成基因型似然比、確定遺傳變異的存在或不存在等,或其組合)的選項(xiàng),這可以涉及例如實(shí)現(xiàn)統(tǒng)計(jì)分析算法、統(tǒng)計(jì)顯著性算法、統(tǒng)計(jì)誤差算法、統(tǒng)計(jì)概率算法、迭代步驟、驗(yàn)證算法和圖形表示。在一些實(shí)施例中,數(shù)據(jù)文件可以由用戶輸入作為輸入信息,用戶可以通過合適的硬件介質(zhì)(例如,閃存驅(qū)動(dòng)器)下載一個(gè)或多個(gè)數(shù)據(jù)文件,和/或用戶可以將來自一個(gè)系統(tǒng)的數(shù)據(jù)集發(fā)送到另一個(gè)系統(tǒng),用于后續(xù)處理和/或提供結(jié)果(例如,將測(cè)序器的序列讀段數(shù)據(jù)發(fā)送到計(jì)算機(jī)系統(tǒng),用于序列讀段映射;將被映射的序列數(shù)據(jù)發(fā)送到計(jì)算機(jī)系統(tǒng),用于處理和產(chǎn)生一個(gè)或多個(gè)基因型似然比)。

系統(tǒng)通常包括一個(gè)或多個(gè)機(jī)器。每個(gè)機(jī)器包括一個(gè)或多個(gè)存儲(chǔ)器、一個(gè)或多個(gè)微處理器以及指令。在系統(tǒng)包括兩個(gè)或多個(gè)機(jī)器的情況下,部分或全部機(jī)器可以位于相同的位置處,部分或全部機(jī)器可以位于不同的位置處,全部機(jī)器可以位于一個(gè)位置處和/或全部機(jī)器可以位于不同的位置處。在系統(tǒng)包括兩個(gè)或多個(gè)機(jī)器的情況下,部分或全部機(jī)器可以位于與用戶相同的位置處,部分或全部機(jī)器可以位于與用戶不同的位置處,全部機(jī)器可以位于與用戶相同的位置處,和/或全部機(jī)器可以位于與用戶不同的一個(gè)或多個(gè)位置處。

系統(tǒng)有時(shí)包括計(jì)算裝置或測(cè)序裝置,或者計(jì)算裝置和測(cè)序裝置(即,測(cè)序機(jī)器和/或計(jì)算機(jī)器)。本文所述的裝置有時(shí)是機(jī)器。測(cè)序裝置通常被配置為接收物理核酸并生成對(duì)應(yīng)于核酸的核苷酸堿基的信號(hào)。測(cè)序裝置通常被“加載”有包括核酸的樣本,并且加載在測(cè)序裝置中的樣本的核酸通常被施加核酸測(cè)序過程。如本文所使用的術(shù)語“加載測(cè)序裝置”是指將測(cè)序裝置(例如,流動(dòng)池)的一部分與核酸樣本接觸,測(cè)序裝置的該部分被配置為接收用于進(jìn)行核酸測(cè)序過程的樣本。在一些實(shí)施例中,測(cè)序裝置被加載有樣本核酸的變體。有時(shí)通過將樣本核酸修改為適合于對(duì)核酸測(cè)序的形式的過程(例如,通過連接;例如通過連接、擴(kuò)增、限制性消化等或其組合將接合體添加到樣本核酸的端部)產(chǎn)生變體。測(cè)序裝置通常被配置為部分地執(zhí)行合適的DNA測(cè)序方法,DNA測(cè)序方法生成對(duì)應(yīng)于被加載的核酸的核苷酸堿基的信號(hào)(例如,電子信號(hào)、檢測(cè)器信號(hào)、數(shù)據(jù)文件、圖像等或其組合)。

對(duì)應(yīng)于DNA序列的每個(gè)堿基的一個(gè)或多個(gè)信號(hào)通常通過合適的過程被處理和/或轉(zhuǎn)化成堿基響應(yīng)(base call)(例如,特定核苷酸堿基,例如鳥嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶、腺嘌呤等)。源自加載的核酸的堿基響應(yīng)的集合經(jīng)常被處理和/或組裝成一個(gè)或多個(gè)序列讀段。在多個(gè)樣本核酸同時(shí)被測(cè)序(即,復(fù)用)的實(shí)施例中,可以利用合適的去復(fù)用過程將特定的讀段與其源自的樣本核酸相關(guān)聯(lián)。序列讀段可以通過合適的過程被比對(duì)到參考基因組,并且讀段(被比對(duì)到參考基因組的部分)以及讀段配對(duì)物(可以不與參考基因組比對(duì))(例如,具有低可映射性得分的讀段配對(duì)物或不可映射的讀段配對(duì)物)可以如本文所述被存儲(chǔ)和處理。

測(cè)序裝置有時(shí)與系統(tǒng)中的一個(gè)或多個(gè)計(jì)算裝置相關(guān)聯(lián)和/或包括系統(tǒng)中的一個(gè)或多個(gè)計(jì)算裝置。一個(gè)或多個(gè)計(jì)算裝置有時(shí)被配置為執(zhí)行以下過程中的一個(gè)或多個(gè):獲得讀段、募集讀段、過濾讀段、確定針對(duì)序列讀段集合的堆積關(guān)系、構(gòu)建一個(gè)或多個(gè)重疊群(例如,重疊群或中間重疊群)、組裝一個(gè)或多個(gè)超重疊群、過濾重疊群、過濾單體型、執(zhí)行單體型分析器的一個(gè)或多個(gè)功能、執(zhí)行識(shí)別系統(tǒng)的一個(gè)或多個(gè)功能、組裝一個(gè)或多個(gè)基因型、生成一個(gè)或多個(gè)基因型假設(shè)、生成一個(gè)或多個(gè)基因型似然比、確定基因改變的存在或不存在等或其組合。一個(gè)或多個(gè)計(jì)算裝置有時(shí)被配置為執(zhí)行以下附加過程中的一個(gè)或多個(gè):從測(cè)序裝置信號(hào)生成堿基響應(yīng)、生成讀段、修剪讀段、將讀段去復(fù)用、將讀段比對(duì)或映射到參考基因組等。

在一些實(shí)施例中,由多個(gè)計(jì)算裝置執(zhí)行方法或過程,并且由系統(tǒng)執(zhí)行的全部過程的子集可以被分配或劃分在系統(tǒng)中的特定計(jì)算裝置中。可以以任何合適的組合在兩個(gè)或多個(gè)計(jì)算裝置或其組中劃分全部數(shù)目的過程的子集。多計(jì)算裝置系統(tǒng)有時(shí)包括測(cè)序裝置本地的一個(gè)或多個(gè)適當(dāng)?shù)姆?wù)器,并且有時(shí)包括一個(gè)或多個(gè)非測(cè)序裝置本地的一個(gè)或多個(gè)適當(dāng)?shù)姆?wù)器(例如,web服務(wù)器、在線服務(wù)器、應(yīng)用服務(wù)器、遠(yuǎn)程文件服務(wù)器、云服務(wù)器(如云環(huán)境,云計(jì)算))。

不同系統(tǒng)配置中的裝置可以生成不同類型的輸出數(shù)據(jù)。例如,測(cè)序裝置可以輸出堿基信號(hào),并且堿基信號(hào)輸出數(shù)據(jù)可以被傳送到將堿基信號(hào)數(shù)據(jù)轉(zhuǎn)換為堿基響應(yīng)的計(jì)算裝置。在一些實(shí)施例中,堿基響應(yīng)是來自一個(gè)計(jì)算裝置的輸出數(shù)據(jù),并被傳送到另一個(gè)計(jì)算裝置,以產(chǎn)生序列讀段。在某些實(shí)施例中,堿基響應(yīng)不是來自特定裝置的輸出數(shù)據(jù),而是在接收到測(cè)序裝置堿基信號(hào)以生成序列讀段的同一裝置中被使用。在一些實(shí)施例中,一個(gè)裝置接收測(cè)序裝置堿基信號(hào),生成堿基響應(yīng)、序列讀段并將序列讀段去復(fù)用,并且輸出用于樣本的去復(fù)用序列讀段,該樣本可以被傳送到將序列讀段比對(duì)到參考基因組的另一裝置或其組。例如,來自一個(gè)裝置的輸出數(shù)據(jù)有時(shí)被置于物理存儲(chǔ)設(shè)備上,并且存儲(chǔ)設(shè)備被輸送并連接到第二裝置,輸出數(shù)據(jù)被傳送到該第二裝置。輸出數(shù)據(jù)有時(shí)被一個(gè)裝置存儲(chǔ)在數(shù)據(jù)庫(kù)中,并且第二裝置從相同的數(shù)據(jù)庫(kù)訪問輸出數(shù)據(jù)。

在一些實(shí)施例中,用戶與裝置(例如,計(jì)算裝置,測(cè)序裝置)交互。例如,用戶可以向軟件發(fā)出查詢,然后軟件可以經(jīng)由因特網(wǎng)訪問獲取數(shù)據(jù)集,并且在某些實(shí)施例中,可以提示可編程微處理器基于給定參數(shù)獲取合適的數(shù)據(jù)集??删幊涛⑻幚砥鬟€可以提示用戶選擇由微處理器基于給定的參數(shù)選擇的一個(gè)或多個(gè)數(shù)據(jù)集選項(xiàng)??删幊涛⑻幚砥骺梢蕴崾居脩暨x擇由微處理器基于經(jīng)由互聯(lián)網(wǎng)找到的信息、其他內(nèi)部或外部信息等選擇的一個(gè)或多個(gè)數(shù)據(jù)集選項(xiàng)。可以選擇選項(xiàng)來選擇一個(gè)或多個(gè)數(shù)據(jù)特征選擇、一個(gè)或多個(gè)統(tǒng)計(jì)算法、一個(gè)或多個(gè)統(tǒng)計(jì)分析算法、一個(gè)或多個(gè)統(tǒng)計(jì)顯著性算法、迭代步驟、一個(gè)或多個(gè)驗(yàn)證算法、以及方法、機(jī)器、裝置(多個(gè)裝置,本文中其復(fù)數(shù)也被稱為(多個(gè))裝置)、計(jì)算機(jī)程序或其上存儲(chǔ)有可執(zhí)行程序的非暫時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的一個(gè)或多個(gè)圖形表示。

本文所述的系統(tǒng)可以包括設(shè)備、外圍設(shè)備、接口、存儲(chǔ)介質(zhì)、傳感器和典型計(jì)算機(jī)系統(tǒng)(例如,網(wǎng)絡(luò)服務(wù)器、膝上型計(jì)算機(jī)系統(tǒng)、桌面系統(tǒng)、手持系統(tǒng)、個(gè)人數(shù)字助理、手機(jī)、計(jì)算亭等)的部件。計(jì)算機(jī)系統(tǒng)可以包括一個(gè)或多個(gè)輸入裝置(例如,鍵盤、觸摸屏、鼠標(biāo)、語音識(shí)別或其他裝置),以允許用戶將數(shù)據(jù)輸入到系統(tǒng)中。系統(tǒng)還可以包括一個(gè)或多個(gè)輸出,輸出包括但不限于顯示器(例如CRT、LED或LCD)、揚(yáng)聲器、傳真機(jī)、打印機(jī)(例如,激光式、噴墨式、擊打式、黑白或彩色打印機(jī))或用于提供信息(例如,結(jié)果和/或報(bào)告)的視覺、聽覺和/或硬拷貝輸出的任何其他合適的輸出。

計(jì)算機(jī)系統(tǒng)通常包括用戶輸入組件。用戶輸入組件便于對(duì)象和/或其他用戶輸入和/或選擇信息。用戶輸入組件通常便于經(jīng)由用戶界面和/或其他接口設(shè)備輸入和/或選擇信息。例如,用戶輸入組件可以使得戶界面向用戶顯示一個(gè)或多個(gè)視圖圖形視圖,這便于用戶輸入和/或選擇信息。在一些實(shí)施例中,用戶輸入組件被配置為便于經(jīng)由與一個(gè)或多個(gè)用戶相關(guān)聯(lián)的一個(gè)或多個(gè)用戶界面來輸入和/或選擇信息。在一些實(shí)施例中,用戶輸入組件被配置為便于通過網(wǎng)站、移動(dòng)應(yīng)用、利用其發(fā)送文本消息和/或電子郵件的智能程序和/或經(jīng)由其他方法來輸入和/或選擇信息。在一些實(shí)施例中,輸入和/或選擇的信息包括與核酸序列、用戶、樣本和向微處理器提供附加指令的選項(xiàng)參數(shù)相關(guān)的信息。在一些實(shí)施例中,用戶輸入組件被配置為提示對(duì)象或用戶和/或其他用戶回答特定問題和/或提供其他信息。在一些實(shí)施例中,用戶輸入組件被配置為將時(shí)刻、持續(xù)時(shí)間和/或其他時(shí)間相關(guān)信息與其他被輸入的、被選擇的、被存儲(chǔ)的、被提取的和/或被處理的信息相關(guān)聯(lián)。

在系統(tǒng)中,輸入和輸出裝置可以被連接到中央處理單元,該中央處理單元可以包括用于執(zhí)行程序指令的微處理器和用于存儲(chǔ)程序代碼和數(shù)據(jù)的存儲(chǔ)器。在一些實(shí)施例中,過程可以被實(shí)現(xiàn)為位于單個(gè)地理站點(diǎn)中的單個(gè)用戶系統(tǒng)。在某些實(shí)施例中,過程可以被實(shí)施為多用戶系統(tǒng)。在多用戶實(shí)現(xiàn)的情況下,可以通過網(wǎng)絡(luò)連接多個(gè)中央處理單元。網(wǎng)絡(luò)可以是本地的,涵蓋建筑物的一部分中的單個(gè)部門、整個(gè)建筑物、跨越多個(gè)建筑物、跨越一個(gè)區(qū)域、跨越整個(gè)國(guó)家或全世界。網(wǎng)絡(luò)可以是私有的,由提供方擁有和控制,或者可以被實(shí)現(xiàn)為基于因特網(wǎng)的服務(wù),其中用戶訪問網(wǎng)頁以輸入和取回信息。因此,在某些實(shí)施例中,系統(tǒng)包括一個(gè)或多個(gè)機(jī)器,該機(jī)器可以位于用戶本地也可以相對(duì)用戶處于遠(yuǎn)程。一個(gè)位置或多個(gè)位置中的多個(gè)機(jī)器可以由用戶訪問,并且數(shù)據(jù)可以被串行地和/或并行地映射和/或處理。因此,可以使用合適的配置和控制來使用多個(gè)機(jī)器(例如,在本地網(wǎng)絡(luò)、遠(yuǎn)程網(wǎng)絡(luò)和/或“云”計(jì)算平臺(tái)中)對(duì)數(shù)據(jù)進(jìn)行映射和/或處理。

在一些實(shí)施例中,系統(tǒng)可以包括通信接口。通信接口允許在計(jì)算機(jī)系統(tǒng)和一個(gè)或多個(gè)外部設(shè)備之間傳送軟件和數(shù)據(jù)。通信接口的非限制性示例包括調(diào)制解調(diào)器、網(wǎng)絡(luò)接口(以太網(wǎng)/WiFi)、通信端口(例如,USB端口、HDMI端口)、藍(lán)牙、PCMCIA插槽和/或卡等。數(shù)據(jù)可以由合適的通信接口、設(shè)備和/或方法(包括但不限于手動(dòng)輸入設(shè)備和/或直接數(shù)據(jù)輸入設(shè)備(DDE))輸入。手動(dòng)設(shè)備的非限制性示例包括鍵盤、概念鍵盤、觸敏屏幕、光筆、鼠標(biāo)、跟蹤球、操縱桿、圖形平板電腦、掃描儀、數(shù)碼相機(jī)、視頻數(shù)字化儀和語音識(shí)別設(shè)備。DDE的非限制性示例包括條形碼讀取器、磁條代碼、智能卡、磁性墨水字符識(shí)別、光學(xué)字符識(shí)別、光學(xué)標(biāo)記識(shí)別和周轉(zhuǎn)文件。

在某些實(shí)施例中,通過in silico過程生成模擬數(shù)據(jù),并且模擬數(shù)據(jù)用作可以經(jīng)由輸入設(shè)備輸入的數(shù)據(jù)。術(shù)語“in silico”是指數(shù)據(jù)(例如,重疊群、中間重疊群、超重疊群等)和/或使用計(jì)算機(jī)、一個(gè)或多個(gè)計(jì)算機(jī)程序組件或其組合執(zhí)行的數(shù)據(jù)的操縱或變換。在某些實(shí)施例中,本文中的方法和過程以in silico方式執(zhí)行。in silico過程包括但不限于映射讀段、比對(duì)讀段、重疊讀段、生成堆積關(guān)系、迭代過程(例如,迭代組裝或構(gòu)建重疊群、中間重疊群和/或超重疊群或其部分)、組裝單體型、組裝基因型和/或基因型假設(shè)。

系統(tǒng)可以包括用于執(zhí)行本文所述的過程的軟件,并且軟件可以包括用于執(zhí)行這些過程的一個(gè)或多個(gè)計(jì)算機(jī)程序組件。術(shù)語“軟件”是指包括程序指令(例如,可執(zhí)行程序)的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)程序指令由計(jì)算機(jī)執(zhí)行時(shí),執(zhí)行計(jì)算機(jī)操作。由一個(gè)或多個(gè)微處理器可執(zhí)行的指令有時(shí)被提供為可執(zhí)行代碼,當(dāng)可執(zhí)行代碼被執(zhí)行時(shí),可以使得一個(gè)或多個(gè)微處理器實(shí)現(xiàn)本文描述的方法。

本文描述的計(jì)算機(jī)程序組件(即,組件)可以作為軟件、和/或在可以由處理器或微處理器實(shí)現(xiàn)或執(zhí)行的軟件中實(shí)現(xiàn)的指令(例如,過程、例程、子例程)存在。例如,計(jì)算機(jī)程序組件可以是執(zhí)行特定過程或任務(wù)的程序的一部分。術(shù)語“計(jì)算機(jī)程序組件”和“組件”在本文中被同義使用,并且是指可用于較大機(jī)器或軟件系統(tǒng)的獨(dú)立功能單元。組件可以包括用于通過一個(gè)或多個(gè)微處理器執(zhí)行計(jì)算機(jī)程序組件的功能的指令的集合。計(jì)算機(jī)程序組件的指令可以在計(jì)算環(huán)境中、通過使用合適的編程語言、合適的軟件和/或以合適的語言編寫(例如,本領(lǐng)域已知的計(jì)算機(jī)編程語言)的代碼和/或操作系統(tǒng)來實(shí)現(xiàn),操作系統(tǒng)的非限制性示例包括UNIX、Linux、oracle、windows、Ubuntu、ActionScript、C、C++、C#、Haskell、Java、JavaScript、Objective-C、Perl、Python、Ruby、Smalltalk、SQL、Visual Basic、COBOL、Fortran、UML、HTML(例如,與PHP一同)、PGP、G、R、S等或其組合。

在一些實(shí)施例中,計(jì)算機(jī)程序組件包括一個(gè)或多個(gè)數(shù)據(jù)文件,并且可以將數(shù)據(jù)文件傳送到另一個(gè)計(jì)算機(jī)程序組件和/或從另一個(gè)計(jì)算機(jī)程序組件接收數(shù)據(jù)文件。在一些實(shí)施例中,組件將數(shù)據(jù)和/或信息例如轉(zhuǎn)換成有形的打印物、給用戶的指令、結(jié)果、顯示、基因型等或其組合。例如,本文所述的一個(gè)或多個(gè)組件和/或微處理器(例如,裝置或機(jī)器)可以獲得測(cè)序讀段(其表示對(duì)象基因組的隨機(jī)的、無序的核酸片段),并將這些讀段轉(zhuǎn)換成對(duì)象主體的特定部分(例如,對(duì)象主體的一部分(例如,感興趣的基因組區(qū)域的基因型))的精確表示(例如,顯示)。該過程可以相當(dāng)于將數(shù)百萬個(gè)拼圖轉(zhuǎn)換成圖片的過程或?qū)射線數(shù)據(jù)的比特轉(zhuǎn)換成對(duì)象主體的一部分的顯示(例如,骨骼、器官和其他身體組織的顯示)的過程。

一個(gè)或多個(gè)組件可以用于本文所述的方法,其非限制性示例包括測(cè)序組件、募集組件、堆積關(guān)系組件、超重疊群組裝器組件、重疊群組裝組件、超重疊群組裝組件、插入尺寸分布組件、接合體(adaptor/adapter)修剪器組件、讀段-讀段比對(duì)器、單體型組件、識(shí)別系統(tǒng)、結(jié)果組件等或其組合。組件有時(shí)由微處理器控制。在某些實(shí)施例中,組件或包括一個(gè)或多個(gè)組件的機(jī)器收集、組裝、接收、獲得、訪問、恢復(fù)來自另一組件、機(jī)器、接口、外圍設(shè)備或機(jī)器的操作者(用戶)的數(shù)據(jù)和/或信息,和/或向其他組件、機(jī)器、接口、外圍設(shè)備或機(jī)器的操作者(用戶)提供和/或傳送數(shù)據(jù)和/或信息。在一些實(shí)施例中,由包括以下項(xiàng)目中的一個(gè)或多個(gè)的機(jī)器向組件提供數(shù)據(jù)和/或信息(例如,序列讀段):一個(gè)或多個(gè)流動(dòng)池、相機(jī)、檢測(cè)器(例如,光電檢測(cè)器、光電池、電檢測(cè)器(例如,幅度調(diào)制檢測(cè)器、頻率和相位調(diào)制檢測(cè)器、鎖相環(huán)檢測(cè)器))、計(jì)數(shù)器、傳感器(例如,壓力、溫度、體積、流量、重量的傳感器)、液體處理設(shè)備、數(shù)據(jù)輸入設(shè)備(例如,鍵盤、鼠標(biāo)、掃描儀、語音識(shí)別軟件和麥克風(fēng)、手寫筆等)、打印機(jī)、顯示器(例如,LED、LCT或CRT)等或其組合。例如,機(jī)器或裝置的操作者有時(shí)向組件提供常數(shù)、閾值、公式或預(yù)定值。計(jì)算機(jī)程序組件通常被配置為向微處理器、存儲(chǔ)介質(zhì)和/或存儲(chǔ)器傳送數(shù)據(jù)和/或信息、或傳送來自微處理器、存儲(chǔ)介質(zhì)和/或存儲(chǔ)器的數(shù)據(jù)和/或信息。組件通常被配置為將數(shù)據(jù)和/或信息傳送到另一合適的組件或機(jī)器,或從另一合適的組件或機(jī)器接收數(shù)據(jù)和/或信息。組件可以操縱和/或轉(zhuǎn)換數(shù)據(jù)和/或信息。從組件導(dǎo)出或轉(zhuǎn)換的數(shù)據(jù)和/或信息可以被傳送到另一個(gè)合適的機(jī)器和/或組件。包括計(jì)算機(jī)程序組件的機(jī)器可以包括至少一個(gè)微處理器。包括組件的機(jī)器可以包括微處理器(例如,一個(gè)或多個(gè)微處理器),該微處理器可以執(zhí)行和/或?qū)崿F(xiàn)組件的一個(gè)或多個(gè)指令(例如,過程、例程和/或子例程)。在一些實(shí)施例中,組件與一個(gè)或多個(gè)外部微處理器(例如,內(nèi)部或外部網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)設(shè)備和/或存儲(chǔ)網(wǎng)絡(luò)(例如,云))一起操作。

數(shù)據(jù)和/或信息可以是合適的形式。例如,數(shù)據(jù)和/或信息可以是數(shù)字的或模擬的。在某些實(shí)施例中,數(shù)據(jù)和/或信息有時(shí)可以是分組、字節(jié)、字符或比特。在一些實(shí)施例中,數(shù)據(jù)和/或信息可以是任何被收集、組裝的或可用的數(shù)據(jù)或信息。數(shù)據(jù)和/或信息的非限制性示例包括合適的媒體、圖片、視頻、聲音(例如,頻率、可聽見的或不可聽見的)、數(shù)字、常數(shù)、數(shù)據(jù)文件、值、對(duì)象、時(shí)間、函數(shù)、指令、地圖、參考、序列、讀段、被映射的讀取、級(jí)別、范圍、閾值、信號(hào)、顯示、表示或其變換。計(jì)算機(jī)程序組件可以接受或接收數(shù)據(jù)和/或信息,將數(shù)據(jù)和/或信息轉(zhuǎn)換成第二形式,并將第二形式的信息提供或傳送到機(jī)器、外圍設(shè)備、設(shè)備、微處理器、存儲(chǔ)設(shè)備、接口或到另一個(gè)計(jì)算機(jī)程序組件。在某些實(shí)施例中,微處理器可以執(zhí)行組件中的指令。在一些實(shí)施例中,需要一個(gè)或多個(gè)處理器來執(zhí)行計(jì)算機(jī)程序組件或計(jì)算機(jī)程序組件組中的指令。計(jì)算機(jī)程序組件可以向另一個(gè)計(jì)算機(jī)程序組件、機(jī)器或源提供數(shù)據(jù)和/或信息,并且可以從另一個(gè)計(jì)算機(jī)程序組件、機(jī)器或源接收數(shù)據(jù)和/或信息。

計(jì)算機(jī)程序產(chǎn)品有時(shí)在非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)上實(shí)現(xiàn),并且有時(shí)在非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)上有形地實(shí)現(xiàn)。在某些實(shí)施例中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)在其上的可執(zhí)行程序。計(jì)算機(jī)程序組件有時(shí)被存儲(chǔ)在非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)(例如,磁盤、驅(qū)動(dòng)器)或存儲(chǔ)器(例如,隨機(jī)訪問存儲(chǔ)器)中。能夠?qū)崿F(xiàn)來自計(jì)算機(jī)程序組件的指令的計(jì)算機(jī)程序組件和微處理器可以位于機(jī)器或不同的機(jī)器中。能夠?qū)崿F(xiàn)計(jì)算機(jī)程序組件的指令的計(jì)算機(jī)程序組件和/或微處理器可以位于與用戶相同的位置(例如,本地網(wǎng)絡(luò))中,或位于與用戶不同的位置(例如,遠(yuǎn)程網(wǎng)絡(luò)、云系統(tǒng))中。在其中結(jié)合兩個(gè)或多個(gè)計(jì)算機(jī)程序組件執(zhí)行方法的實(shí)施例中,計(jì)算機(jī)程序組件可以位于同一機(jī)器中,一個(gè)或多個(gè)計(jì)算機(jī)程序組件可以位于相同物理位置中的不同機(jī)器中,并且一個(gè)或多個(gè)計(jì)算機(jī)程序組件可以位于不同物理位置中的不同機(jī)器中。

在某些實(shí)施例中,機(jī)器、裝置或計(jì)算機(jī)包括一個(gè)或多個(gè)計(jì)算機(jī)組件部分、外圍設(shè)備和/或接口。外圍設(shè)備和/或計(jì)算機(jī)組件部分有時(shí)可以將數(shù)據(jù)和/或信息傳送到計(jì)算機(jī)程序組件、接口、顯示器、外圍設(shè)備和/或其他計(jì)算機(jī)組件部分,并且傳送來自計(jì)算機(jī)程序組件、接口、顯示器、外圍設(shè)備和/或其他計(jì)算機(jī)組件部分的數(shù)據(jù)和/或信息。在某些實(shí)施例中,機(jī)器與提供數(shù)據(jù)和/或信息的外圍設(shè)備和/或計(jì)算機(jī)組件部分交互。在某些實(shí)施例中,外圍設(shè)備和計(jì)算機(jī)組件部分幫助機(jī)器執(zhí)行功能或直接與計(jì)算機(jī)程序組件交互。外圍設(shè)備和/或計(jì)算機(jī)組件部分的非限制性示例包括合適的計(jì)算機(jī)外圍設(shè)備、I/O或存儲(chǔ)方法或設(shè)備,該存儲(chǔ)方法或設(shè)備包括但不限于掃描儀、打印機(jī)、顯示器(例如,監(jiān)視器、LED、LCT或CRT)、相機(jī)、麥克風(fēng)、平板(例如,iPad、平板電腦)、觸摸屏、智能電話、移動(dòng)電話、USB I/O設(shè)備、電子存儲(chǔ)裝置(USB大容量存儲(chǔ)設(shè)備、光學(xué)可讀存儲(chǔ)介質(zhì)(例如,光盤等)、磁可讀存儲(chǔ)介質(zhì)(例如,磁帶、磁性硬盤驅(qū)動(dòng)器、軟盤驅(qū)動(dòng)器等)、基于電荷的存儲(chǔ)介質(zhì)(例如,EPROM、RAM等)、固態(tài)存儲(chǔ)介質(zhì)(例如,閃存驅(qū)動(dòng)器等)、和/或其他電子可讀存儲(chǔ)介質(zhì))、鍵盤、計(jì)算機(jī)鼠標(biāo)、數(shù)字筆、調(diào)制解調(diào)器、硬盤驅(qū)動(dòng)器、跳轉(zhuǎn)驅(qū)動(dòng)器、閃存驅(qū)動(dòng)器、微處理器、服務(wù)器、CD、DVD、圖形卡、專用I/O設(shè)備(例如,定序器、光電池、光電倍增管、光學(xué)讀取器、傳感器等)、網(wǎng)絡(luò)接口控制器、只讀存儲(chǔ)器(ROM)、隨機(jī)訪問存儲(chǔ)器(RAM)、無線傳輸設(shè)備(藍(lán)牙設(shè)備、WiFi設(shè)備等)、萬維網(wǎng)(www)、因特網(wǎng)、計(jì)算機(jī)和/或另一個(gè)計(jì)算機(jī)程序組件。

計(jì)算機(jī)程序組件和計(jì)算機(jī)實(shí)現(xiàn)

在一些實(shí)施例中,系統(tǒng)包括被配置為生成序列讀段的序列組件。序列組件可以包含核酸測(cè)序儀(例如,被設(shè)計(jì)和配置為生成核酸庫(kù)的序列讀段的機(jī)器或裝置)和/或被配置為生成、組裝、映射和修剪序列讀段的軟件和指令。序列組件通常以數(shù)據(jù)文件(例如,bam文件、fasta文件等)的形式提供序列讀段。序列組件可以以任何合適的文件格式提供序列讀段。

在一些實(shí)施例中,系統(tǒng)包括募集組件。在一些實(shí)施例中,募集組件被配置為從合適的源和/或輸入裝置獲得數(shù)據(jù)文件的形式的序列讀段(例如,雙端序列讀段)。例如,募集組件可以從被配置為產(chǎn)生讀段的裝置(例如,被配置用于核酸排序的裝置)和/或從被配置為組裝和/或映射讀段的計(jì)算機(jī)獲得或接收讀段。在一些實(shí)施例中,募集組件從序列組件獲得和/或募集讀段。在一些實(shí)施例中,募集組件從合適的非暫時(shí)性或暫時(shí)性存儲(chǔ)介質(zhì)獲得讀段。例如,人可以通過以任何合適的方式(例如,經(jīng)由跳轉(zhuǎn)驅(qū)動(dòng)器、光盤、電子郵件、因特網(wǎng)等)向募集組件提供數(shù)據(jù)文件來向募集組件提供序列讀段。在某些實(shí)施例中,募集組件獲得和/或募集被映射到參考的讀段和/或未被映射、不一致地或不良地映射到參考的讀段(例如,具有低可映射性的讀段)。在某些實(shí)施例中,募集組件獲得被映射的雙端序列讀段的讀段配對(duì)物以及它們對(duì)應(yīng)的讀段配對(duì)物(不管它們是被映射的、未映射的、不一致還是不良映射的)。在某些實(shí)施例中,募集組件獲得包括多個(gè)讀段配對(duì)物對(duì)的雙端序列讀段的集合,每個(gè)對(duì)包括兩個(gè)讀段配對(duì)物,其中每個(gè)對(duì)的兩個(gè)讀段配對(duì)物中的至少一個(gè)被映射到包括預(yù)先選擇的感興趣的基因組區(qū)域的參考基因組的至少一部分,并且其中雙端序列讀段的一些未被映射到參考基因組的該至少一部分。在一些實(shí)施例中,募集組件獲得和/或存儲(chǔ)與讀段(例如,讀段長(zhǎng)度、讀段配對(duì)物對(duì)的定向和讀段配對(duì)物對(duì)的估計(jì)插入長(zhǎng)度)相關(guān)聯(lián)的信息。在一些實(shí)施例中,募集組件被配置為將所選擇的讀段(例如,募集的讀段、獲得的讀段、所選擇的讀段集合)傳送到另一個(gè)計(jì)算機(jī)程序組件。例如在一些實(shí)施例中,募集組件將選擇的讀段傳送到過濾器組件、修剪器組件、映射組件或堆積關(guān)系組件、重疊群組裝組件、超重疊群組裝組件和/或識(shí)別系統(tǒng)組件。

在一些實(shí)施例中,系統(tǒng)或存儲(chǔ)介質(zhì)包括插入尺寸分布組件。在一些實(shí)施例中,插入尺寸分布組件從募集組件、超重疊群組裝器、超重疊群組裝組件、單體型組件或基因型似然比組件傳送和/或接收數(shù)據(jù)和/或信息。在一些實(shí)施例中,插入尺寸分布組件通常被配置為確定讀段對(duì)或雙端讀段子集的插入尺寸分布、估計(jì)插入尺寸、估計(jì)插入長(zhǎng)度和/或插入尺寸的估計(jì)似然性。在一些實(shí)施例中,插入尺寸分布組件生成估計(jì)的、計(jì)算的或測(cè)量的插入片段長(zhǎng)度的分布,并確定針對(duì)雙端讀段的子集的估計(jì)插入尺寸。插入尺寸分布組件有時(shí)將插入尺寸的估計(jì)插入尺寸和/或估計(jì)的似然性并入或索引到數(shù)據(jù)文件中。在一些實(shí)施例中,插入尺寸的估計(jì)似然性與讀段配對(duì)物對(duì)相關(guān)聯(lián),并且用于確定給定讀段配對(duì)物對(duì)被映射或比對(duì)到重疊群或超重疊群的可能性。在一些實(shí)施例中,插入尺寸分布組件根據(jù)估計(jì)的插入長(zhǎng)度確定與讀段配對(duì)物對(duì)到另一讀段配對(duì)物對(duì)、參考序列、重疊群或超重疊群的映射或比對(duì)相關(guān)聯(lián)的似然性或概率。

在一些實(shí)施例中,插入尺寸分布組件將似然性(例如,插入尺寸似然性)、似然性得分或懲罰分配到超重疊群或基因型假設(shè)。在一些實(shí)施例中,插入尺寸分布組件將似然性、似然性得分或懲罰分配到建議的插入尺寸。例如,在一些實(shí)施例中,單體型分析器將讀段對(duì)與基因型假設(shè)的超重疊群或單體型進(jìn)行重新比對(duì)。在某些實(shí)施例中,插入尺寸分布組件由單體型分析器募集以確定被重新比對(duì)的讀段對(duì)之間的距離(該距離由超重疊群或單體型定義)是否與針對(duì)讀段對(duì)的所估計(jì)的插入尺寸或插入尺寸分布一致。在一些實(shí)施例中,插入尺寸分布組件比較(i)被重新比對(duì)的讀段對(duì)之間的距離(該距離由讀段對(duì)比對(duì)到的超重疊群或單體型定義)與(ii)針對(duì)讀段對(duì)確定的插入尺寸分布或估計(jì)的插入尺寸,并返回在一些實(shí)施例中與讀段對(duì)比對(duì)到的超重疊群和單體型相關(guān)聯(lián)的似然性、似然性得分或概率。例如,在一些實(shí)施例中,當(dāng)讀段配對(duì)物對(duì)的讀段配對(duì)物映射到假設(shè)序列(例如,超重疊群、基因型假設(shè)的單體型)并且被映射成彼此間隔比估計(jì)的插入尺寸更長(zhǎng)的距離時(shí),這么長(zhǎng)的插入尺寸的似然性將會(huì)低,并且低似然性被用于對(duì)該假設(shè)的似然比進(jìn)行懲罰。在一些實(shí)施例中,插入分布組件根據(jù)被重新比對(duì)到超重疊群或基因型假設(shè)的多個(gè)讀段對(duì)確定似然性、似然性得分或概率。在一些實(shí)施例中,插入分布組件根據(jù)被重新比對(duì)到超重疊群或基因型假設(shè)的多個(gè)讀段對(duì)確定似然性、似然性得分或概率,并將似然性、似然性得分或概率與讀段被重新比對(duì)到的超重疊群或基因型假設(shè)相關(guān)聯(lián)。在某些實(shí)施例中,似然性或似然性得分包括與超重疊群、單體型或基因型假設(shè)相關(guān)聯(lián)的懲罰或懲罰得分。在某些實(shí)施例中,數(shù)據(jù)和/或信息(例如,插入尺寸分布、估計(jì)的插入尺寸、似然性、插入尺寸似然性、似然性得分、罰分或概率)被傳送到單體型組件和/或由單體型組件處理,以確定或預(yù)計(jì)算每個(gè)讀段對(duì)到每個(gè)單體型的映射權(quán)重。在一些實(shí)施例中,映射權(quán)重部分地根據(jù)由插入尺寸分布組件確定的一個(gè)或多個(gè)插入尺寸似然性或懲罰來確定。在一些實(shí)施例中,映射權(quán)重包括從插入尺寸分布組件導(dǎo)出的插入尺寸似然性。

在一些實(shí)施例中,根據(jù)堆積關(guān)系(例如,由堆積關(guān)系組件確定)確定多個(gè)重疊或比對(duì),根據(jù)多個(gè)重疊或比對(duì)確定多數(shù)共有核苷酸。在某些實(shí)施例中,根據(jù)所映射的讀段配對(duì)物之間的估計(jì)或隱含的插入長(zhǎng)度并針對(duì)其對(duì)應(yīng)的讀段配對(duì)物的重疊和/或比對(duì)來檢查讀段的重疊和/或比對(duì)。這種功能通常由插入尺寸分布組件執(zhí)行。例如,其中讀段配對(duì)物對(duì)的兩個(gè)讀段配對(duì)物與重疊群的部分比對(duì)并且兩個(gè)讀段配對(duì)物端部之間的距離暗示某個(gè)插入尺寸,則比對(duì)將接收插入尺寸似然性,該插入尺寸似然性與正由實(shí)驗(yàn)室DNA片段協(xié)議生成的這樣的插入尺寸的頻率對(duì)應(yīng)。在一些實(shí)施例中,其中讀段配對(duì)物對(duì)的兩個(gè)讀段配對(duì)物與重疊群的部分重疊或比對(duì),并且兩個(gè)讀段配對(duì)物端部之間的距離(這暗示著其插入長(zhǎng)度)在給定DNA分段過程中非常頻繁,則這樣的讀段對(duì)比對(duì)被分配相對(duì)較高的似然性。在另一方面,低的似然性將被分配給給定DNA分段協(xié)議中暗示著太短或太長(zhǎng)插入尺寸的讀段對(duì)比對(duì)。在重疊群組裝期間或在超重疊群組裝期間,有時(shí)會(huì)評(píng)估重疊和比對(duì)懲罰。在一些實(shí)施例中,包括懲罰的重疊和/或比對(duì)不包括在重疊群組裝、中間重疊群組裝或超重疊群組裝中,或用于重疊群組裝、中間重疊群組裝或超重疊群組裝。包括讀段配對(duì)物對(duì)的兩個(gè)讀段配對(duì)物的比對(duì)和重疊通常由插入尺寸分布組件檢查。在某些實(shí)施例中,插入尺寸分布組件根據(jù)由讀段配對(duì)物端部的位置確定的插入長(zhǎng)度來評(píng)估讀段配對(duì)物到重疊群、中間重疊群、超重疊群和單體型的重疊和比對(duì)。在某些實(shí)施例中,插入尺寸分布組件將權(quán)重和/或懲罰或似然性分配給讀段配對(duì)物對(duì)的某些重疊和比對(duì)(例如,讀段配對(duì)物到重疊群、中間重疊群、超重疊群和單體型的比對(duì))。在一些實(shí)施例中,插入尺寸分布組件確定讀段配對(duì)物對(duì)(例如,兩個(gè)讀段配對(duì)物)是由in silico生成序列(例如,重疊群、超重疊群、單體型或單體型假設(shè))生成的似然性,其中根據(jù)其到序列的比對(duì)所暗示的讀段對(duì)的插入長(zhǎng)度確定似然性。在一些實(shí)施例中,插入分布組件將似然性與每個(gè)讀段對(duì)到in silico生成的序列(例如,重疊群、超重疊群、單體型或單體型假設(shè))的比對(duì)相關(guān)聯(lián),其中根據(jù)插入尺寸確定似然性并且似然性被包括為如等式(3)和(6)中所示的概率P(IM),其中IM是由讀段對(duì)的映射M暗示的插入尺寸。在一些實(shí)施例中,可以從經(jīng)驗(yàn)插入尺寸分布中獲得概率P(IM)。插入尺寸分布組件通常將數(shù)據(jù)和/或信息發(fā)送到堆積關(guān)系組件、重疊群組裝組件、超重疊群組裝組件、識(shí)別系統(tǒng)和/或識(shí)別系統(tǒng)組件。

在一些實(shí)施例中,系統(tǒng)包括堆積關(guān)系組件(即,關(guān)系組件)。在一些實(shí)施例中,堆積關(guān)系組件確定一個(gè)或多個(gè)堆積關(guān)系。在一些實(shí)施例中,堆積關(guān)系組件被配置為執(zhí)行比對(duì)、生成重疊并且確定關(guān)系或?qū)㈥P(guān)系(例如,堆積關(guān)系)分配到讀段和/或讀段配對(duì)物。在一些實(shí)施例中,堆積關(guān)系組件被配置為針對(duì)讀段的集合生成一個(gè)或多個(gè)堆積關(guān)系。堆積關(guān)系組件通常從募集組件獲得和/或接收讀段,并根據(jù)所接收的讀段生成一個(gè)或多個(gè)堆積關(guān)系。在某些實(shí)施例中,堆積關(guān)系組件針對(duì)讀段的集合或子集生成所有可能的重疊。在某些實(shí)施例中,堆積關(guān)系組件根據(jù)合適的k-mer哈希策略生成針對(duì)讀段集合或子集的重疊。在某些實(shí)施例中,堆積關(guān)系組件過濾、移除和/或修剪重疊。在某些實(shí)施例中,堆積關(guān)系組件選擇和/或存儲(chǔ)重疊。在一些實(shí)施例中,堆積關(guān)系組件生成堆積圖形和/或平鋪圖。堆積關(guān)系組件經(jīng)常將針對(duì)讀段集合選擇的重疊和/或讀段-讀段比對(duì)傳送到重疊群組裝組件。

在一些實(shí)施例中,系統(tǒng)包括重疊群組裝組件。在某些實(shí)施例中,重疊群組裝組件從募集組件或堆積關(guān)系組件接收數(shù)據(jù)和/或信息(例如,數(shù)據(jù)文件)。重疊群組裝組件通常被配置為根據(jù)堆積關(guān)系通過將核苷酸(例如,in silico)迭代地添加到起始讀段或中間重疊群來組裝重疊群。重疊群組裝組件通常確定讀段、讀段配對(duì)物和/或讀段配對(duì)物對(duì)到起始讀段、重疊群或中間重疊群的部分的重疊和/或比對(duì)。在一些實(shí)施例中,重疊群組裝組件通常根據(jù)堆積關(guān)系來確定讀段、讀段配對(duì)物和/或讀段配對(duì)物對(duì)的重疊和/或比對(duì)。在一些實(shí)施例中,重疊群組裝組件通常根據(jù)針對(duì)讀段的某些重疊和/或比對(duì)確定的懲罰和/或權(quán)重來確定讀段、讀段配對(duì)物和/或讀段配對(duì)物對(duì)的重疊和/或比對(duì)。懲罰、權(quán)重和/或其不存在通常由插入尺寸分布組件確定,并被發(fā)送到重疊群組裝組件,其中信息被用于在重疊群組裝期間包括或排除某些讀段的重疊或比對(duì)。由重疊群組裝組件生成的重疊群(例如,重疊群和中間重疊群)通常被傳送到超重疊群組裝組件。

在一些實(shí)施例中,系統(tǒng)包括超重疊群組裝組件。在某些實(shí)施例中,超重疊群組裝組件從重疊群組裝組件、關(guān)系組件、插入尺寸分布組件和/或從募集組件接收數(shù)據(jù)和/或信息(例如,數(shù)據(jù)文件)。超重疊群組裝組件通常被配置為通過將重疊群與一個(gè)或多個(gè)讀段配對(duì)物對(duì)橋接來構(gòu)建和組裝超重疊群。超重疊群組裝組件通常確定讀段、讀段配對(duì)物和/或讀段配對(duì)物對(duì)到一個(gè)或多個(gè)重疊群或中間重疊群的部分的重疊和/或比對(duì)。在一些實(shí)施例中,超重疊群組裝組件通常確定連接兩個(gè)或多個(gè)重疊群的讀段、讀段配對(duì)物和/或讀段配對(duì)物對(duì)的重疊和/或比對(duì)。在一些實(shí)施例中,超重疊群組裝組件通常根據(jù)針對(duì)讀段和讀段配對(duì)物對(duì)的某些重疊和/或比對(duì)確定的懲罰和/或權(quán)重來確定讀段、讀段配對(duì)物和/或讀段配對(duì)物對(duì)的重疊和/或比對(duì)。懲罰、權(quán)重和/或其不存在通常由插入尺寸分布組件確定并被發(fā)送到超重疊群組裝組件,其中該信息用于在超重疊群組裝期間包括或排除某些讀段重疊或比對(duì)。在一些實(shí)施例中,由超重疊群組裝組件生成的超重疊群被傳送到識(shí)別系統(tǒng)或識(shí)別系統(tǒng)組件。在一些實(shí)施例中,由超重疊群組裝組件生成的超重疊群被傳送到單體型組件。

在一些實(shí)施例中,系統(tǒng)包括執(zhí)行一個(gè)或多個(gè)單體型分析器過程的單體型分析器(例如,單體型組件)。一個(gè)或多個(gè)單體型分析器過程通常由單體型組件執(zhí)行。單體型組件可以利用超重疊群組裝器組件、超重疊群組裝組件、堆積關(guān)系組件、插入尺寸分布組件或募集組件中的一個(gè)或多個(gè)來接收和/或交換對(duì)象、數(shù)據(jù)和/或信息。單體型組件可以將對(duì)象、數(shù)據(jù)和/或信息發(fā)送到識(shí)別系統(tǒng)或結(jié)果組件。在一些實(shí)施例中,系統(tǒng)不包括單體型組件。

在一些實(shí)施例中,系統(tǒng)包括識(shí)別系統(tǒng)(例如,識(shí)別系統(tǒng)組件)。在某些實(shí)施例中,識(shí)別系統(tǒng)組件從超重疊群組裝組件、單體型組件、關(guān)系組件、插入尺寸分布組件和/或從募集組件接收數(shù)據(jù)和/或信息(例如,數(shù)據(jù)文件)。在某些實(shí)施例中,識(shí)別系統(tǒng)組裝針對(duì)給定倍性的所有可能的基因型。在一些實(shí)施例中,識(shí)別系統(tǒng)執(zhí)行等式6(等式6)和/或等式1(等式1)的功能。在一些實(shí)施例中,識(shí)別系統(tǒng)預(yù)先計(jì)算針對(duì)每個(gè)讀段對(duì)和每個(gè)等位基因(超重疊群)的讀段對(duì)權(quán)重,并且在假設(shè)似然性計(jì)算期間調(diào)用該值,該過程可由識(shí)別系統(tǒng)組件執(zhí)行。在一些實(shí)施例中,為了便于計(jì)算針對(duì)所有讀段的讀段權(quán)重,識(shí)別系統(tǒng)將所有讀段重新比對(duì)到所有超重疊群。在一些實(shí)施例中,識(shí)別系統(tǒng)將所有讀段映射到參考基因組或選擇單體型之一(例如,序列假設(shè))作為參考。在某些實(shí)施例中,確定的第一假設(shè)成為參考,并且計(jì)算關(guān)于第一假設(shè)的所有似然性。

在一些實(shí)施例中,識(shí)別系統(tǒng)組件根據(jù)倍性(例如,輸入倍性、默認(rèn)倍性)從一個(gè)或多個(gè)超重疊群生成一個(gè)或多個(gè)基因型序列。識(shí)別系統(tǒng)可以根據(jù)任何合適的倍性組裝基因型序列(例如,基因型可能性、基因型假設(shè))。在一些實(shí)施例中,基因型序列可以是超重疊群對(duì),其中倍性是二倍體?;蛐托蛄锌梢允菃蝹€(gè)超重疊群,其中倍性是單倍體?;蛐托蛄锌梢杂扇齻€(gè)超重疊群組成,其中倍性是三倍體。在一些實(shí)施例中,識(shí)別系統(tǒng)從表示針對(duì)給定倍性的每個(gè)可能的基因型假設(shè)中組合多個(gè)基因型序列。通常從識(shí)別系統(tǒng)向結(jié)果組件傳送基因型序列(例如,基因型假設(shè))。

在某些實(shí)施例中,識(shí)別系統(tǒng)從超重疊群組裝組件、堆積關(guān)系組件、插入尺寸分布組件和/或從募集組件接收數(shù)據(jù)和/或信息(例如,數(shù)據(jù)文件)。在一些實(shí)施例中,識(shí)別系統(tǒng)針對(duì)一個(gè)或多個(gè)超重疊群生成一個(gè)或多個(gè)基因型序列似然比。在一些實(shí)施例中,識(shí)別系統(tǒng)組件生成多個(gè)基因型似然比,其中針對(duì)單體型的組裝(例如,基因型假設(shè))生成每個(gè)似然比。由識(shí)別系統(tǒng)組件生成的基因型序列似然比通常被傳送到結(jié)果組件。

在一些實(shí)施例中,系統(tǒng)包括結(jié)果組件。結(jié)果組件通常從識(shí)別系統(tǒng)組件接收數(shù)據(jù)和/或信息(例如,基因型概率)。在一些實(shí)施例中,結(jié)果組件通常從識(shí)別系統(tǒng)組件獲得一個(gè)或多個(gè)基因型似然比。結(jié)果通常由結(jié)果組件提供。有時(shí)從結(jié)果組件向健康護(hù)理專業(yè)人員(例如,實(shí)驗(yàn)室技術(shù)人員或管理者;醫(yī)師或助理)提供結(jié)果。結(jié)果組件可以包括合適的統(tǒng)計(jì)軟件包。在某些實(shí)施例中,結(jié)果組件生成繪圖、表格、圖表或圖形。在一些實(shí)施例中,結(jié)果組件生成和/或比較標(biāo)準(zhǔn)得分(例如,Z得分)。遺傳變異的存在或不存在和/或相關(guān)的身體狀況(例如,結(jié)果)通常由結(jié)果組件確定和/或由結(jié)果組件提供。在一些實(shí)施例中,對(duì)象中遺傳變異的存在或不存在由包括結(jié)果組件的機(jī)器標(biāo)識(shí)。結(jié)果組件可以專門用于確定特定的遺傳變異(例如,STR、易位、多態(tài)性、插入)。例如,標(biāo)識(shí)STR的結(jié)果組件可以不同于和/或區(qū)別于標(biāo)識(shí)易位的結(jié)果組件。在一些實(shí)施例中,需要結(jié)果組件或包括結(jié)果組件的機(jī)器通過將基因型序列比對(duì)到參考序列來標(biāo)識(shí)遺傳變異或遺傳變異決定的結(jié)果。在某些實(shí)施例中,結(jié)果從結(jié)果組件傳送到顯示組件,其中結(jié)果由顯示組件提供(例如,合適的顯示器,例如,LED等)。在一些實(shí)施例中,結(jié)果組件向顯示器提供基因型(例如,基因型序列、基因型圖像)的表示。

遺傳變異和身體狀況

在一些實(shí)施例中,本文所述的系統(tǒng)、方法或過程確定對(duì)象中遺傳變異的存在或不存在。在一些實(shí)施例中,根據(jù)基因型似然比和/或結(jié)果組件確定對(duì)象中遺傳變異的存在或不存在。遺傳變異通常是存在于某些個(gè)體中的特定遺傳表型。在一些實(shí)施例中,遺傳變異是染色體異常(例如,染色體的一個(gè)或多個(gè)部分的缺失或增加)。遺傳變異的非限制性示例包括一個(gè)或多個(gè)缺失、復(fù)制、插入、微插入、添加、易位、突變、多態(tài)性(例如,單核苷酸多態(tài)性、多核苷酸多態(tài)性)、融合、重復(fù)(例如,短串聯(lián)重復(fù)(即,STR))等及其組合。插入、重復(fù)、缺失、復(fù)制、突變或多態(tài)性可以是任何長(zhǎng)度,并且在一些實(shí)施例中,其長(zhǎng)度為大約1堿基或堿基對(duì)(bp)至約250兆堿基(Mb)。在一些實(shí)施例中,插入、重復(fù)、STR、缺失、復(fù)制、突變或多態(tài)性長(zhǎng)度為約1個(gè)核苷酸(nt)至約50,000nt(例如,約1個(gè)至約10,000個(gè)核苷酸、約1個(gè)至約10,000個(gè)核苷酸、約1個(gè)至約10,000個(gè)核苷酸、約1個(gè)至約1,000個(gè)核苷酸、約1個(gè)至約500個(gè)核苷酸、約1個(gè)至約400個(gè)核苷酸、約1個(gè)至約300個(gè)核苷酸、約1個(gè)至約200個(gè)核苷酸、約1個(gè)至約100個(gè)核苷酸、或約1個(gè)至約100個(gè)核苷酸、或約1個(gè)至約50個(gè)核苷酸)。在一些實(shí)施例中,由本文所述的方法、系統(tǒng)或過程確定的遺傳變異包括以下長(zhǎng)度:約2個(gè)至約500個(gè)核苷酸、約2個(gè)至約400個(gè)核苷酸、約2個(gè)至約300個(gè)核苷酸、約2個(gè)至約200個(gè)核苷酸、約2個(gè)至約100個(gè)核苷酸、約2個(gè)至約50個(gè)核苷酸、10個(gè)至約500個(gè)核苷酸、約10個(gè)至約400個(gè)核苷酸、約10個(gè)至約300個(gè)核苷酸、約10個(gè)至約200個(gè)核苷酸、約10個(gè)至約100個(gè)核苷酸、約10個(gè)至約50個(gè)核苷酸、20個(gè)至約500個(gè)核苷酸、約20個(gè)至約400個(gè)核苷酸、約20個(gè)至約300個(gè)核苷酸、約20個(gè)至約200個(gè)核苷酸、約20個(gè)至約100個(gè)核苷酸、或約20個(gè)至約50個(gè)核苷酸。

遺傳變異可以被包括在基因內(nèi)。包括遺傳變異的基因可以包括基因中或基因附近的遺傳變異,該遺傳變異可以在基因的內(nèi)含子、外顯子、基因的非翻譯區(qū)或其組合中。任何基因可以包括通過本文所述的方法或過程確定的遺傳變異。例如,遺傳變異可以包括AR、ATXN1、ATXNNX2、ATXN3、ATXN7、ATXN8、ATXN10、DMPK、FXN、JPH3、CACNA1A、PPP2R2B、TBP、ATN1、ARX、PHOX2B、PABPN1、ATT、CFTR和BRACA1基因。

在某些實(shí)施例中,針對(duì)對(duì)象所標(biāo)識(shí)存在或不存在的遺傳變異有時(shí)與身體狀況相關(guān)聯(lián)。身體狀況的非限制性示例包括與以下相關(guān)聯(lián)的那些:智力障礙(例如,唐氏綜合癥)、異常細(xì)胞增殖(例如,癌癥)、非霍奇金淋巴瘤、骨髓增生異常綜合癥、威廉綜合癥、蘭格-吉登綜合癥、阿爾菲綜合癥、雷波爾綜合癥、雅各布綜合癥、視網(wǎng)膜母細(xì)胞瘤、史密斯-馬格尼斯、愛德華綜合癥、乳頭狀腎細(xì)胞癌、迪格奧爾格綜合癥、天使人綜合癥、貓眼綜合癥、家族性腺瘤性息肉病、米勒-德克爾綜合癥、微生物核酸的存在(例如,病毒、細(xì)菌、真菌、酵母)和先兆子癇。

示例

以下描述的示例圖示某些實(shí)施例并且不限制本技術(shù)。

示例1:Kragle:用于短串聯(lián)重復(fù)序列和其他染色體組位點(diǎn)(基因座)的局部de Novo組裝器和基因型識(shí)別系統(tǒng)

Kragle被設(shè)計(jì)為局部de-novo序列組裝和基因分型包。Kragle被設(shè)計(jì)為從雙端讀段組裝任何倍性的序列。Kragle被專門設(shè)計(jì)于處理延伸到讀段長(zhǎng)度的重復(fù)序列,但也可以識(shí)別(call)由序列反轉(zhuǎn)、易位、復(fù)制或缺失引起的序列結(jié)點(diǎn)。Kragle被成功應(yīng)用于識(shí)別基因狀況陣列中涉及的AR、ATXN1、ATNX2、ATXN3、ATXN7、DMPK、FXN和HTT基因中的短串聯(lián)重復(fù)(STR)的二倍體基因型。Kragle也用于確認(rèn)人類BRACA1基因中大量缺失導(dǎo)致的假設(shè)結(jié)點(diǎn),以及識(shí)別涉及人類CFTR基因中均聚物和相鄰二核苷酸重復(fù)的復(fù)雜變異。

Kragle的功能分為四個(gè)主要組件(圖1):讀段募集組件(即,募集器、募集組件)、超重疊群組裝器、單體型創(chuàng)建器(單體型分析器)和基因型假設(shè)識(shí)別系統(tǒng)(識(shí)別系統(tǒng))。超重疊群組裝器包括三個(gè)附加組件(堆疊關(guān)系組件、重疊群組裝組件和超重疊群組裝組件)。前兩個(gè)主要組件(募集器組件和超重疊群組裝器)被設(shè)計(jì)為充分利用雙端讀段來組裝低復(fù)雜度序列,低復(fù)雜度序列可以包括與讀段長(zhǎng)度相同的不中斷的重復(fù)內(nèi)容,并且如果重復(fù)包含中斷,則有時(shí)重復(fù)內(nèi)容甚至長(zhǎng)于讀段長(zhǎng)度。單體型分析器從超重疊群序列構(gòu)建單體型,將所有讀段重新映射到它們,并且嘗試標(biāo)識(shí)組裝序列中的不規(guī)則性?;蛐透怕式M件從超重疊群組裝組件來組裝單體型序列(例如,超重疊群)并生成基因型概率并分配置信度值。識(shí)別系統(tǒng)從組裝的單體型序列中識(shí)別二倍體基因型,并基于似然比將置信度分配給備選的基因型假設(shè)。本示例中的Kragle實(shí)施例不利用任何讀段誤差校正,因?yàn)樽x段誤差校正算法干擾重復(fù)(例如,STR)的存在或不存在的確定。

在一些實(shí)施例中,Kragle的輸入是參考排序的bam文件和插入尺寸分布文件。備選地,Kragle接受兩個(gè)fastq文件(針對(duì)讀段1和讀段2)和一個(gè)參考fasta文件來調(diào)用接合體修剪器組件、BWA-MEM比對(duì)器、插入尺寸分配組件和samtools(參考排序和索引bam文件),以創(chuàng)建在預(yù)處理步驟(參見圖1)中必要的輸入。

募集組件

從與參考序列顯著不同的樣本的基因組區(qū)域獲得的序列讀段對(duì)標(biāo)準(zhǔn)讀段比對(duì)器呈現(xiàn)了顯著的挑戰(zhàn)。例如,源自基因組改變部分的讀段通常被映射到錯(cuò)誤的基因組位置或保持未被映射。然而,在這種情況下,來自讀段配對(duì)物對(duì)的讀段配對(duì)物通常包含未改變(或少量改變)側(cè)翼區(qū)域的序列,并且因此可以被正確映射。為了規(guī)避延伸的STR、序列結(jié)點(diǎn)和大的復(fù)雜變異區(qū)中的讀段映射問題,募集組件使用來自讀段配對(duì)物對(duì)的被映射的讀段配對(duì)物的位置來標(biāo)識(shí)可以提供Kragle嘗試組裝的區(qū)域(例如,特定的感興趣的基因組區(qū)域)的信息的讀段。

在一些實(shí)施例中,Kragle被配置為使用參考排序的bam文件來快速索引到感興趣的區(qū)域(一個(gè)或多個(gè))中。在結(jié)點(diǎn)的情況下,Kragle使用兩個(gè)基因組區(qū)域(其可能使用分裂讀段信號(hào)或不一致的配對(duì)物信號(hào)被標(biāo)識(shí))來獲取提供信息的讀段。然后,募集組件收集具有與到感興趣的區(qū)域(一個(gè)或多個(gè))的最初比對(duì)映射的配對(duì)物中的至少一個(gè)的讀段。

超重疊群組裝器(supercontiger)

超重疊群組裝器由三個(gè)組件組成:堆積關(guān)系組件(例如,讀段-讀段比對(duì)器)、重疊群組裝組件和超重疊群組裝組件。三個(gè)組件從募集組件獲得的募集讀段對(duì)的集合開始,并產(chǎn)生單體型序列(超重疊群)的集合。超重疊群由以正確定向鏈接在一起的一個(gè)或多個(gè)重疊群組成,并被排序以產(chǎn)生組裝的感興趣的基因組區(qū)域的單體型序列(例如,可能被中斷的單體型序列)。

使用兩個(gè)一般范式進(jìn)行重疊群組裝:基于de Bruin圖(Idury RM,et al.、Pevzner PA,et al.)和依賴于重疊圖的重疊布局共有序列(Myers EW,et al.,(2005))。Kragle使用了讀段平鋪策略,該讀段平鋪策略類似于但不同于Celera組裝器(Myers EW,et al.,(2000))中構(gòu)建“unitigs”的過程,并且精神上類似于但不同于重疊布局共有序列(overlap-layout-consensus)策略。在該示例中,讀段之間的所有可能的重疊在重疊群組裝開始之前被標(biāo)識(shí)。

堆積關(guān)系組件

堆積關(guān)系組件被配置為執(zhí)行標(biāo)識(shí)這樣可能的讀段-讀段重疊的功能,并且還可以消除所構(gòu)建的圖中的一些冗余。與重疊圖(Myers EW,et al.,(2005))(其消除了完全包含在另一讀段的序列中的每個(gè)讀段)相反,由堆積關(guān)系組件產(chǎn)生的讀段平鋪圖包含作為頂點(diǎn)的所有讀段,并且邊緣表示讀段-讀段的重疊。僅由映射的配對(duì)物執(zhí)行局部de-novo組裝和募集讀段對(duì)的優(yōu)點(diǎn)是每個(gè)讀段的定向(鏈)是已知的并且讀段平鋪圖不需要表示針對(duì)每個(gè)讀段的兩個(gè)鏈的可能性。因?yàn)槲刺剿鱾溥x的讀段定向,所以這樣簡(jiǎn)化了讀段平鋪圖和組裝任務(wù)。

讀段平鋪圖構(gòu)建分兩步執(zhí)行。第一步標(biāo)識(shí)超過得分閾值的所有讀段-讀段重疊。第二步修剪平鋪圖中的邊緣,以僅保留用于構(gòu)建重疊群的完整平鋪所需的重疊的最小集合。

k-mer哈希策略被用于加快讀段-讀段重疊的標(biāo)識(shí)。每個(gè)讀段被分解為所有可能的k-mer的集合(例如,默認(rèn)k-mer大小為50),并且所有讀段-讀段對(duì)被快速篩選用于k-mer的匹配集合。如果找到匹配,如果比對(duì)得分超過預(yù)定的得分截點(diǎn),并且如果對(duì)應(yīng)的k-mer位置并不暗示讀段-讀段比對(duì)中的任何插入或缺失(in/del),則存儲(chǔ)讀段平鋪圖中的兩個(gè)讀段之間的推斷的重疊。比對(duì)得分被計(jì)算為比對(duì)軟件(Smith et al.,(1981)、*Smith et al.,(1981)、Needleman et al.,(1970))中常規(guī)的匹配和錯(cuò)配得分的和。只有在對(duì)應(yīng)的k-mer位置暗示比對(duì)中的插入或缺失時(shí),才計(jì)算完整的讀段-讀段比對(duì)。然而,針對(duì)啟動(dòng)或延伸插入和缺失的懲罰被設(shè)置得足夠高以禁止它們,因此所得到的讀段比對(duì)總是插入/缺失(in/del)自由的。再次,如果得到的全局比對(duì)得分超過截點(diǎn),則重疊被存儲(chǔ)在讀段平鋪圖中。

作為讀段-讀段重疊比對(duì)中不允許插入/缺失(in/del)的結(jié)果,通常從組裝中排除具有in/del序列錯(cuò)誤的讀段。這樣的錯(cuò)誤是相當(dāng)罕見的,并不會(huì)顯著降低讀段覆蓋度。然而,插入/缺失自由的(in/del-free)重疊簡(jiǎn)化并顯著加速了重疊群組裝。注意,真實(shí)插入/缺失(in/del)變體(與參考序列相關(guān))在讀段之間正確比對(duì),因?yàn)樵醋赃@種單體型的所有讀段都包含變異,因此它們的重疊被正確地比對(duì)。

一旦完整的讀段平鋪圖被構(gòu)建,就會(huì)修剪它以消除不必要的和可能的錯(cuò)誤重疊。在修剪之后,對(duì)于每個(gè)讀段只保留(例如,存儲(chǔ))最佳得分重疊(一個(gè)或多個(gè))和為了保持圖中的連接性所必需的重疊(一個(gè)或多個(gè))。為了保持圖的連接性,每個(gè)讀段保留最小的數(shù)量(默認(rèn)一個(gè))的最佳得分重疊(其在3’和5’側(cè)的每一個(gè)上延伸讀段),然而這些連接的讀段也必須具有在相同側(cè)上延伸讀段的、自己的最小數(shù)量的重疊。例如,在具有默認(rèn)最小數(shù)量的一個(gè)連接的情況下,如果讀段具有與另一讀段(在3’側(cè)上擴(kuò)展讀段)的至少一個(gè)重疊,并且該擴(kuò)展讀段本身具有與另一讀段(在3’側(cè)上擴(kuò)展該擴(kuò)展讀段)的至少一個(gè)重疊,則認(rèn)為在3’側(cè)上滿足讀段的連接(例如,參見圖2)。然后如果在過程開始時(shí)具有這樣的連接,則讀段維持其在圖形中的連接性,并且可以從3’和5’側(cè)的重疊邊緣到達(dá)。因此,由不具有覆蓋間隙的連續(xù)讀段堆積支持的任何序列都可以利用讀段連接維持不中斷的路徑。

剪枝算法遍歷所有讀段并維持針對(duì)每個(gè)讀段所保留的重疊列表。在每次迭代中,對(duì)于每個(gè)讀段,除非讀段已經(jīng)滿足在每一側(cè)上所需的最小數(shù)量的連接(例如,在一側(cè)上連接到讀段,其中讀段在同一側(cè)上也具有(多個(gè))連接),否則過程選擇在3’和5’側(cè)上延伸讀段的最佳的得分重疊(或多個(gè)重疊,如果存在具有相同得分的多個(gè)重疊)。當(dāng)每個(gè)讀段在每一側(cè)上具有所需的最少數(shù)量的連接時(shí),剪枝迭代終止。如果讀段耗盡所有重疊,則其不需要滿足所需數(shù)量的連接。這樣的讀段很可能是位于重疊群端部處的讀段,或具有太多的測(cè)序錯(cuò)誤、與其他讀段沒有任何重疊的讀段。在終止迭代之后,算法將刪除不在保留邊緣列表中的所有重疊邊緣。應(yīng)該注意,如果重疊讀段中的任何一個(gè)認(rèn)為需要該連接,則該重疊邊緣被保留。例如,如果存在跨越多態(tài)性的兩個(gè)讀段(每一個(gè)在相對(duì)的單體型上),并且正好在多態(tài)位置外部的讀段具有與兩個(gè)多態(tài)讀段的重疊,則外部的讀段可以保留與多態(tài)讀段中的僅一個(gè)的重疊來滿足其連接,然而另一個(gè)多態(tài)讀段可能需要與該讀段的連接以維持其自身的連接性,因此在多態(tài)性外部的讀段保留兩個(gè)重疊(圖3)。這確保了從所有單體型特定的讀段到達(dá)多個(gè)單體型所共有的序列延伸的讀段。

重疊群組裝組件

重疊群組裝組件使用讀段平鋪圖來收集重疊讀段并擴(kuò)展圖形中重疊讀段的路徑。每個(gè)重疊群組裝從單個(gè)讀段開始。重疊群組裝首先組裝從組裝器試圖識(shí)別的區(qū)域(例如,感興趣的基因組區(qū)域)的3’側(cè)和5’側(cè)挑選的讀段啟動(dòng)的兩個(gè)重疊群。每個(gè)重疊群僅使用每個(gè)讀段一次,但不同的重疊群可以共享讀段。重疊群建立過程通過在遇到多態(tài)位置時(shí)分裂現(xiàn)有的重疊群來創(chuàng)建新的重疊群。一旦完成兩個(gè)初始的重疊群和它們的分裂重疊群,重疊群組裝器檢查未在任何重疊群中使用的讀段的集合。如果在未使用的讀段中發(fā)現(xiàn)大于截點(diǎn)(計(jì)算為已組裝的重疊群的平均覆蓋深度的百分比,默認(rèn)值為10%)的讀段的連接集群,則從集群中的一個(gè)讀段開始建立新的重疊組。開始新的重疊群直到不存在大于截點(diǎn)的未使用的讀段集群。

重疊群建立器保留在重疊群中使用的所有讀段的蹤跡并將它們分成兩組:(在讀段平鋪圖中使用重疊)已募集了其重疊讀段的讀段以及尚未被募集的讀段。建立器還保留3’和5’的“所有募集的”邊界(即,邊緣)。在尚未被募集的第一個(gè)讀段的起始的之前,“所有募集的”邊界被設(shè)置在3’側(cè)上(在5’側(cè)上等同)。因此,這些邊界在不斷增加的重疊群中設(shè)置了不會(huì)被新募集的讀段改變其讀段構(gòu)成的間隔(例如,前進(jìn)位置)。因此,從“所有募集的”間隔內(nèi)部的讀段堆積計(jì)算共有序列是安全的。

通過重復(fù)以下三個(gè)步驟進(jìn)行重疊群的建立:

(1)使用尚未被募集的、并且與當(dāng)前“所有募集的”3’或5’邊界外部的位置1堿基重疊的讀段募集新讀段(見圖4)。被募集的讀段必須被包含在募集讀段中,或者將讀段延伸到外部-遠(yuǎn)離“所有募集的”邊緣。

(2)重新計(jì)算“所有募集的”邊界。如果邊界的該側(cè)上的任何讀段募集了當(dāng)其被放置在重疊群中時(shí)以相同的位置開始的讀段,則3’邊界可能沒有改變。類似地,5’邊界可能沒有改變。然而,如果新放置的讀段留下較大的間隙,則兩個(gè)“所有募集的”邊界中的任何一個(gè)可以移位多個(gè)堿基。

(3)使用“所有募集的”間隔內(nèi)部的讀段堆積來計(jì)算新的“所有募集的”間隔邊界的共有序列。

當(dāng)不存在未被募集的讀段時(shí),重疊群建立迭代終止。如果重疊群建立到達(dá)被募集的讀段覆蓋的區(qū)域的端部(或到達(dá)覆蓋中的間隙),并且邊緣上的讀段不具有將重疊群擴(kuò)展到任一側(cè)的任何重疊讀段,則會(huì)發(fā)生這種情況。

當(dāng)共有序列的計(jì)算遇到多態(tài)位置(即,讀段堆積包含兩個(gè)或更多不同堿基的顯著的計(jì)數(shù)的位置)時(shí),當(dāng)前的重疊群被分裂成表示兩個(gè)(或多個(gè))可能的單體型的兩個(gè)(或多個(gè))。然而,僅當(dāng)堿基的計(jì)數(shù)超過該位置處的覆蓋度的10%或至少5個(gè)讀段時(shí),堿基計(jì)數(shù)才被認(rèn)為是顯著的。因此,讀段中的隨機(jī)堿基響應(yīng)錯(cuò)誤將可能不會(huì)觸發(fā)重疊群分裂。此時(shí),還針對(duì)單體型依從性檢查多態(tài)讀段。如果重疊群先前已經(jīng)在一些位置處被分裂,則分裂過程檢查讀段或其配對(duì)物是否與先前的分裂位置重疊,并收集確實(shí)重疊的讀段的計(jì)數(shù)(見圖5)。如果針對(duì)一個(gè)多態(tài)性堿基的讀段(或其配對(duì)物)確實(shí)與具有顯著計(jì)數(shù)(默認(rèn)為至少5個(gè))的位置重疊,但是一些其他多態(tài)堿基讀段和其配對(duì)物沒有跨過該位置(計(jì)數(shù)0),則該多態(tài)堿基不會(huì)用于分裂另一個(gè)重疊群,并且這些多態(tài)讀段及其配對(duì)物將從重疊群中被移除(參見圖6)。這種設(shè)計(jì)決策背后的理由是為了防止其單體型已在另一重疊群中分離的多態(tài)位置上的分裂。如果多態(tài)位置與已將重疊群分裂為兩個(gè)(或多個(gè))的先前多態(tài)位置間隔足夠遠(yuǎn),并且讀段重疊允許從已分裂的單體型再次募集一些讀段,則這些讀段(其自身或其讀段配對(duì)物)將不具有與先前的分裂位置的重疊,因?yàn)樵撐恢靡呀?jīng)被“純化”以包含僅屬于其單體型的讀段。因此,這些讀段(及其讀段配對(duì)物)將從該重疊群中被刪除,但是將很可能被用于已在先前的分裂位置處分裂的重疊群中。

重疊群分裂的過程涉及復(fù)制兩個(gè)重疊群中的讀段成員(除了跨多態(tài)位置的讀段),其中每個(gè)重疊群將采用具有其被分配的堿基的讀段。將多態(tài)讀段及其配對(duì)物一起分配給其相應(yīng)的重疊群。由于配對(duì)物重新分配可能會(huì)消除“所有募集的”間隔的某些部分中的讀段覆蓋度(這是罕見的),我們需要重新識(shí)別每個(gè)分裂重疊群中的共有序列,將N分配給覆蓋度完全丟失的區(qū)域。

因?yàn)榉至殉鲂碌闹丿B群并建立它們?cè)谟?jì)算上是昂貴的,所以我們采用了幾種檢查來減少幾何的重疊群增加:

1、如果在其他重疊群中遇到了相同的分裂(利用多態(tài)讀段的相同集合并且在讀段的相同位置處分裂),則分裂不生成新的重疊群(一個(gè)或多個(gè))。這些分裂位置對(duì)應(yīng)于“閉合單體型氣泡”,并且具有其對(duì)應(yīng)“重復(fù)”的這些“未采用”的分裂被保存。隨后在“未采用”的分裂之后,通過將所有可能的重疊群序列末端連接到重疊群,這些“未采用”路徑被添加。這些末端取自“重復(fù)的”分裂重疊群和在此位置后分裂的所有重疊群(見圖7)。該標(biāo)準(zhǔn)假設(shè)遇到“重復(fù)的”分裂之前的潛在不同的讀段成員不會(huì)因讀段重用的約束而導(dǎo)致不同的末端。假設(shè)一旦在重疊群中遇到相同的讀段堆積,可能的末端相同。

2、如果分裂多態(tài)讀段不能募集任何新的讀段以擴(kuò)展分裂的重疊群,則這該重疊群被標(biāo)記為“死胡同”,并且不會(huì)用于超重疊群的構(gòu)建。我們觀察到,當(dāng)重疊群遇到具有系統(tǒng)的堿基響應(yīng)錯(cuò)誤的讀段的集合時(shí)會(huì)發(fā)生這些分裂。特別是在具有挑戰(zhàn)性的領(lǐng)域(如STR區(qū)域),這些可能是非常普遍的。

3、如果通過重復(fù)已在重疊群中采用的分裂檢測(cè)到圖形循環(huán)(非常罕見),則該重疊群被標(biāo)記為“壞的”并終止。這些重疊群也不用于超重疊群的構(gòu)建。

如上所述組裝的重疊群被過濾掉重復(fù)。這些重復(fù)可能來自于從兩個(gè)讀段開始組裝相同區(qū)域的重復(fù)工作-一個(gè)從3’側(cè),另一個(gè)從5’側(cè)。然而,兩個(gè)起始點(diǎn)給了重疊群組裝器抵抗貪婪的讀段募集過程的缺點(diǎn)(其中讀段由重疊群中與其在讀段平鋪圖中有重疊的第一讀段募集)的更好的魯棒性。從兩個(gè)方向探索圖中的路徑可能會(huì)導(dǎo)致在某種程度上不同的組裝序列中的一些情況。

超重疊群組裝組件

先前步驟中組裝的重疊群可以跨越Kragle試圖識(shí)別的整個(gè)區(qū)域,或者可以在覆蓋度下降的地方或者在高讀段錯(cuò)誤率(通常是系統(tǒng)錯(cuò)誤)禁止高得分讀段-讀段重疊的地方終止。在這種情況下,讀段對(duì)可用于將重疊群鏈接在一起以形成超重疊群。如果讀段對(duì)中的讀段之間的間隙允許將它們放置在兩個(gè)相鄰的重疊群中,橫跨重疊群之間的覆蓋間隙,則這樣的讀段對(duì)可以通知重疊群鏈接及其定向。

超重疊群構(gòu)建涉及構(gòu)建將重疊群作為頂點(diǎn)并將所標(biāo)識(shí)的鏈接作為定向邊緣的圖。經(jīng)定向的邊緣被記錄,其中重疊群對(duì)共享具有相同定向的至少最小數(shù)量的讀段對(duì)(默認(rèn)設(shè)置的最小數(shù)量為平均重疊覆蓋的10%或至少5個(gè)讀段對(duì))。通過遍歷圖中所有路徑,同時(shí)避免循環(huán),從具有0入度的所有頂點(diǎn)開始并以具有0出度的頂點(diǎn)結(jié)束(例如,參見圖8),重疊群然后被連接到超重疊群。未連接到任何其他重疊群的重疊群(例如,具有0入度和0出度)創(chuàng)建僅具有一個(gè)重疊群的超重疊群。

單體型分析器

由于重疊群和超重疊群構(gòu)建創(chuàng)建了所有可能的序列排列,所以超重疊群表示可能的單體型序列,其將被組合以在識(shí)別系統(tǒng)中生成正確的倍性(即,二倍體)序列假設(shè)。單體型分析器啟動(dòng)單體型對(duì)象,并執(zhí)行所有讀段到所有單體型序列的重新映射。該重新映射還包括在“識(shí)別系統(tǒng)”部分中描述的映射權(quán)重的預(yù)計(jì)算。單體型分析器執(zhí)行對(duì)單體型序列中的錯(cuò)誤結(jié)點(diǎn)和錯(cuò)誤插入的標(biāo)識(shí)。單體型分析器與識(shí)別系統(tǒng)分離的主要原因是:在將單體型組合成序列假設(shè)之前,允許識(shí)別程序(calling program)有機(jī)會(huì)基于錯(cuò)誤結(jié)點(diǎn)和錯(cuò)誤插入的標(biāo)識(shí)的結(jié)果來過濾單體型。在每個(gè)單體型對(duì)象中列出了所標(biāo)識(shí)的錯(cuò)誤結(jié)點(diǎn)和錯(cuò)誤插入,并確定了讀段支持的必要信息。識(shí)別程序可以使用關(guān)于支持信息的截點(diǎn)來應(yīng)用其自身的單體型過濾的嚴(yán)格性。

錯(cuò)誤結(jié)點(diǎn)標(biāo)識(shí)

該算法目標(biāo)在于標(biāo)識(shí)屬于基因組不同部分的、并且由于某些序列相似性而參與組裝過程的序列之間的結(jié)點(diǎn)。序列相似性將允許一些讀段加入序列,然而結(jié)點(diǎn)將被稀疏覆蓋。因此,這些結(jié)點(diǎn)可以被標(biāo)識(shí)為序列中的點(diǎn),其中橫跨結(jié)點(diǎn)位置的讀段對(duì)的數(shù)量遠(yuǎn)低于預(yù)期。該算法通過計(jì)算一些距離(例如,插入尺寸分布范圍)外的讀段配對(duì)物的預(yù)期數(shù)量并將它們與觀察到的計(jì)數(shù)進(jìn)行比較來找到可能的錯(cuò)誤結(jié)點(diǎn)。低觀察/預(yù)期比的位置然后被標(biāo)記為可能的錯(cuò)誤結(jié)點(diǎn)??梢允褂每ǚ綑z驗(yàn)來確定觀察-預(yù)期差的顯著性,然而,隨著對(duì)插入尺寸分布中具有合理變異性的位置的覆蓋度的增加,這樣的p值將變得越來越敏感。

該算法使用插入尺寸分布的平均值附近的非中心帶來測(cè)試錯(cuò)誤結(jié)點(diǎn)。使用插入尺寸分布平均值附近帶的-20%和+80%(例如,對(duì)于Illumina讀段對(duì)文庫(kù),當(dāng)前尺寸為50)的間隔來計(jì)算預(yù)期計(jì)數(shù)并用于搜索觀察到的計(jì)數(shù)。該算法單獨(dú)地處理針對(duì)向前讀段和反向讀段(以反方向的)的觀察和預(yù)期計(jì)數(shù),然后找到比率中的局部最小值。該算法報(bào)告報(bào)告超過規(guī)定比率截點(diǎn)的所有局部最小值。在向前和反向兩個(gè)方向中執(zhí)行搜索可以給出結(jié)點(diǎn)的算法確認(rèn)。

然而,該算法在某些情況下可能會(huì)產(chǎn)生假陽性,因此必須謹(jǐn)慎進(jìn)行具有錯(cuò)誤插入的單體型的過濾。該算法針對(duì)被壓縮成兩個(gè)等位基因的讀段長(zhǎng)度的大純合重復(fù)產(chǎn)生假陽性。在這種情況下,將不會(huì)存在跨越壓縮的重復(fù)序列的任何讀段,但預(yù)期的計(jì)數(shù)仍然可能很大。該算法還可能錯(cuò)誤地標(biāo)記高度錯(cuò)誤的位置(Illumina測(cè)序過程中的系統(tǒng)和相關(guān)錯(cuò)誤)。高度錯(cuò)誤的序列位置將具有與映射讀段低的覆蓋度(具有太多錯(cuò)誤的讀段將不映射),從而可能導(dǎo)致預(yù)期計(jì)數(shù)和觀查計(jì)數(shù)之間的差異。

錯(cuò)誤插入標(biāo)識(shí)

錯(cuò)誤插入檢測(cè)算法旨在使用結(jié)點(diǎn)處的一些序列相似性來檢測(cè)在側(cè)翼處與親代序列連接的外來(或錯(cuò)位)序列的插入。這樣的插入可以通過使用錯(cuò)誤結(jié)點(diǎn)的配對(duì)(如上所述)來潛在地被標(biāo)識(shí),然而,下面描述的專用算法比錯(cuò)誤結(jié)點(diǎn)算法更加敏感和特異。

對(duì)于讀段對(duì)意外地跳過序列的片段的情況,可以通過檢查讀段配對(duì)物對(duì)的位置來標(biāo)識(shí)錯(cuò)誤插入,其中被插入的序列具有只映射到其中而不映射到其外部的讀段對(duì)(參見圖9)。該算法在前進(jìn)和反向兩個(gè)方向上進(jìn)行搜索。首先找到不重疊的配對(duì)物對(duì)被分隔開大于插入尺寸分布的平均值的距離的區(qū)域。讀段中間的中點(diǎn)標(biāo)記了假設(shè)插入的起始和結(jié)束。然后,該算法嘗試定位完全包含在假設(shè)插入內(nèi)的讀段對(duì)。如果找到這樣的讀對(duì),則該算法將插入邊緣細(xì)化為這些讀段的最左邊和最右邊的堿基。然后,在該間隔內(nèi),算法在每個(gè)位置處計(jì)算未被完全包含的讀段對(duì)對(duì)被完全包含的讀段對(duì)的污染。如果在任何位置處,外部讀段對(duì)的污染低于截點(diǎn),則該區(qū)域被報(bào)告為可能的錯(cuò)誤插入。

識(shí)別系統(tǒng)

由單體型分析器產(chǎn)生的單體型可以被過濾掉錯(cuò)誤結(jié)點(diǎn)和錯(cuò)誤插入,然后被組合以創(chuàng)建單倍體、二倍體或一般而言的任何倍性的序列假設(shè)。對(duì)于二倍體序列假設(shè),識(shí)別系統(tǒng)探索了所有可能的單體型對(duì),包括由相同單體型的兩個(gè)拷貝組成的純合排列。因此,二倍體假設(shè)評(píng)估過程的計(jì)算復(fù)雜度與單體型數(shù)量的平方成比例。因此,為了避免專設(shè)的單體型和假設(shè)過濾,假設(shè)似然性評(píng)估必須具有計(jì)算效率。Carnevali(Carnevali et al.2012)描述的統(tǒng)計(jì)框架在某些方面被認(rèn)為是失敗的。例如Carnevali的框架未能適應(yīng)任何等位基因比率(對(duì)于嵌合體和癌癥基因組)。等式(2)的統(tǒng)計(jì)框架被擴(kuò)展和修改以適應(yīng)任何等位基因比率(嵌合體和癌癥基因組)。這個(gè)新框架(例如,參見等式1)也允許針對(duì)每個(gè)單體型對(duì)似然性計(jì)算的許多分量進(jìn)行預(yù)先計(jì)算,因此將單體型與二倍體假設(shè)配對(duì),并且計(jì)算它們的似然性僅需要相當(dāng)微不足道的計(jì)算量。

其中G表示任何倍性的基因組序列,G0表示參考基因組序列,或任何其他固定序列假設(shè)。{R}表示讀段對(duì)的集合,并且讀段對(duì)的數(shù)目為NR。NG和NG0分別表示基因組G和G0中的堿基數(shù)。M表示讀段對(duì)中兩個(gè)讀段的映射位置,并且讀段對(duì)R的所有可能的映射位置的集合由{M}表示。

P(R|G,M)可以被計(jì)算為基因組中給定映射位置的匹配和錯(cuò)配堿基概率(Carnevali et al.2012)與由讀段對(duì)的兩個(gè)讀段的映射M暗示的插入尺寸的概率的乘積。匹配和錯(cuò)配概率可以從測(cè)序平臺(tái)分配的堿基響應(yīng)錯(cuò)誤率推導(dǎo)出。

P(R|G,M)=P(IM)*∏iP(bi|G[M(i)]) (等式3)

其中IM是由讀段對(duì)的映射M暗示的插入尺寸,并且概率P(IM)可以從經(jīng)驗(yàn)插入尺寸分布獲得。乘積∏i接管讀段對(duì)中的所有位置i,并且P(bi|G[M(i)])是基因組G中被映射的參考?jí)A基在被映射的位置i處生成讀段對(duì)中的被映射堿基bi的概率。這些可以使用測(cè)序儀提供的估計(jì)堿基響應(yīng)錯(cuò)誤概率來計(jì)算。

P(bi|G[M(i)])=(1-εi)δ[bi,G[M(i)]]+(εi/3)(1-δ[bi,G[M(i)]]) (等式4) 在該等式中,如果Kronecker符號(hào)δ的兩個(gè)參數(shù)相同,則其定義為1,否則為0,并且εi是讀段對(duì)中位置i處針對(duì)堿基響應(yīng)的錯(cuò)誤概率。G[M(i)]是基因組G中、讀段對(duì)中的堿基bi使用映射M被映射到的堿基。

即使對(duì)于小基因組,可能映射的整個(gè)集合上的讀段概率P(R|G,M)的和也可能是計(jì)算上難以處理的。兩個(gè)讀段的所有可能位置的組合可能太多而無法枚舉。然而,僅存在到基因組的很少映射將對(duì)和作出顯著貢獻(xiàn)。因此,所有可能的映射之上的和可以被劃分成“良好”映射之和(稱為映射權(quán)重W(R,G)),而對(duì)和的剩余的小的貢獻(xiàn)可以被聚合到一個(gè)小項(xiàng)α:

在局部de novo測(cè)序中,可以使用α捕獲在被組裝區(qū)域之外的映射權(quán)重的概率和。一些讀段,特別是包含低復(fù)雜度序列的讀段,可以具有到參考基因組的多個(gè)映射,因此它們?cè)诟信d趣區(qū)域的位置是不確定的,并且應(yīng)該伴隨較大的α,這有效地降低了它們對(duì)似然比的貢獻(xiàn)。

上述等式2因此可以被擴(kuò)展和修改為適應(yīng)具有不同比率的等位基因的以下等式1:

其中G是針對(duì)預(yù)定倍性的基因型序列,G0是參考序列,{R}是讀段配對(duì)物對(duì)R的集合,NAG是基因型序列G中的等位基因AG的數(shù)量,NAG0是在參考序列G0中等位基因AG0的數(shù)量,以及FAG是基因型序列G中等位基因AG的分?jǐn)?shù),F(xiàn)AG0是參考序列G0中等位基因AG0的分?jǐn)?shù),W是讀段對(duì)映射權(quán)重,α是映射概率常數(shù)。在一些實(shí)施例中,根據(jù)等式(1)的推導(dǎo)或等式(1)的變形來確定基因型似然比。在二倍體基因組中,兩個(gè)等位基因分?jǐn)?shù)各自為0.5。

使用上面的等式,W(R,AG)可以表示為以下等式6:

如上所述,α捕獲在被組裝的區(qū)域中的映射位置Mgood的集合之外的可能映射的映射權(quán)重的和。每個(gè)映射程序提供映射質(zhì)量值(mapQ),映射質(zhì)量值是錯(cuò)誤的比對(duì)的phred變換概率(mapQ=-10*log10(PwrongAlignment))。這個(gè)概率不是所有可能的備選映射位置處的映射權(quán)重的和,因此開發(fā)了縮放,將mapQ的轉(zhuǎn)化近似為映射權(quán)重(WmapQ)的和??s放的目的在于使得對(duì)于高mapQ值(即,BWA中為60),WmapQ的貢獻(xiàn)可忽略,并且對(duì)于mapQ=0,WmapQ具有貢獻(xiàn)1(大的值)。因此,等式5中的α可以進(jìn)一步擴(kuò)展為:

α=WmapQR (等式7)

其中對(duì)于非常高的mapQ值(當(dāng)WmapQ可忽略時(shí)),αR是捕獲位置外部的剩余映射權(quán)重的非常小的常數(shù)。

WmapQ使用以下等式獲得:

WmapQ=10mapQ*f/-10 (等式8)

pmax=-10*log10R)+100 (等式10)

由于WmapQ是針對(duì)讀段對(duì)計(jì)算的值,所以上述等式中的mapQ值是讀段對(duì)中兩個(gè)讀段的最大值。因此,如果讀段對(duì)中的讀段中的一個(gè)在組裝區(qū)域中具有令人信服的唯一映射,則假設(shè)第二讀段也唯一地屬于該組裝區(qū)域。

從上面的等式可以看出,mapQ變換的操作范圍是在30和60的mapQ值之間。對(duì)于小于30的值(低質(zhì)量讀段),WmapQ的值可以與良好映射的映射權(quán)重相當(dāng)。這有效地降低了等式1中讀段對(duì)對(duì)總體概率的貢獻(xiàn)。另一方面,對(duì)于值接近60的mapQ(高質(zhì)量映射),WmapQ小于αR,因此可忽略,并且α≈αR。

上述等式6-等式10允許針對(duì)每個(gè)讀段對(duì)和每個(gè)等位基因(超重疊群)預(yù)計(jì)算讀段對(duì)權(quán)重,并且可以在假設(shè)似然性計(jì)算期間重新調(diào)用該值。這種預(yù)計(jì)算顯著地加快了似然比的計(jì)算,從而允許對(duì)從數(shù)千個(gè)超重疊群構(gòu)建的所有二倍體假設(shè)進(jìn)行實(shí)時(shí)評(píng)估。在一些實(shí)施例中,為了便于計(jì)算針對(duì)所有讀段的讀段權(quán)重,識(shí)別系統(tǒng)將所有讀段重新比對(duì)到所有超重疊群。

似然比計(jì)算要求識(shí)別系統(tǒng)將所有讀段映射到參考基因組或選擇序列假設(shè)中的一個(gè)作為參考。默認(rèn)第一假設(shè)為參考,然后相對(duì)于第一假設(shè)計(jì)算所有似然性。任何兩個(gè)假設(shè)的對(duì)數(shù)似然比可以相減來獲得它們的相對(duì)似然比。這允許計(jì)算最靠前假設(shè)與任何其他假設(shè)的似然比,以獲得置信度測(cè)量。

本文參考的每個(gè)專利、專利申請(qǐng)、出版物和文獻(xiàn)的整體內(nèi)容通過引用并入本文。上述專利、專利申請(qǐng)、出版物和文件的引用不是承認(rèn)上述任何內(nèi)容是相關(guān)的現(xiàn)有技術(shù),也不構(gòu)成對(duì)這些出版物或文獻(xiàn)的內(nèi)容或日期的任何承認(rèn)。

在不脫離本技術(shù)的基本方面的情況下,可以對(duì)前述內(nèi)容進(jìn)行修改。雖然已經(jīng)參考一個(gè)或多個(gè)具體實(shí)施例大致詳細(xì)地描述了本技術(shù),但是本領(lǐng)域普通技術(shù)人員將認(rèn)識(shí)到可以對(duì)本申請(qǐng)中具體公開的實(shí)施例進(jìn)行改變,但是這些修改和改進(jìn)在本技術(shù)的范圍和精神內(nèi)。

本文示例性地描述的技術(shù)適當(dāng)?shù)乜梢栽跊]有本文具體公開的任何元件(一個(gè)或多個(gè))的情況下實(shí)踐。因此,例如,在本文的每個(gè)實(shí)例中,任何術(shù)語“包括”、“基本上由...組成”和“由...組成”可以使用其他兩個(gè)術(shù)語中的任一個(gè)替代。已經(jīng)使用的術(shù)語和表達(dá)用作描述的非限制性術(shù)語,并且這些術(shù)語和表達(dá)的使用不排除所示出和描述的特征或其部分的任何等同物,并且在所要求保護(hù)的技術(shù)的范圍內(nèi),可以進(jìn)行各種修改。除非上下文清楚描述了元素中的任一個(gè)或元素的多個(gè),否則術(shù)語“一”或“一個(gè)”可以指其修飾的元素中的一個(gè)或多個(gè)(例如,“一個(gè)試劑”可以是一個(gè)或多個(gè)試劑)。本文所使用的術(shù)語“約”是指基礎(chǔ)參數(shù)的10%內(nèi)的值(即,加或減10%),并且在一串值的開頭使用的術(shù)語“約”修飾每個(gè)值(即,“約1、2和3”是指約1、約2和約3)。例如,“約100克”的重量可以包括90克和110克之間的重量。此外,當(dāng)本文描述值列表(例如,約50%、60%、70%、80%、85%或86%)時(shí),該列表包括其所有中間值和分?jǐn)?shù)值(例如,54%、85.4%)。因此,應(yīng)當(dāng)理解,雖然已由代表性實(shí)施例和可選特征具體公開了本技術(shù),但是本領(lǐng)域技術(shù)人員可以采用本文所公開的概念的修改和變化,并且這些修改和變化被認(rèn)為在本技術(shù)的范圍內(nèi)。

本技術(shù)的某些實(shí)施例在所附權(quán)利要求書中闡述。

參考文獻(xiàn)

Carnevali,P.,et al.2012.Computational Techniques for Human Genome Resequencing Using Mated Gapped Reads.J.Comput.Biol.19,279-292.Idury RM,Waterman MS(1995)J.Comput.Biol.2(2):291-306.

Pevzner PA,Tang H,Waterman MS(2001)Proc.Natl.Acad.Sci.U S A.98(17):9748-53).

Myers EW(2005)Bioinformatics 21:Suppl 2:ii79-85).

Myers EW,et al.,(2000)Science 287(5461):2196-204).

Smith TF,Waterman MS(1981)J.Theor.Biol.91(2):379-80.

*Smith TF,Waterman MS(1981)J.Mol.Biol.147(1):195-7.

Needleman SB,Wunsch CD(1970)J.Mol.Biol.48(3):443-53).

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
免费看美女性在线毛片视频| 午夜老司机福利剧场| 午夜免费男女啪啪视频观看 | 中文在线观看免费www的网站| 国产伦人伦偷精品视频| eeuss影院久久| 欧美bdsm另类| 日韩成人在线观看一区二区三区| 成人国产一区最新在线观看| 日韩欧美国产一区二区入口| 在线观看一区二区三区| 最好的美女福利视频网| 精品不卡国产一区二区三区| 又黄又爽又刺激的免费视频.| 一本精品99久久精品77| 国产av一区在线观看免费| 可以在线观看的亚洲视频| 日日干狠狠操夜夜爽| 岛国在线免费视频观看| 久久精品综合一区二区三区| 日本精品一区二区三区蜜桃| 国产精品久久久久久精品电影| 99热只有精品国产| www.999成人在线观看| 美女黄网站色视频| 国产黄a三级三级三级人| 丁香欧美五月| 熟女电影av网| 日本黄色视频三级网站网址| 欧美三级亚洲精品| 永久网站在线| 综合色av麻豆| 男女做爰动态图高潮gif福利片| 免费看光身美女| 99久久精品一区二区三区| 国产av一区在线观看免费| 久久国产精品人妻蜜桃| 亚洲人成网站高清观看| 又爽又黄无遮挡网站| 在线观看午夜福利视频| 男插女下体视频免费在线播放| 嫩草影院新地址| 亚洲无线在线观看| 亚州av有码| 国产高清视频在线观看网站| 天堂√8在线中文| 琪琪午夜伦伦电影理论片6080| 亚洲 国产 在线| 亚洲精品在线美女| ponron亚洲| 男人舔女人下体高潮全视频| 色在线成人网| av福利片在线观看| 又紧又爽又黄一区二区| 少妇高潮的动态图| 国产白丝娇喘喷水9色精品| 搞女人的毛片| 伊人久久精品亚洲午夜| 波多野结衣巨乳人妻| 国产高清三级在线| 啦啦啦韩国在线观看视频| 久久久久久久久中文| 赤兔流量卡办理| av黄色大香蕉| 国产精品一区二区免费欧美| 亚洲精品456在线播放app | 一个人免费在线观看电影| 日本免费a在线| 久久天躁狠狠躁夜夜2o2o| 欧美黑人巨大hd| 麻豆国产97在线/欧美| АⅤ资源中文在线天堂| 成人午夜高清在线视频| 免费高清视频大片| 久久精品国产自在天天线| 亚洲18禁久久av| 欧美一区二区亚洲| 久久久久久久久久黄片| 中文字幕人成人乱码亚洲影| 亚洲片人在线观看| 免费电影在线观看免费观看| 在线观看一区二区三区| 久久99热这里只有精品18| 18禁黄网站禁片免费观看直播| 免费看a级黄色片| 小说图片视频综合网站| 亚洲专区国产一区二区| 女同久久另类99精品国产91| 12—13女人毛片做爰片一| 国产熟女xx| 99精品在免费线老司机午夜| 免费观看精品视频网站| 国产aⅴ精品一区二区三区波| 九色国产91popny在线| 色尼玛亚洲综合影院| 99riav亚洲国产免费| 国产亚洲av嫩草精品影院| 高清毛片免费观看视频网站| 麻豆国产av国片精品| 成人性生交大片免费视频hd| 极品教师在线视频| 校园春色视频在线观看| 老司机午夜福利在线观看视频| 麻豆av噜噜一区二区三区| 高清在线国产一区| 丁香六月欧美| 久久精品国产亚洲av涩爱 | 国产精品电影一区二区三区| 人妻丰满熟妇av一区二区三区| 搞女人的毛片| 小说图片视频综合网站| 国产三级黄色录像| 午夜福利成人在线免费观看| 一个人看的www免费观看视频| 亚洲av.av天堂| 免费看美女性在线毛片视频| 99久久精品国产亚洲精品| 国产激情偷乱视频一区二区| h日本视频在线播放| 久久精品国产亚洲av香蕉五月| av视频在线观看入口| 亚洲最大成人手机在线| a在线观看视频网站| 亚洲精品久久国产高清桃花| 午夜精品在线福利| 欧美成人免费av一区二区三区| 伦理电影大哥的女人| 国产精品av视频在线免费观看| 成人无遮挡网站| 九色国产91popny在线| 国产成+人综合+亚洲专区| 亚洲一区二区三区色噜噜| 欧美性猛交黑人性爽| 男人和女人高潮做爰伦理| 亚洲成av人片免费观看| 久久性视频一级片| 久久性视频一级片| 国产日本99.免费观看| 性欧美人与动物交配| 99久久成人亚洲精品观看| 国产成人av教育| 国产单亲对白刺激| 成人一区二区视频在线观看| 熟妇人妻久久中文字幕3abv| 精品一区二区三区视频在线观看免费| 亚洲精品日韩av片在线观看| 欧美bdsm另类| 九九热线精品视视频播放| 亚洲成av人片免费观看| 又爽又黄a免费视频| 老司机深夜福利视频在线观看| 国产成+人综合+亚洲专区| 亚洲中文字幕一区二区三区有码在线看| 男女做爰动态图高潮gif福利片| 欧美一区二区亚洲| 日韩成人在线观看一区二区三区| 一进一出抽搐gif免费好疼| 婷婷六月久久综合丁香| 国产一区二区三区在线臀色熟女| 男人和女人高潮做爰伦理| 亚洲一区高清亚洲精品| 啦啦啦韩国在线观看视频| 亚洲av五月六月丁香网| 国产精品亚洲一级av第二区| 亚洲成人精品中文字幕电影| www.999成人在线观看| 欧美成人一区二区免费高清观看| 精品一区二区三区视频在线| 亚洲av电影不卡..在线观看| 成人一区二区视频在线观看| 国产亚洲精品av在线| 免费在线观看影片大全网站| 国产免费av片在线观看野外av| 在线观看美女被高潮喷水网站 | 91久久精品国产一区二区成人| 男人和女人高潮做爰伦理| 亚洲成a人片在线一区二区| av专区在线播放| 国产激情偷乱视频一区二区| 欧美三级亚洲精品| 草草在线视频免费看| 欧美一区二区国产精品久久精品| 日韩高清综合在线| 亚洲一区高清亚洲精品| 九色国产91popny在线| 国产精品国产高清国产av| 三级男女做爰猛烈吃奶摸视频| 亚洲精品一区av在线观看| av欧美777| 丰满乱子伦码专区| 可以在线观看的亚洲视频| 国产高清三级在线| 网址你懂的国产日韩在线| 美女免费视频网站| www.www免费av| 亚洲中文日韩欧美视频| 国产欧美日韩一区二区三| 国产麻豆成人av免费视频| 国内精品一区二区在线观看| 亚洲国产欧美人成| 久久人妻av系列| 婷婷精品国产亚洲av在线| 久久午夜福利片| 色综合婷婷激情| 久久99热这里只有精品18| 亚洲人与动物交配视频| 免费av不卡在线播放| 少妇的逼好多水| 老司机午夜福利在线观看视频| 亚洲第一区二区三区不卡| 我要搜黄色片| 看片在线看免费视频| av天堂在线播放| 琪琪午夜伦伦电影理论片6080| 嫩草影院新地址| 热99re8久久精品国产| 成人一区二区视频在线观看| 日本成人三级电影网站| 国产真实伦视频高清在线观看 | 嫩草影院新地址| 又爽又黄无遮挡网站| 9191精品国产免费久久| 91字幕亚洲| 18禁黄网站禁片免费观看直播| 国产精品一区二区三区四区久久| 18美女黄网站色大片免费观看| 很黄的视频免费| 老司机午夜福利在线观看视频| 脱女人内裤的视频| 成人av一区二区三区在线看| avwww免费| 男女视频在线观看网站免费| 成年免费大片在线观看| 精品久久久久久久人妻蜜臀av| 在线观看66精品国产| 一进一出好大好爽视频| 天天躁日日操中文字幕| 国产69精品久久久久777片| a级一级毛片免费在线观看| 身体一侧抽搐| 午夜福利免费观看在线| 亚洲精品456在线播放app | 在线看三级毛片| 免费人成在线观看视频色| 精品国产亚洲在线| 久久人人精品亚洲av| 午夜福利免费观看在线| 亚洲人成电影免费在线| 国产乱人伦免费视频| 在线十欧美十亚洲十日本专区| 国产免费一级a男人的天堂| 国产蜜桃级精品一区二区三区| www.www免费av| 亚洲天堂国产精品一区在线| 永久网站在线| 日韩欧美三级三区| 五月玫瑰六月丁香| 超碰av人人做人人爽久久| 桃色一区二区三区在线观看| or卡值多少钱| 一夜夜www| 久久久国产成人精品二区| 伊人久久精品亚洲午夜| 久久人人精品亚洲av| 99在线人妻在线中文字幕| 免费在线观看成人毛片| 色综合婷婷激情| 欧美一区二区精品小视频在线| 亚洲片人在线观看| 一区二区三区免费毛片| 精品99又大又爽又粗少妇毛片 | 成人一区二区视频在线观看| 国产精品乱码一区二三区的特点| 色在线成人网| 日本a在线网址| 一本一本综合久久| 欧美成人免费av一区二区三区| 脱女人内裤的视频| 国语自产精品视频在线第100页| 五月伊人婷婷丁香| 岛国在线免费视频观看| 97超级碰碰碰精品色视频在线观看| 在线播放无遮挡| 丁香欧美五月| 亚洲一区高清亚洲精品| 亚洲真实伦在线观看| 男人和女人高潮做爰伦理| 亚洲经典国产精华液单 | 757午夜福利合集在线观看| 成年女人永久免费观看视频| 国产探花在线观看一区二区| 欧美黑人欧美精品刺激| 男女那种视频在线观看| 久久精品国产亚洲av香蕉五月| 免费看日本二区| 男人舔奶头视频| 久久久色成人| 动漫黄色视频在线观看| 欧美xxxx黑人xx丫x性爽| 成人永久免费在线观看视频| 深爱激情五月婷婷| 亚洲无线观看免费| 偷拍熟女少妇极品色| 99精品在免费线老司机午夜| 国产精品,欧美在线| 非洲黑人性xxxx精品又粗又长| 亚洲欧美日韩东京热| 欧美+亚洲+日韩+国产| 97超视频在线观看视频| 高清毛片免费观看视频网站| 亚洲欧美日韩高清在线视频| 久久香蕉精品热| 色吧在线观看| 日韩亚洲欧美综合| 精品午夜福利视频在线观看一区| 搞女人的毛片| 最新中文字幕久久久久| 久久6这里有精品| 在线国产一区二区在线| 有码 亚洲区| 国产色爽女视频免费观看| 最新中文字幕久久久久| 精品午夜福利视频在线观看一区| 色在线成人网| 97超级碰碰碰精品色视频在线观看| 久久久久久九九精品二区国产| 国产成人影院久久av| 国产精品1区2区在线观看.| 亚洲av熟女| 国产伦一二天堂av在线观看| 国产伦人伦偷精品视频| 国产熟女xx| 国产一区二区三区在线臀色熟女| 9191精品国产免费久久| 国产一区二区三区在线臀色熟女| 欧美日本视频| 欧美日韩乱码在线| 757午夜福利合集在线观看| 我要搜黄色片| 欧美精品啪啪一区二区三区| 91久久精品国产一区二区成人| 欧美绝顶高潮抽搐喷水| 狠狠狠狠99中文字幕| 久久久久久久久久成人| 男女之事视频高清在线观看| 黄色配什么色好看| 免费搜索国产男女视频| 国产黄片美女视频| 在线观看午夜福利视频| 亚洲电影在线观看av| 午夜免费激情av| 在线a可以看的网站| 亚洲五月天丁香| 看十八女毛片水多多多| 成人无遮挡网站| av天堂中文字幕网| 精品久久久久久久末码| 757午夜福利合集在线观看| 精品免费久久久久久久清纯| 国产探花极品一区二区| 欧美成人性av电影在线观看| 网址你懂的国产日韩在线| 国产精品久久久久久人妻精品电影| 久久精品国产亚洲av涩爱 | 搞女人的毛片| 亚洲aⅴ乱码一区二区在线播放| 日本熟妇午夜| 99国产精品一区二区蜜桃av| 国产白丝娇喘喷水9色精品| 亚洲黑人精品在线| 国产精品亚洲一级av第二区| 久久九九热精品免费| 国产一区二区三区视频了| 久久久色成人| 国产乱人视频| 久久99热6这里只有精品| 2021天堂中文幕一二区在线观| 中文字幕精品亚洲无线码一区| 此物有八面人人有两片| 欧美3d第一页| avwww免费| 日本三级黄在线观看| 国产蜜桃级精品一区二区三区| 丰满人妻熟妇乱又伦精品不卡| 一进一出好大好爽视频| 午夜精品一区二区三区免费看| 欧美精品国产亚洲| 99久久精品一区二区三区| 久久久久久久午夜电影| 欧美日本视频| 日日干狠狠操夜夜爽| 激情在线观看视频在线高清| 最后的刺客免费高清国语| 在线天堂最新版资源| 禁无遮挡网站| 国产高清视频在线播放一区| 51国产日韩欧美| 91午夜精品亚洲一区二区三区 | 久久久久免费精品人妻一区二区| 亚洲性夜色夜夜综合| 日韩欧美国产在线观看| 亚洲欧美日韩无卡精品| 18禁裸乳无遮挡免费网站照片| 波多野结衣巨乳人妻| 他把我摸到了高潮在线观看| 免费在线观看亚洲国产| 悠悠久久av| 国产一区二区在线av高清观看| 在线播放国产精品三级| 亚洲av免费在线观看| 精品国内亚洲2022精品成人| 噜噜噜噜噜久久久久久91| 91狼人影院| 一区二区三区四区激情视频 | 中亚洲国语对白在线视频| 又黄又爽又免费观看的视频| 男女床上黄色一级片免费看| 一进一出抽搐动态| 日日夜夜操网爽| 亚洲欧美日韩无卡精品| 日韩欧美精品免费久久 | 婷婷六月久久综合丁香| 少妇人妻精品综合一区二区 | 国产亚洲精品av在线| 深夜精品福利| 99在线视频只有这里精品首页| 窝窝影院91人妻| 美女免费视频网站| 亚洲精华国产精华精| 欧美日韩亚洲国产一区二区在线观看| 国产精品98久久久久久宅男小说| 久久久久久久久大av| 一级黄片播放器| 老司机深夜福利视频在线观看| 国产主播在线观看一区二区| 99热6这里只有精品| 国产精品1区2区在线观看.| 床上黄色一级片| 婷婷丁香在线五月| 亚洲av成人不卡在线观看播放网| 国产视频内射| 五月伊人婷婷丁香| 久久精品国产亚洲av天美| 色吧在线观看| 看免费av毛片| 午夜福利免费观看在线| 免费在线观看日本一区| 五月伊人婷婷丁香| 最近在线观看免费完整版| 久久久久久久久中文| 一区二区三区高清视频在线| 我的女老师完整版在线观看| 国产人妻一区二区三区在| 一个人看的www免费观看视频| 大型黄色视频在线免费观看| 日本一二三区视频观看| 悠悠久久av| 日韩 亚洲 欧美在线| 久久欧美精品欧美久久欧美| 国产精品亚洲av一区麻豆| 18禁黄网站禁片免费观看直播| 欧美极品一区二区三区四区| 久久国产乱子伦精品免费另类| 日本一二三区视频观看| 欧美乱色亚洲激情| 国产成人福利小说| 中文在线观看免费www的网站| 欧美日本亚洲视频在线播放| 一级黄片播放器| 亚洲成人中文字幕在线播放| 久久伊人香网站| 国产精品,欧美在线| 国产精品久久电影中文字幕| 男人舔奶头视频| 一本一本综合久久| 国产毛片a区久久久久| 乱人视频在线观看| 精品一区二区三区av网在线观看| 国产主播在线观看一区二区| 一级黄片播放器| 国产视频一区二区在线看| 国产黄片美女视频| www日本黄色视频网| 久久久国产成人免费| 日韩精品中文字幕看吧| 国产精品三级大全| 国产综合懂色| 精品国产三级普通话版| 国产69精品久久久久777片| 午夜福利高清视频| 亚洲精华国产精华精| netflix在线观看网站| 亚洲18禁久久av| 国产成人啪精品午夜网站| 2021天堂中文幕一二区在线观| 老司机午夜福利在线观看视频| 男女下面进入的视频免费午夜| av黄色大香蕉| 亚洲av成人av| 久久久久免费精品人妻一区二区| 99久久无色码亚洲精品果冻| 亚洲精品在线美女| 97超级碰碰碰精品色视频在线观看| 97人妻精品一区二区三区麻豆| 国产精品久久久久久久久免 | 我要看日韩黄色一级片| 亚洲国产精品合色在线| 欧美成狂野欧美在线观看| 99国产极品粉嫩在线观看| 99热这里只有精品一区| 日韩欧美三级三区| 韩国av一区二区三区四区| 18美女黄网站色大片免费观看| 亚洲 国产 在线| 免费黄网站久久成人精品 | 人人妻人人看人人澡| 噜噜噜噜噜久久久久久91| 午夜日韩欧美国产| 九九热线精品视视频播放| 麻豆一二三区av精品| 国产成人福利小说| 真人做人爱边吃奶动态| 欧美日韩中文字幕国产精品一区二区三区| 国产综合懂色| 欧美午夜高清在线| 高清在线国产一区| 国产精品免费一区二区三区在线| 中文字幕人妻熟人妻熟丝袜美| 美女黄网站色视频| 亚洲av成人精品一区久久| 亚洲av成人av| 中文字幕久久专区| 亚洲熟妇熟女久久| 精品国内亚洲2022精品成人| 九色成人免费人妻av| 中文字幕久久专区| 国产一区二区在线av高清观看| 丁香六月欧美| 国产精品日韩av在线免费观看| a级一级毛片免费在线观看| 麻豆国产97在线/欧美| 精品久久久久久久人妻蜜臀av| 嫩草影院精品99| 老司机深夜福利视频在线观看| 岛国在线免费视频观看| 婷婷精品国产亚洲av| 禁无遮挡网站| 又粗又爽又猛毛片免费看| 欧洲精品卡2卡3卡4卡5卡区| 亚洲国产欧美人成| 波野结衣二区三区在线| 美女 人体艺术 gogo| 久久精品国产亚洲av香蕉五月| 色综合婷婷激情| 最后的刺客免费高清国语| 国产野战对白在线观看| 亚洲欧美日韩高清在线视频| 亚洲欧美日韩卡通动漫| 亚洲 国产 在线| 黄色丝袜av网址大全| 我要看日韩黄色一级片| 99久久九九国产精品国产免费| 中国美女看黄片| 动漫黄色视频在线观看| 亚洲成av人片免费观看| 成人av一区二区三区在线看| 99在线视频只有这里精品首页| 我的老师免费观看完整版| 亚洲人与动物交配视频| 无遮挡黄片免费观看| 亚洲久久久久久中文字幕| 国产免费av片在线观看野外av| 十八禁国产超污无遮挡网站| 国产精品三级大全| 色5月婷婷丁香| 欧美成人a在线观看| 欧美+亚洲+日韩+国产| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 脱女人内裤的视频| 嫩草影院入口| 自拍偷自拍亚洲精品老妇| 亚洲第一电影网av| 国产成人福利小说| 麻豆成人av在线观看| 欧美中文日本在线观看视频| 精品久久久久久久久av| 一级黄色大片毛片| 欧美中文日本在线观看视频| 国产精品一区二区三区四区久久| 757午夜福利合集在线观看| 简卡轻食公司| 亚洲激情在线av| 日本熟妇午夜| 三级毛片av免费| 亚洲激情在线av| 亚洲欧美日韩东京热| 国产麻豆成人av免费视频| 美女黄网站色视频| 欧美激情久久久久久爽电影| 中文字幕精品亚洲无线码一区| 高清日韩中文字幕在线| 久久久久免费精品人妻一区二区| 国产欧美日韩一区二区精品| 久久99热这里只有精品18| 欧美激情国产日韩精品一区| 国产精品美女特级片免费视频播放器| 高清日韩中文字幕在线| 欧美日韩瑟瑟在线播放| 老司机午夜十八禁免费视频| 欧美午夜高清在线| 国产在线男女| 91久久精品国产一区二区成人| 亚洲 欧美 日韩 在线 免费| 国产真实乱freesex| 亚洲美女黄片视频|