采用定量結(jié)構(gòu)-活性關(guān)系模型預(yù)測有機化合物的土壤或沉積物吸附系數(shù)的制作方法
【專利摘要】本發(fā)明公開了一種采用定量結(jié)構(gòu)-活性關(guān)系模型預(yù)測有機化合物的土壤/沉積物吸附系數(shù)的方法。在已知有機化合物分子結(jié)構(gòu)的基礎(chǔ)上,僅通過計算具有結(jié)構(gòu)特征的分子描述符,應(yīng)用所構(gòu)建的QSAR模型,即能快速、高效地預(yù)測有機化合物的土壤/沉積物吸附系數(shù),該方法簡單快捷、成本低,且能節(jié)省實驗測試所需的人力、物力和財力。本發(fā)明依據(jù)經(jīng)濟(jì)合作與發(fā)展組織關(guān)于QSAR模型的構(gòu)建和使用導(dǎo)則進(jìn)行建模,運用簡單、透明的多元線性回歸分析方法,易于理解和應(yīng)用;具有明確的應(yīng)用域、良好的擬合能力、穩(wěn)健性和預(yù)測能力,能夠有效地預(yù)測應(yīng)用域內(nèi)有機化合物的土壤/沉積物吸附系數(shù),為化合物的生態(tài)風(fēng)險性評價和管理提供必要的基礎(chǔ)數(shù)據(jù),具有重要的意義。
【專利說明】采用定量結(jié)構(gòu)-活性關(guān)系模型預(yù)測有機化合物的土壤或沉積物吸附系數(shù)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于生態(tài)風(fēng)險評價測試策略領(lǐng)域,涉及一種采用定量結(jié)構(gòu)-活性關(guān)系模型預(yù)測有機化合物的土壤/沉積物吸附系數(shù)的方法。
【背景技術(shù)】 [0002]土壤/沉積物吸附系數(shù)是表征有機化合物在土壤/沉積物和水相之間的吸附、分配行為及其環(huán)境歸趨的重要參數(shù),用分配系數(shù)Kp表示,KP=CS/CW,其中Cs和Cw分別表示有機化合物在土壤/沉積物和水中達(dá)到分配平衡時的濃度。由于土壤/沉積物的類型多樣,成分復(fù)雜,為了更加準(zhǔn)確地表征分配行為,引入了標(biāo)準(zhǔn)化的分配系數(shù)K。。,K0C=KP/X0C, Xoc表示土壤/沉積物中有機碳的含量(kg.L-1)。有機化合物在土壤/沉積物和水相之間的分配程度,不僅影響有機化合物的遷移行為,還影響有機化合物的水解、光解及生物降解等過程。因此,獲得有機化合物的K。。值,對于評價該化合物的生態(tài)風(fēng)險性具有重要意義。
[0003]通常,可以通過實驗的方法如高效液相色譜法或批量平衡法測得化合物的K。。值。截至目前,已開展的研究工作中僅有800余種有機化合物具有實驗測定的K。。值。據(jù)估計,目前人類日常使用的有機化學(xué)品達(dá)14萬種以上,并且新的日常使用有機化學(xué)品以每年500~1000種的速度增長。如果僅靠實驗方法對這些有機化學(xué)品的Koc值進(jìn)行一一測定,不僅耗時、耗力,而且,實驗數(shù)據(jù)還具有時間滯后性,不能滿足有毒有害化學(xué)品風(fēng)險管理的“預(yù)先防范原則”。因此,有必要發(fā)展一種非實驗的方法快速預(yù)測有機化合物的K。。值。
[0004]預(yù)測有機化合物Koc值的模型主要有如下兩類:第一類是根據(jù)有機化合物的其他理化參數(shù)如正辛醇/水分配系數(shù)(Kot)、水溶解度(Sw)等建立模型估算K。。值,但是,該類模型僅僅對1(^1((?在0.5-7.5范圍內(nèi)的化合物預(yù)測較為準(zhǔn)確,推廣應(yīng)用受到限制;第二類是根據(jù)有機化合物的分子結(jié)構(gòu)與K。。之間的內(nèi)在聯(lián)系建立定量結(jié)構(gòu)-活性關(guān)系(QSAR)模型估算Koc值,該類模型不受1gKmt值的限制,能夠高效快捷地對有機化合物的K。。值進(jìn)行預(yù)測。
[0005]由于QSAR技術(shù)有助于實現(xiàn)有毒有害化學(xué)品污染管理的“預(yù)先防范原則”,能夠減少或替代相關(guān)實驗,彌補實驗數(shù)據(jù)的缺失、降低實驗費用,在世界各國有毒有害化學(xué)品生態(tài)風(fēng)險性評價和管理方面得到了廣泛的開發(fā)。2004年經(jīng)濟(jì)合作與發(fā)展組織(0E⑶)正式確定了 QSAR模型發(fā)展和使用的導(dǎo)則,具體如下:(I)具有明確定義的環(huán)境指標(biāo);(2)具有明確的算法;(3)定義了模型的應(yīng)用域;(4)有適當(dāng)?shù)臄M合度,穩(wěn)定性和預(yù)測能力;(5)最好能夠進(jìn)行機理解釋。
[0006]截止目前,已有很多研究人員運用QSAR技術(shù)成功建立了有機化合物K。。值的預(yù)測模型。如文獻(xiàn)“J.Environ.Sc1.Health., Part A, 2012,47:441 - 449.” 針對 209 種多氯反式-偶氮苯類化合物,采用遺傳算法-人工神經(jīng)網(wǎng)絡(luò)建立QSPR模型對該類化合物的1gKoc值進(jìn)行預(yù)測,模型具有較好的擬合能力和預(yù)測能力,但是該算法不透明,不利于機理解釋。文獻(xiàn)“Environ.Sc1.Technol.,2006,40(22):7005 - 7011.” 收集了 571 種有機化合物的logK。。值,采用多元線性回歸(MLR)分析建立模型,雖然算法透明,但采用了 29個參數(shù),不便于使用。文獻(xiàn)“QSAR Comb Sci, 2009,28 (5):561 - 567.”收集了同樣的571種有機化合物的logK。。值,采用最小二乘支持向量機的方法建立模型,模型的擬合能力和預(yù)測能力較MLR方法建立的模型有很大的提高,但是該算法不夠透明,不便于應(yīng)用。文獻(xiàn)“Chemosphere,2012, 86:634 - 640.”僅使用由分子結(jié)構(gòu)計算的1gP值作為變量,針對1gP在0.5 - 7.5范圍的化合物建立線性模型預(yù)測logK。。值,對于logP〈0.5或logP>7.5的化合物建立非線性模型進(jìn)行預(yù)測,大大減少了描述符的個數(shù),方便使用,但是,模型的擬合能力不如以往的模型。綜上所述,目前現(xiàn)有模型存在算法不透明或模型參數(shù)多的缺點,并且不能對溴代阻燃劑、真菌毒素和植物雌激素的logK。。值進(jìn)行準(zhǔn)確的預(yù)測。因此,有必要構(gòu)建一個數(shù)據(jù)集涵蓋溴代阻燃劑、真菌毒素和植物雌激素、具有明確算法、便于應(yīng)用推廣的QSAR模型,并且,依照OE⑶導(dǎo)則對模型進(jìn)行機理解釋和表征。
【發(fā)明內(nèi)容】
[0007]本發(fā)明目的是發(fā)展一種高效、快速、簡潔且應(yīng)用范圍廣的有機化合物K。。值的預(yù)測方法。該方法可直接根據(jù)有機化合物的分子結(jié)構(gòu)預(yù)測K。。值,進(jìn)而了解目標(biāo)化合物的遷移和歸趨,為化合物的生態(tài)風(fēng)險性評價和管理提供必要的基礎(chǔ)數(shù)據(jù)。
[0008]本發(fā)明的技術(shù)方案如下:
[0009]首先,搜集得到有機化合物的logK。。值,如果一種化合物的logK。。值有多個來源,則取其平均值,最終得到813種有機化合物的logK。。值,其中有機化合物包括多溴聯(lián)苯醚、多氯聯(lián)苯、酞酸酯、多環(huán)芳烴及其取代物、雜環(huán)化合物及其衍生物、齒代烷烴、齒代烯烴、有機酸、酯、醚、酮、醇、苯酹、苯胺等。對上述的813種有機化合物的logK。。值劃分為訓(xùn)練集和驗證集,訓(xùn)練集包括609種有機化合物,驗證集包括204種有機化合物。訓(xùn)練集中的有機化合物用于構(gòu)建模型,驗證集中的有機化合物用于模型構(gòu)建后的外部驗證。采用去一法對上述構(gòu)建的模型進(jìn)行內(nèi)部驗證。
[0010]上述模型所使用的描述符均為Dragon描述符,用3545個Dragon描述符和訓(xùn)練集中的有機化合物的logK。。值進(jìn)行逐步回歸分析,得到模型的線性關(guān)系式如下:
[0011 ] 1gKoc=0.063 XML0GP2+0.332 X WiA_Dt+0.260 X nHM-0.002 X H_D/Dt+0.338 X 0-061-1.037XHATS4v-0.803XP-117+1.0llXnR=CRX-0.123 XF05N-0+1.185 XB08Br-Br-l.868XR3e+-0.537XB03N-S-0.227 X CATS2D_05_NL+0.220XF02S-S+0.627XnRCN+0.546(1)其中,ML0GP2表示Moriguchi辛醇-水分配系數(shù)的平方;WiA_Dt表示由迂回矩陣得到的Wiener-1ike指數(shù);H_D/Dt表示由迂回矩陣得到的Harary-1ike指數(shù);nHM表示重原子個數(shù);0-061表示硝基上的氧原子碎片數(shù);HATS4v和R3e+是GETAWAY描述符,HATS4v與分子的范德華體積有關(guān),R3e+與分子尺寸、電負(fù)性相關(guān);P-117表示分子中X3-P=X結(jié)構(gòu)存在與否,存在取I,不存在取O ;nR=CRX表示分子中R=CRX結(jié)構(gòu)個數(shù);F05N_0表示分子中N-O在拓?fù)渚嚯x5處出現(xiàn)的頻率;B08Br-Br表示分子中Br-Br結(jié)構(gòu)存在與否,存在取1,不存在取O ;B03N-S表示分子中N-S結(jié)構(gòu)存在與否,存在取1,不存在取O ;CATS2D_05_NL是CATS2D描述符,與分子的親脂性有關(guān);H)2S-S表示分子中S-S在拓?fù)渚嚯x2處出現(xiàn)的頻率;nRCN表示亞硝基個數(shù)。
[0012]最終篩選出15個Dragon描述符用于模型構(gòu)建,每個描述符的變量膨脹因子(VIF)均小于10,自變量與因變量組成的矩陣Myx以及自變量矩陣Mx的K相關(guān)指數(shù)Kyx和Kx分別為0.316和0.284,ΔΚ=Κχ-Κχ=0.032>0,表明模型不存在多重相關(guān)性;模型的相關(guān)系數(shù)的平方(R2)為0.853,均方根誤差(RMSE)為0.473,說明模型具有較好的擬合能力;模型的內(nèi)部交叉驗證系數(shù)(Q\LOO)為0.847,說明模型的穩(wěn)健性較好;外部驗證決定系數(shù)(Q2ext)為0.801,驗證集的均方根誤差(RMSEext)為0.550,表明該模型具有良好的外部預(yù)測能力。相對現(xiàn)有的預(yù)測模型,該模型的應(yīng)用域更廣,涵蓋了溴代阻燃劑、真菌毒素和植物雌激素。該模型采用了 15個描述符,便于模型的應(yīng)用推廣。
[0013]采用Williams圖對模型的應(yīng)用域進(jìn)行表征。當(dāng)化合物的Hat Oii)值大于警戒值(h*)時,說明化合物不在模型應(yīng)用域內(nèi)。Iii和h*由如下公式計算:
[0014]hi=XiT (XtX) ^1Xi(2)
[0015]h*=3 (k+1) /n(3)
[0016]其中Xi是第i個化合物的描述符矩陣;XiT是Xi的轉(zhuǎn)置矩陣;X是所有化合物的描述符矩陣;χτ是X的轉(zhuǎn)置矩陣;(XtX) ―1是矩陣XtX的逆;k是模型中變量的個數(shù)。模型的h*為0.079,因此,該模型適用于對Iii小于0.079的化合物logK。。值的預(yù)測。
[0017]本發(fā)明的有益效果是采用本發(fā)明方法可以通過分子結(jié)構(gòu)特征快速預(yù)測有機化合物的logK。。值。該方法不僅簡單快捷、成本低廉,而且節(jié)省了實驗測定所需的人力、物力和財力。本發(fā)明涉及的logK。。預(yù)測方法的建立和驗證嚴(yán)格依據(jù)OE⑶規(guī)定的QSAR模型發(fā)展和使用導(dǎo)則,因此,使用該發(fā)明專利的logK。。的預(yù)測結(jié)果,可以為化學(xué)品監(jiān)管提供數(shù)據(jù)支持,對化學(xué)品的生態(tài)風(fēng)險性評價具有重要意義。
[0018]本發(fā)明提供的方法具有如下特點:
[0019]1.建模過程采用了透明的算法-MLR,此外,15個描述符用于預(yù)測模型的構(gòu)建,模型簡潔、易于解釋,便于應(yīng)用推廣;
[0020]2.模型的應(yīng)用域廣,涵蓋溴代阻燃劑、真菌毒素和植物雌激素等多種有機化合物,可用于預(yù)測不同種類有機化合物的logK。。值,為化學(xué)品的生態(tài)風(fēng)險性評價和監(jiān)管提供數(shù)據(jù)支持;
[0021]3.建模過程嚴(yán)格依照OE⑶關(guān)于QSAR模型的構(gòu)建和使用導(dǎo)則,所建模型具有良好的擬合能力、穩(wěn)健性和預(yù)測能力。
【專利附圖】
【附圖說明】
[0022]圖1為訓(xùn)練集logK。。的實測值與預(yù)測值的擬合圖,訓(xùn)練集化合物為609種。
[0023]圖2為驗證集logK。。的實測值與預(yù)測值的擬合圖,驗證集化合物為204種。
[0024]圖3為模型的Williams圖,?表示訓(xùn)練集化合物,Λ表示驗證集化合物,警戒值h* 為 0.079。
【具體實施方式】
[0025]實施例1
[0026]給定一個化合物尼古丁,要預(yù)測其logK。。值。首先根據(jù)尼古丁的結(jié)構(gòu)信息,使用Gaussian09軟件包對其進(jìn)行結(jié)構(gòu)優(yōu)化,基于高斯優(yōu)化的結(jié)構(gòu),采用Draogon6.0軟件計算出nHM, WiA_Dt, H_D/Dt, HATS4v, R3e+,nRCN, nR=CRX, 0-061,P-117,CATS2D_05_NL, B03N-S,B08Br-Br, F02S-S,F(xiàn)05N-0 和 ML0GP2 的值分別為 0,5.955,156.433,0.159,[0027]0.069,0,0,0,0,0,0,0,0,O 和 1.619。根據(jù)公式(2)計算的 h 值為 0.005 ?0.079),所以該化合物在模型應(yīng)用域內(nèi),將以上描述符的值代入公式(1),得到logK。。的預(yù)測值為2.02,其實驗測定的logK。。值為2.01,預(yù)測值和實驗值的數(shù)據(jù)非常相符。
[0028]實施例2
[0029]給定一個化合物鄰苯二甲酸二乙酯,要預(yù)測其logK。。值。首先根據(jù)鄰苯二甲酸二乙酯的結(jié)構(gòu)信息,使用GaUssian09軟件包對其進(jìn)行結(jié)構(gòu)優(yōu)化,基于高斯優(yōu)化的結(jié)構(gòu),采用Draogon6.0 軟件計算出 nHM,WiA_Dt, H_D/Dt, HATS4v, R3e+,nRCN, nR=CRX, 0-061,P-117,CATS2D_05_NL, B03N-S, B08Br-Br, F02S-S,F(xiàn)05N-0 和 ML0GP2 的值分別為 0,5.85,203.902,0.102,0.066,0,0,0,0,0,0,1,0,0 和 6.641。根據(jù)公式(2)計算的 h 值為 0.003 (〈0.079),所以該化合物在模型應(yīng)用域內(nèi),將以上描述符的值代入公式(1),得到logK。。的預(yù)測值為
2.27,其實驗測定的logK。。值為1.84,預(yù)測值和實驗值的數(shù)據(jù)非常相符。
[0030]實施例3
[0031]給定一個化合物2-氯聯(lián)苯醚,要預(yù)測其logK。。值。首先根據(jù)2-氯聯(lián)苯醚的結(jié)構(gòu)信息,使用Gaussian09軟件包對其進(jìn)行結(jié)構(gòu)優(yōu)化,基于高斯優(yōu)化的結(jié)構(gòu),采用Draogon6.0軟件計算出 nHM,WiA_Dt, H_D/Dt, HATS4v, R3e+,nRCN, nR=CRX,0-061,P-117,CATS2D_05_NL, B03N-S, B08Br-Br, F02S-S, F05N-0 和 ML0GP2 的值分別為 1,6.462,192.8,0.24,0.111,0,0,0,0,0,0,0,0,0和19.499。根據(jù)公式(2)計算的h值為0.007 ?0.079),所以該化合物在模型應(yīng)用域內(nèi),將以上描述符的值代入公式(I),得到logK。。的預(yù)測值為3.34,其實驗測定的logK。。值為3.47,預(yù)測值和實驗值的數(shù)據(jù)非常相符。
[0032]實施例4
[0033]給定一個化合物甲基對硫磷,要預(yù)測其logK。。值。首先根據(jù)甲基對硫磷的結(jié)構(gòu)信息,使用Gaussian09軟件包對其進(jìn)行結(jié)構(gòu)優(yōu)化,基于高斯優(yōu)化的結(jié)構(gòu),采用Draogon6.0軟件計算出 nHM,WiA_Dt, H_D/Dt, HATS4v, R3e+,nRCN, nR=CRX,0-061,P-117,CATS2D_05_NL,B03N-S, B08Br-Br, F02S-S,F(xiàn)05N-0 和 ML0GP2 的值分別為 2,5.242,184.6,0.258,0.062,0,0,2,0,0,0,0,0,1和2.865。根據(jù)公式(2)計算的h值為0.020 (〈0.079),所以該化合物在模型應(yīng)用域內(nèi),將以上描述符的值代入公式(I),得到logK。。的預(yù)測值為2.79,其實驗測定的logK。。值為3,預(yù)測值和實驗值的數(shù)據(jù)非常相符。
[0034]實施例5
[0035]給定一個化合物2,4-二氯苯氧基乙酸,要預(yù)測其logK。。值。首先根據(jù)2,4-二氯苯氧基乙酸的結(jié)構(gòu)信息,使用Gaussian09軟件包對其進(jìn)行結(jié)構(gòu)優(yōu)化,基于高斯優(yōu)化的結(jié)構(gòu),采用 Draogon6.0 軟件計算出 nHM,WiA_Dt, H_D/Dt, HATS4v, R3e+,nRCN, nR=CRX,
0-061,P-117, CATS2D_05_NL, B03N-S,B08Br-Br, F02S-S,F(xiàn)05N-0 和 ML0GP2 的值分別為 2,
5.231,139.967,0.169,0.139,0,0,0,0,3,0,0,0,0 和 5.543。根據(jù)公式(2)計算的 h 值為0.111 (>0.079),所以該化合物在模型應(yīng)用域外,將以上描述符的值代入公式(1),得到1gKoc的預(yù)測值為1.76,其實驗測定的logK。。值為1.66,預(yù)測值和實驗值的數(shù)據(jù)仍然非常相符,說明對于應(yīng)用域外的化合物,本模型的預(yù)測結(jié)果也具有一定的參考價值。
【權(quán)利要求】
1.采用定量結(jié)構(gòu)-活性關(guān)系模型預(yù)測有機化合物的土壤/沉積物吸附系數(shù),其特征在于, 首先,搜集得到813種有機化合物的logK。。值;將上述的813種有機化合物的logK。。值劃分為訓(xùn)練集和驗證集,訓(xùn)練集包括609種有機化合物,驗證集包括204種有機化合物;其中,訓(xùn)練集中的有機化合物用于構(gòu)建模型,驗證集中的有機化合物用于模型構(gòu)建后的外部驗證;采用去一法對上述構(gòu)建的模型進(jìn)行內(nèi)部驗證; 上述模型所使用的描述符均為Dragon描述符,用3545個Dragon描述符和訓(xùn)練集中的有機化合物的logK。。值進(jìn)行逐步回歸分析,得到模型的線性關(guān)系式如下:
1gKoc=0.063XML0GP2+0.332XffiA_Dt+0.260XnHM-0.002XH_D/Dt+0.338X0-061-1.037XHATS4v-0.803XP-117+1.0llXnR=CRX-0.123XF05N-0+1.185XB08Br-Br-l.868XR3e+-0.537 X B03N-S-0.227 X CATS2D_05_NL+0.220 X F02S-S+0.627XnRCN+0.546其中,ML0GP2表示Moriguchi辛醇-水分配系數(shù)的平方;WiA_Dt表示由迂回矩陣得到的Wiener-1ike指數(shù);H_D/Dt表示由迂回矩陣得到的Harary-1ike指數(shù);nHM表示重原子個數(shù);0-061表示硝基上的氧原子碎片數(shù);HATS4v和R3e+是GETAWAY描述符,HATS4v與分子的范德華體積有關(guān),R3e+與分子尺寸、電負(fù)性相關(guān);P-117表示分子中X3-P=X結(jié)構(gòu)存在與否,存在取1,不存在取O ;nR=CRX表示分子中R=CRX結(jié)構(gòu)個數(shù);F05 [N-0]表示分子中N-O在拓?fù)渚嚯x5處出現(xiàn)的頻率;B08 [Br-Br]表示分子中Br-Br結(jié)構(gòu)存在與否,存在取1,不存在取O ;B03[N-S]表示分子中N-S結(jié)構(gòu)存在與否,存在取1,不存在取O ;CATS2D_05_NL是CATS2D描述符,與分子的親脂性有關(guān);H)2[S-S]分子中S-S在拓?fù)渚嚯x2處出現(xiàn)的頻率;nRCN表示亞硝基個數(shù)。
2.根據(jù)權(quán)利要求1所述的土壤/沉積物吸附系數(shù),其特征在于,所述的有機化合物包括多溴聯(lián)苯醚、多氯聯(lián)苯、酞酸酯、多環(huán)芳烴及其取代物、雜環(huán)化合物及其衍生物、鹵代烷烴、鹵代烯烴、有機酸、酯、醚、酮、醇、苯酚、苯胺 。
【文檔編號】G06F19/00GK103488901SQ201310442993
【公開日】2014年1月1日 申請日期:2013年9月25日 優(yōu)先權(quán)日:2013年9月25日
【發(fā)明者】李雪花, 王雅, 喬顯亮, 陳景文 申請人:大連理工大學(xué)