南開大學(xué)課題組科研成果助力生物能源研究

發(fā)布時間：2020-02-21 14:48:37 來源：

【】

碳水化合物活性酶(CAZyme)是復(fù)雜碳水化合物代謝的最重要的酶之一，植物細(xì)胞壁中的復(fù)雜碳水化合物是動物微生物的主要食物來源，在可持續(xù)生物能源與生物材料生產(chǎn)原料等方面具有極大的潛能。同時,人類腸道微生物在其基因組中編碼了數(shù)百種CAZyme基因，用以降解各種飲食和宿主碳水化合物。

近期，南開大學(xué)計算機與控制工程學(xué)院張瀚教授課題組在CAZyme相關(guān)的生物能源領(lǐng)域中取得一系列研究成果。這些成果包括新一代自動化注釋服務(wù)器的開發(fā)、深度注釋信息在線數(shù)據(jù)庫的提供、CAZyme家族系統(tǒng)發(fā)育樹構(gòu)建的提速設(shè)計與軟件開發(fā)等。此外，張瀚課題組在具有批次效應(yīng)誤差的生物數(shù)據(jù)恢復(fù)上取得重要進展，所設(shè)計方法可較準(zhǔn)確預(yù)測更細(xì)致因子信息，估計真實數(shù)據(jù)，還原數(shù)據(jù)真相。以上科研成果以論文形式，連續(xù)發(fā)表在生物信息學(xué)頂級期刊《核酸研究》(Nucleic Acids Research)和《生物信息學(xué)》(Bioinformatics)上。

事實上，CAZyme不僅是生物能源中最重要的酶，對人類健康也非常重要。在生物能源領(lǐng)域，隨著測序的植物及植物相關(guān)微生物基因組與宏基因組數(shù)量越來越龐大，進行CAZyme相關(guān)基因組數(shù)據(jù)挖掘的重要自動化工具研發(fā)與資源建設(shè)顯得尤為迫切。此外，生物信息數(shù)據(jù)特別是基因表達(dá)數(shù)據(jù)普遍存在著批次效應(yīng)引起的誤差，這是令數(shù)據(jù)使用者非常苦惱的問題。因而預(yù)測引起誤差的因子，以消除數(shù)據(jù)的實驗批次誤差影響，就成為數(shù)據(jù)科學(xué)研究者感興趣的重要問題。

張瀚課題組開發(fā)了新一代dbCAN服務(wù)器dbCAN2，為新測序CAZyme基因組提供全自動CAZyme功能注釋的免費服務(wù)。dbCAN2服務(wù)器的設(shè)計目標(biāo)為提供準(zhǔn)確的自動化的CAZome(基因組的所有CAZymes)注釋，為此在構(gòu)造Profile-HMM模型表示CAZyme家族簽名域(signature domain)的基礎(chǔ)上，服務(wù)器集成了3個最新工具：可搜索dbCAN-HMM(隱馬爾可夫模型)數(shù)據(jù)庫的HMMER、可搜索CAZy預(yù)注釋CAZyme序列數(shù)據(jù)庫的DIAMOND、可搜索CAZyme短序列數(shù)據(jù)庫的HOTPEP。以上3種工具輸出結(jié)果的融合可以顯著提高CAZome注釋的準(zhǔn)確性。此外，dbCAN2還可處理用戶提交的核苷酸序列，提供預(yù)測物理連接的CAZyme基因聚類的服務(wù)，這是一個可用于識別微生物基因組或宏基因組中多糖利用位點(PULs)的非常有用的在線工具。用戶可在dbCAN2服務(wù)器上提交新的已測序基因組，方便快速地得到其所包含CAZyme的數(shù)量與種類等功能注釋信息。新一代服務(wù)器dbCAN2將成為CAZym研究人員獲取全自動CAZyme注釋的主要服務(wù)器。

同樣對于CAZyme，張瀚課題組建立了提供全面深度注釋信息的在線數(shù)據(jù)庫dbCAN-SEQ，為5349個細(xì)菌基因組提供計算出的CAZyme序列和功能注釋數(shù)據(jù)。與其他CAZyme資源相比，dbCAN-SEQ給使用者提供如下新功能：允許批量下載所有序列與注釋數(shù)據(jù)的下載頁面；提供最全面功能注釋數(shù)據(jù)的各CAZyme注釋頁；根據(jù)物種元數(shù)據(jù)如疾病、生活環(huán)境、氧需求、溫度、新陳代謝等方面組織細(xì)菌基因組的元數(shù)據(jù)頁；可識別物理連接的CAZyme酶基因聚類的工具；除此之外，它還提供快速高效數(shù)據(jù)查詢的強大搜索功能。dbCAN-SEQ作為CAZym研究領(lǐng)域的現(xiàn)有主要生物信息數(shù)據(jù)庫，將成為用于CAZyme研究的具有重要價值的Web資源。

張瀚課題組還基于Profile隱馬爾可夫模型之間距離矩陣比較的思想，設(shè)計了可快速有效構(gòu)建系統(tǒng)發(fā)育樹的方法流程，開發(fā)了一套可用于構(gòu)建蛋白質(zhì)家族(如碳水化合物活性酶和Pfam clans)系統(tǒng)發(fā)育樹的在線服務(wù)。

上述研究成果作為3篇論文分別發(fā)表于《核酸研究》(Nucleic Acids Research，2018.05.16在線發(fā)表，gky418)《核酸研究》(Nucleic Acids Research，2018，46，D516)《生物信息學(xué)》(Bioinformatics, 2017,33,1093)。以上論文第一作者分別為張瀚、碩士生黃樂和碩士生霍路陽，南開大學(xué)均為第一單位。論文通訊作者為張瀚與美國北伊利諾伊大學(xué)生物信息研究室Yanbin Yin副教授。

此外，張瀚課題組提出了檢測生物信息數(shù)據(jù)中隱含批次效應(yīng)因子的數(shù)據(jù)驅(qū)動方法。基于數(shù)據(jù)驅(qū)動思路，利用凸優(yōu)化聚類與半定矩陣分解技術(shù)，設(shè)計了兩階段批次效應(yīng)因子預(yù)測的非參數(shù)方法DASC。它具備識別隱藏的層次批次效應(yīng)的優(yōu)點，并提供了可供研究者下載使用的R軟件包(https://github.com/zhanglabNKU/DASC)。與從特征值分解出發(fā)的現(xiàn)有經(jīng)典SVA系列方法不同的是，它對數(shù)據(jù)分布無特定要求，并大幅提高魯棒性與準(zhǔn)確性。此方法與軟件可供實驗數(shù)據(jù)的使用者用于預(yù)測數(shù)據(jù)中的批次效應(yīng)誤差，估計真實數(shù)據(jù)，在數(shù)據(jù)批次效應(yīng)處理上具有廣泛的應(yīng)用價值。該成果作為論文發(fā)表在《生物信息學(xué)》(Bioinformatics,2018，34,1141)，碩士生益海冬為論文第一作者，張瀚為第一通訊作者，南開大學(xué)為第一單位。

以上研究工作得到了國家自然科學(xué)基金項目海外及港澳學(xué)者合作研究基金、天津市應(yīng)用基礎(chǔ)與前沿技術(shù)研究計劃項目的支持。在數(shù)據(jù)庫研發(fā)中，得到論文共同作者南開大學(xué)計算機與控制工程學(xué)院大數(shù)據(jù)技術(shù)研究所楊征路教授、碩士生吳沛之的合作支持。

張瀚課題組專注于統(tǒng)計機器學(xué)習(xí)、健康大數(shù)據(jù)、生物信息大數(shù)據(jù)分析等研究方向，已發(fā)表SCI、EI論文20余篇，其中影響因子大于7的論文7篇。課題組與美國萊斯大學(xué)統(tǒng)計與電子計算機系、貝勒醫(yī)學(xué)院、佐治亞大學(xué)、北伊利諾伊大學(xué)、普度大學(xué)建立了密切的國際學(xué)術(shù)聯(lián)系。

作者：南開大學(xué)課題組責(zé)任編輯：朱子桐

上一篇：為何要大力發(fā)展生物能源？

下一篇：生物質(zhì)能源行業(yè)發(fā)展前景分析

我要評論