今天是: 登錄 | 注冊

南開大學(xué)課題組科研成果助力生物能源研究

發(fā)布時間:2020-02-21 14:48:37  來源:

6.jpg


碳水化合物活性酶(CAZyme)是復(fù)雜碳水化合物代謝的最重要的酶之一,植物細(xì)胞壁中的復(fù)雜碳水化合物是動物微生物的主要食物來源,在可持續(xù)生物能源與生物材料生產(chǎn)原料等方面具有極大的潛能。同時,人類腸道微生物在其基因組中編碼了數(shù)百種CAZyme基因,用以降解各種飲食和宿主碳水化合物。

  

近期,南開大學(xué)計算機與控制工程學(xué)院張瀚教授課題組在CAZyme相關(guān)的生物能源領(lǐng)域中取得一系列研究成果。這些成果包括新一代自動化注釋服務(wù)器的開發(fā)、深度注釋信息在線數(shù)據(jù)庫的提供、CAZyme家族系統(tǒng)發(fā)育樹構(gòu)建的提速設(shè)計與軟件開發(fā)等。此外,張瀚課題組在具有批次效應(yīng)誤差的生物數(shù)據(jù)恢復(fù)上取得重要進展,所設(shè)計方法可較準(zhǔn)確預(yù)測更細(xì)致因子信息,估計真實數(shù)據(jù),還原數(shù)據(jù)真相。以上科研成果以論文形式,連續(xù)發(fā)表在生物信息學(xué)頂級期刊《核酸研究》(Nucleic Acids Research)和《生物信息學(xué)》(Bioinformatics)上。

  

事實上,CAZyme不僅是生物能源中最重要的酶,對人類健康也非常重要。在生物能源領(lǐng)域,隨著測序的植物及植物相關(guān)微生物基因組與宏基因組數(shù)量越來越龐大,進行CAZyme相關(guān)基因組數(shù)據(jù)挖掘的重要自動化工具研發(fā)與資源建設(shè)顯得尤為迫切。此外,生物信息數(shù)據(jù)特別是基因表達(dá)數(shù)據(jù)普遍存在著批次效應(yīng)引起的誤差,這是令數(shù)據(jù)使用者非常苦惱的問題。因而預(yù)測引起誤差的因子,以消除數(shù)據(jù)的實驗批次誤差影響,就成為數(shù)據(jù)科學(xué)研究者感興趣的重要問題。

  

張瀚課題組開發(fā)了新一代dbCAN服務(wù)器dbCAN2,為新測序CAZyme基因組提供全自動CAZyme功能注釋的免費服務(wù)。dbCAN2服務(wù)器的設(shè)計目標(biāo)為提供準(zhǔn)確的自動化的CAZome(基因組的所有CAZymes)注釋,為此在構(gòu)造Profile-HMM模型表示CAZyme家族簽名域(signature domain)的基礎(chǔ)上,服務(wù)器集成了3個最新工具:可搜索dbCAN-HMM(隱馬爾可夫模型)數(shù)據(jù)庫的HMMER、可搜索CAZy預(yù)注釋CAZyme序列數(shù)據(jù)庫的DIAMOND、可搜索CAZyme短序列數(shù)據(jù)庫的HOTPEP。以上3種工具輸出結(jié)果的融合可以顯著提高CAZome注釋的準(zhǔn)確性。此外,dbCAN2還可處理用戶提交的核苷酸序列,提供預(yù)測物理連接的CAZyme基因聚類的服務(wù),這是一個可用于識別微生物基因組或宏基因組中多糖利用位點(PULs)的非常有用的在線工具。用戶可在dbCAN2服務(wù)器上提交新的已測序基因組,方便快速地得到其所包含CAZyme的數(shù)量與種類等功能注釋信息。新一代服務(wù)器dbCAN2將成為CAZym研究人員獲取全自動CAZyme注釋的主要服務(wù)器。

  

同樣對于CAZyme,張瀚課題組建立了提供全面深度注釋信息的在線數(shù)據(jù)庫dbCAN-SEQ,為5349個細(xì)菌基因組提供計算出的CAZyme序列和功能注釋數(shù)據(jù)。與其他CAZyme資源相比,dbCAN-SEQ給使用者提供如下新功能:允許批量下載所有序列與注釋數(shù)據(jù)的下載頁面;提供最全面功能注釋數(shù)據(jù)的各CAZyme注釋頁;根據(jù)物種元數(shù)據(jù)如疾病、生活環(huán)境、氧需求、溫度、新陳代謝等方面組織細(xì)菌基因組的元數(shù)據(jù)頁;可識別物理連接的CAZyme酶基因聚類的工具;除此之外,它還提供快速高效數(shù)據(jù)查詢的強大搜索功能。dbCAN-SEQ作為CAZym研究領(lǐng)域的現(xiàn)有主要生物信息數(shù)據(jù)庫,將成為用于CAZyme研究的具有重要價值的Web資源。

  

張瀚課題組還基于Profile隱馬爾可夫模型之間距離矩陣比較的思想,設(shè)計了可快速有效構(gòu)建系統(tǒng)發(fā)育樹的方法流程,開發(fā)了一套可用于構(gòu)建蛋白質(zhì)家族(如碳水化合物活性酶和Pfam clans)系統(tǒng)發(fā)育樹的在線服務(wù)。

  

上述研究成果作為3篇論文分別發(fā)表于《核酸研究》(Nucleic Acids Research,2018.05.16在線發(fā)表,gky418)《核酸研究》(Nucleic Acids Research,2018,46,D516)《生物信息學(xué)》(Bioinformatics, 2017,33,1093)。以上論文第一作者分別為張瀚、碩士生黃樂和碩士生霍路陽,南開大學(xué)均為第一單位。論文通訊作者為張瀚與美國北伊利諾伊大學(xué)生物信息研究室Yanbin Yin副教授。

  

此外,張瀚課題組提出了檢測生物信息數(shù)據(jù)中隱含批次效應(yīng)因子的數(shù)據(jù)驅(qū)動方法。基于數(shù)據(jù)驅(qū)動思路,利用凸優(yōu)化聚類與半定矩陣分解技術(shù),設(shè)計了兩階段批次效應(yīng)因子預(yù)測的非參數(shù)方法DASC。它具備識別隱藏的層次批次效應(yīng)的優(yōu)點,并提供了可供研究者下載使用的R軟件包(https://github.com/zhanglabNKU/DASC)。與從特征值分解出發(fā)的現(xiàn)有經(jīng)典SVA系列方法不同的是,它對數(shù)據(jù)分布無特定要求,并大幅提高魯棒性與準(zhǔn)確性。此方法與軟件可供實驗數(shù)據(jù)的使用者用于預(yù)測數(shù)據(jù)中的批次效應(yīng)誤差,估計真實數(shù)據(jù),在數(shù)據(jù)批次效應(yīng)處理上具有廣泛的應(yīng)用價值。該成果作為論文發(fā)表在《生物信息學(xué)》(Bioinformatics,2018,34,1141),碩士生益海冬為論文第一作者,張瀚為第一通訊作者,南開大學(xué)為第一單位。

  

以上研究工作得到了國家自然科學(xué)基金項目海外及港澳學(xué)者合作研究基金、天津市應(yīng)用基礎(chǔ)與前沿技術(shù)研究計劃項目的支持。在數(shù)據(jù)庫研發(fā)中,得到論文共同作者南開大學(xué)計算機與控制工程學(xué)院大數(shù)據(jù)技術(shù)研究所楊征路教授、碩士生吳沛之的合作支持。

  

張瀚課題組專注于統(tǒng)計機器學(xué)習(xí)、健康大數(shù)據(jù)、生物信息大數(shù)據(jù)分析等研究方向,已發(fā)表SCI、EI論文20余篇,其中影響因子大于7的論文7篇。課題組與美國萊斯大學(xué)統(tǒng)計與電子計算機系、貝勒醫(yī)學(xué)院、佐治亞大學(xué)、北伊利諾伊大學(xué)、普度大學(xué)建立了密切的國際學(xué)術(shù)聯(lián)系。

  


作者:南開大學(xué)課題組責(zé)任編輯:朱子桐
我要評論
登錄 | 注冊 需要登陸才可發(fā)布評論
直播共享平臺 家居百強 天格-中國高端實木地板 圖森 生活家地板 美格機械
  • 關(guān)于我們
  • 招聘英才
  • 服務(wù)項目
  • 聯(lián)系我們
  • 法律聲明
  • 網(wǎng)站地圖
  • 品牌鏈接