科研進展
原生生物(Protist)是一大類單細胞真核生物的集合,包括單細胞真核藻類和原生動物等,組成了原生生物界。原生生物具有高度多樣性,廣泛分布于各類水環境中,在生態平衡、物質和能量循環、環境健康、動植物疾病等方面至關重要。它們是水生態系統的重要組分,是重要的初級生產力和氧氣的制造者、碳循環的關鍵參與者,是水產動物的優良餌料、人類的營養品、生物能源,是水環境的“哨兵”、水華和赤潮的重要元兇,是人、畜、禽、魚疾病的重要病原、互利共生的“好伙伴”。
NCBI分類系統已記錄的原生生物種類超過6萬種,未知數量難以估量。2019年12月,由中國科學院水生生物研究所(水生所)牽頭發起了萬種原生生物基因組計劃(Protist 10,000 Genomes Project,P10K),旨在建立一個大規模的原生生物遺傳資源數據庫,變革原生生物遺傳資源數據極度缺乏的局面。
“萬種原生生物基因組計劃(P10K)”的標志。設計思路:標志由不同原生生物組成。其中鐘蟲(纖毛蟲)代表字母“P”,裸藻(鞭毛蟲)和團藻(綠藻)的組合代表數字“10”,阿米巴代表字母“K”。雙螺旋既代表DNA又代表水波,即原生生物生存的水環境。“P”中噴發出諸多原生生物,代表1676年列文虎克發現鐘蟲之后,高度多樣的各種原生生物被發現。
近日,由中國科學院水生生物研究所及北京基因組研究所(國家生物信息中心)聯合發布了P10K第一批數據。數據通過萬種原生生物基因組數據庫(P10K database,https://ngdc.cncb.ac.cn/p10k/)共享發布釋放,相關論文以“The P10K database: a data portal for the protist 10000 genomes project”為題發表于Nucleic Acids Research。P10K第一批數據共收錄了2959個原生生物數據集,包括1601個基因組和1358個轉錄組數據集,覆蓋了原生生物75%的綱和45%的目。其中,從公共數據庫整合了1858個數據集,P10K團隊新測序了1101個數據集,以原生動物纖毛蟲(Ciliate)為主。新測序數據將原生生物數據集規模整體提升了37%。新測序的樣品由P10K團隊從國內多種生境中采集、分離。對于不能實驗室培養的絕大部分原生動物,采用了單細胞測序方法,占新測序數據的98%。同時,為了解決大規模單細胞組學數據的分析問題,P10K團隊研發了一套針對原生生物單細胞測序數據的組裝、去污染、物種鑒定、基因注釋和評估的標準化分析流程。質量評估顯示,該流程注釋的基因組與公共數據庫發布的基因組具有相似比例的中高等質量數據。
P10K數據庫的特點和功能
水生所繆煒研究員、北京基因組所章張研究員與馬利娜副研究員為該文共同通訊作者,水生所博士研究生高欣欣、陳凱助理研究員、熊杰研究員、北京基因組所鄒東高級工程師為該文共同第一作者。該工作得到了科技部國家重點研發計劃、中科院先導專項、國際合作計劃、青年創新促進會、國家自然科學基金和IUBS開放生物多樣性和健康大數據計劃的資助,以及國家水生生物種質資源庫和中國科學院超級計算武漢分中心的支持。
作為“萬種原生生物基因組計劃”的重要組成部分,P10K數據庫的建立和數據共享將有助于推動對真核生物和多細胞生物起源、真核生物多樣性、原生生物的極端環境適應以及微生物互作等重要基礎科學問題的研究。與此同時,這項計劃將促進對與生態環境保護、污染物降解和轉化、營養健康以及疾病防治相關的原生生物遺傳資源的挖掘和潛在應用。同時,鑒于原生生物是浮游生物的關鍵組成部分,P10K數據庫還將為基于環境DNA的浮游生物鑒定提供支持,助力水生態健康評價。
尤為重要的是,P10K數據庫建立了國家水生生物種質資源庫/國家寄生蟲資源庫(活體種質資源)和國家基因組科學數據中心(遺傳資源)之間的緊密聯系,對于促進國家科技資源共享服務平臺的信息互聯互通和數據共享具有重要意義。
P10K計劃鏈接:
https://www.cell.com/the-innovation/fulltext/S2666-6758(20)30061-8
P10K 數據庫論文原文:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkad992/7335744