微生物組是微生物在自然界的存在形式,與人體、空氣、土壤與海洋的健康息息相關。因此,微生物組科學與產業已經成為國際科技合作與競爭的“戰略高地”。然而,大數據挖掘工具的匱乏,阻礙著微生物組研究從“數據分析”向“數據科學”的跨越。2010年,來自43個國家的500多名研究人員聯合啟動了“地球微生物組計劃”(Earth Microbiome Project; EMP),對全球微生物組的多樣性進行系統性調查,已經發表了第一階段的成果(Thompson, et al., Nature, 2017)。而各國政府歷年來陸續啟動的“人體微生物組計劃”(Human Microbiome Project; HMP)與“美國國家微生物組計劃”(National Microbiome Initiative; NMI)等,也同樣產出了海量的菌群數據。這些以元基因組為代表的微生物組數據類型多樣、來源迥異、體量龐大,而且其數量正在以指數型增長。但是,大數據挖掘工具的匱乏,導致新的數據難以與原有的海量數據進行快速的比對,針對整個微生物組數據空間的全局性認識更是無從談起。
針對這一核心科學瓶頸,蘇曉泉副研究員率領的青島能源所單細胞中心生物信息研究組開發了微生物組搜索引擎(Microbiome Search Engine; MSE; http://mse.single-cell.cn),實現了大規?!叭郝鋵θ郝洹笔降奈⑸锝M搜索和數據挖掘。MSE實現了基于菌群結構或功能相似性的快速比對。在百萬樣本量級數據庫中,計算所有菌群之間的兩兩相似性,從而重建全局性的菌群數據空間構像,傳統算法需230天,而MSE只需半天。進而在全局數據空間中對目標菌群進行精確定位,傳統算法需100秒,而MSE只需0.29秒。因此,MSE使大規模、全局性的微生物組比對與搜索首次成為可能。
得益于MSE強大的菌群結構比對搜索能力,研究人員基于微生物組大數據,提出了客觀量化菌群之“新穎性”與“關注度”的“微生物組影響指數(Microbiome Focus Index; MFI)”。通過連續追蹤2010-2017年間MFI的變化趨勢,研究人員從超過10萬例的微生物組中,發掘出了2,238例“睡美人”樣本:即那些發表初期結構新穎獨特但卻乏人問津,但發表后4年內將受到極大研究關注的菌群。此類樣本主要存在于海洋(51%)、家居室內(20%)、哺乳動物腸道(19%)、母嬰傳播(1%)等環境中。針對這類樣本的研究往往具有深遠科學影響,然而目前研究關注與投入程度還遠遠不夠。因此,MFI揭示了當前微生物組結構空間的全局特征,并預測了最有科學潛力與投資價值的數據和領域。這一大數據分析平臺能為微生物組計劃的設計與實施提供參考依據,同時也有助于針對微生物組領域發展現狀與趨勢的全局性思考。
該論文發表于ASM旗艦期刊mBio上。MSE是地球微生物組計劃中首個由中國科研人員主持開發的大數據挖掘工具。它將作為EMP的核心計算平臺之一,服務于國內外微生物組研究群體,同時支撐“中科院微生物組計劃”的實施。單細胞中心蘇曉泉副研究員、徐健研究員以及EMP發起人、加州大學圣迭戈分校Rob Knight教授為論文的共同通訊作者。該項目得到了中科院微生物組計劃、山東省自然科學基金重大基礎研究項目、國家自然科學基金等的支持。 (文/蘇曉泉 圖/王增彬)
相關成果發表:
Su X*, Jing G, McDonald D, Wang H, Wang Z, Gonzalez A, Sun Z, Huang S, Navas J, Knight R*, Xu J*. (2018). Identifying and predicting novelty in microbiome studies. mBio doi: 10.1128/mBio.02099-18
圖1. 微生物組搜索引擎MSE在線平臺 (http://mse.single-cell.cn)