百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

NAR | GMrepo:人类肠道宏基因组数据库

myzbx 2025-05-27 16:23 20 浏览



文献速递

GMrepo 是一个收录了 253 个项目,囊括了 58,903 个 samples/runs (扩增子 41,285;宏基因组 17,618),横跨 92 种表型(健康 + 91 疾病表型)。对收录的样品进行质控,分类注释和丰度计算,最后将这些信息网页可视化,以便用户查询和重利用人类肠道微生物数据。目前可查询的表型包括年龄、性别、国家、BMI和近期抗生素使用情况等,用户还可以通过 GMrepo 获得预先计算好的物种丰度、表型内和表型间的流行度以及菌株共现网络等信息。


Keywords: GMrepo, database, human gut metagenomes

Title: GMrepo: a database of curated and consistently annotated human gut metagenomes

DOI: 10.1093/nar/gkz764

Journal: Nucleic Acids Research [IF 11.147]

First Authors: Sicheng Wu, Chuqing Sun

Correspondence: Li-jie He,Xing-Ming Zhao,Weihua Chen

Affiliation: College of Life Science and Technology, Huazhong University of Science and Technology, 430074 Wuhan, Hubei, China

Published: 2019-09-04



研究背景

愈多研究表明了肠道菌群与人类生活的许多方面关联,包括健康与疾病,发育,对药物和治疗的反应等。随着研究的发展,人类肠道宏基因组数据日益增多,虽以有 NCBI,ENA 等数据库存储数据,但是数据的可利用和可访问性受到挑战,且表型数据无法简便查询。

研究结果

1.GMrepo的构建

1.1 测序数据的获取和元数据的手动检查

原始测序数据是从 EBI ENA 和 NCBI SRA 数据库中分别用 enaBrowserTools 和 SRA-Tools 下载接着用 Aspera 转换。元数据是从 MGnify 和 NCBI 数据库中匹配相应的测序平台,生物样品,实验,项目,粪便样本的人类宿主等关联信息,再提取表型(即疾病或健康),年龄,性别,国家/地区,BMI和抗生素使用情况等信息,最后换一个人重复校验元数据收集准确性。部分数据是联系文章作者获取。

图1. GMrepo 的整体工作流程

1.2 处理原始数据

使用 FastQC 评估下载数据的整体质量,然后使用 Trimmomatic 删除 vectors 和低质量的碱基。短于原始读取长度三分之二的序列从随后的分析中删除。若是双端的 16S 序列则还需要用 Casper 合并 read。处理后得到 Cleandata 进行后续分析。必要时使用 Seqtk 将 FASTQ 序列转换为 FASTA 格式。

1.3 分类注释及相对丰度计算

对于 16S 序列,使用 MAPseq 进行分类注释。保留在属水平上综合得分高于 0.4 的 read 用于后续分析。然后在每个 sample/run 的属和物种水平上计算相对丰度,总丰度值为100%。

对于宏基因组序列,使用 MetaPhlAn2 在默认参数条件下进行物种注释和相对丰度计算。

1.4 两步质控

经过分类注释后再进行一次质控,一共有 2 步。第一步,删除能分析的reads 条数小于 20000 的扩增子测序 sample/run。第二步,删除出现任一个物种或一个属占总丰度的 99.99% 以上的样品,这步包括扩增子和宏基因组样品。删除样品在 GMrepo 中标记为 ‘failed QC (QC status = 0)’。

图2. GMrepo 宏基因组和扩增子数据处理过程

1.5 物种共现分析

数据库还计算了在某一表型下物种共现情况。配对的物种-物种,属-属 至少在 50 个样品中出现才进行计算。计算物种是否共现的方法是用 R 的 fisher.tes 函数对四个必需数据(同时存在 2 个物种的样品数,只存在其中一个物种的样品数,只存在另外一个物种的样品数,两个物种都不存在样品数)进行检验,当 OR (Odds ratio)值大于 1 和 P 值 < 0.05 时,则认为两个物种在这种表型下是共现的。共现物种还使用 Person 和 Spearman 计算它们之间的互作关系。

1.6 数据库建设和网站开发

所有数据均已加载到 MySQL 数据库中。网站的前端(网页)是使用 HTML 和 JavaScript 编码的,而后端是使用带有 Slim 框架的 PHP 编码的,以支持对 MySQL 数据库的查询,并提供 API 访问的数据。AngularJS 框架用于合并前端和后端。D3.js 和 plotly.js 用于前端的可视化。还使用了其他各种开源 JavaScript 库,包括 jQuery 和jQuery QueryBuilder。该网站托管于 Apache 服务器。


2.Gmrepo 使用

2.1 依据宿主表型收集的人类肠道宏基因组学数据

数据库最后收录了 253 个项目,58,903 个samples/runs (扩增子 41,285 ;宏基因组 17,618 ) 横跨 92 种表型(健康 + 91 疾病表型)。表型汇总统计结果显示,大部分(88.17%)样品都能获取表型信息(图3A),但是同时拥有年龄,性别和 BMI 信息的样品只有三分之一,有 30.86% 的样本不包含任何基本元数据,而其余样本仅包含一个或两个(分别为 25.95% 和 10.31%)(图3B)。这些结果凸显了重用宏基因组学数据所面临的挑战,并呼吁提供元数据信息或宏基因组学样本的报告标准。

图3. GMrepo 的元数据统计

作者还使用了 MeSH (Medical Subject Headings) 系统描述和组织宿主表型。表1列出了 GMrepo 中包含的前 10 个表型。

对于每种表型,统计了相关物种和属的总数。例如健康表型,在可用健康表型的样品( 12,485 个)中发现最后注释到来自 1,613 个属的 6,189 个物种(种或株),但是至少存在 2 个样品以上且相对丰度大于 0.01% 的物种只有 389 个(约占总数的 6.3%)来自 91 个属(约占总数的5.6%),这表明了绝大多数物种只在一个样品出现或者检测到的丰度很低。在其他表型中也有类似结果。

统计数据库可用的 28,252 个样品的物种,最后一共找到了 1,710 个属 6,973 个物种,在一个以上样品出现,相对丰度大于 0.01% 且出现在一个以上表型的物种有 2,685 个物种分布在 834 个属。作者还将这 2,685 个物种进行系统进化树分析(图4),结果与早些发表的研究结果类似。

图4. 基于 NCBI 分类法的包括 2,685 个物种在内的系统发育树

2.2 表型内 / 间的物种丰度,流行率和共现率

基于可用数据,作者展示了每一物种在某种表型下组内丰度及其流行率(图5A)及对照组丰度比较(图5B),与该物种共现的其他物种互作关系(图5C)。这些数据用户均可下载或自己修改图标。数据库还提供了与这个物种相关的外部数据连接,例如, NCBI taxonomy, ENA taxonomy, genome annotations, microbe to bacteriophage interactions, bacteria to drug interactions等。

图5. GMrepo 展示在克罗恩病中 Faecalibacterium prausnitzii 的详细信息。Faecalibacterium prausnitzii 在克罗恩氏病中的分布(A),相对丰度(B)和物种共现网络(C)

2.3 搭载图形查询构建器可进行复杂且生物学相关的数据查询

GMrepo 搭载了图形查询构建器(由 jQueryBuilder 小部件提供支持),以允许用户执行复杂且生物学相关的数据查询。例如,图 6A 显示了如何从 BMI 在 18.5 至 24.9 之间的健康个体中查找运行/样本;图 6B 允许用户查找最近未使用抗生素的美国人的粪便样本;图 6C 显示了如何找到与神经系统疾病(包括自闭症谱系障碍,躁郁症和抑郁症)相关的项目,每个项目都包含健康的对照。

图6. 图形查询构建器的三个示例


结论与讨论

Gmrepo 提供了简便查询的人类宏基因组数据查询,数据库囊括样品多,整理了表型数据,结果可视化,可比较;网页功能系统齐全;对我们后续物种查询提供参考。


Wu S, Sun C, Li Y, et al. GMrepo: a database of curated and consistently annotated human gut metagenomes[J]. Nucleic acids research, 2019.



撰稿 | 三明治 责编 | NSC

本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics。

相关推荐

别让水 “跑” 出卫生间!下沉设计打造滴水不漏的家

你是否遭遇过卫生间的水“偷偷溜”进客厅,导致木地板鼓起、墙角发霉的糟心事?又是否为卫生间门口反复渗漏,不得不一次次返工维修而头疼不已?在家庭装修中,卫生间防水堪称“兵家必争之地”,而卫生间门口下...

歼-10CE vs 阵风:谁才是空中霸主?全面性能对比解析

歼10CE与法国阵风战斗机性能深度对比分析一、总体定位与设计哲学歼10CE:单发中型多用途战斗机,侧重于空优(制空权争夺)和对地对海打击,具有较高的性价比和较强的多任务能力。法国阵风战斗机:双发中型多...

知名移植工作室肯定Switch2的图形性能,却被CPU拖了后腿

虽然Switch2发售多日,但没入手的玩家对其性能还是有顾虑。近日,知名移植工作室Virtuos的技术总监在接受采访时讨论了Switch2的性能,并给出了他们工作室的评价。简单来说,Switch2在D...

虹科实测 | CAN XL vs CAN FD传输性能深度对比:速率翻倍,抖动锐减!

导读在汽车电子与工业通信领域,CAN协议持续进化,推动着数据传输效率的提升。本次实测基于虹科PCAN-USBXL与虹科PCAN-USBProFD硬件,在同等严苛条件下对比CANXL与CANF...

1J117合金材料优异的耐腐蚀性、机械性能

1J117合金材料概述定义:1J117是一种不锈软磁精密合金,属于铁铬基合金,其圆棒产品具有特定的形状和尺寸,可满足各种工业应用中的特定需求。标准:技术条件标准为GB/T14986,品种规格标准...

据高管所称,Switch2能轻松移植XSS平台60帧游戏

任天堂,作为主机游戏界的御三家之一,一直注重游戏性而不注重更新升级硬件设备是其最大的特点。各位任豚们,忍受着任天堂早已落后硬件设备,真想感叹一句,天下苦任久矣!但Switch2的出现或许正在渐渐的改变...

FJK-110LED-HXJSN磁传感器有哪应用

作为一名从事电子技术相关工作的自媒体人,我经常会遇到各种传感器的应用问题。其中,FJK-110LED-HXJSN磁传感器是一款在工业自动化、智能设备等领域比较常见的磁场检测元件。今天我想和大家聊一聊这...

浅谈欧标方管200x200x5-12mm质S275JRH的优势与劣势

欧标方管200x200x5-12mm材质S275JRH是一种常见的结构用钢材,广泛应用于建筑、机械制造、桥梁、钢结构等领域。本文将对这种方管的优势与劣势进行浅谈,以帮助读者更好地了解其特性和适用场景。...

宽带拨号错误 651 全解析:故障定位与修复方案

在使用PPPoE拨号连接互联网时,错误651提示「调制解调器或其他连接设备报告错误」,通常表明从用户终端到运营商机房的链路中存在异常。以下从硬件、系统、网络三层维度展开排查:一、故障成因分类图...

模型微调:从理论到实践的深度解析

在人工智能领域,模型微调已成为提升模型性能、使其适应特定任务的关键技术。本文将全面系统地介绍模型微调的各个方面,帮助读者深入理解这一重要技术。一、什么是模型微调模型微调是指在已经训练好的预训练模型基础...

汉语拼音 z、c、s图文讲解(拼音字母表zcs教学视频)

以下是汉语拼音z、c、s的图文讲解,结合发音要领、书写规范及教学技巧:一、发音方法与口诀1.z的发音发音要领:舌尖轻抵上齿背,形成阻碍后稍放松,气流从窄缝中挤出,声带不振动(轻短音)。口诀:“写字写...

吴姗儒惹怒刘宇宁粉丝!吴宗宪护航「是综艺梗」叮咛女儿对话曝光

记者孟育民/台北报道Sandy吴姗儒在《小姐不熙娣》因为节目效果,将男星刘宇宁的头像踩在地上,引起粉丝怒火,节目发声明道歉后仍未平息,她也亲自发文郑重道歉:「我对刘宇宁本人完全没有任何恶意,却在综艺表...

苹果错误地发布了macOS Tahoe公开测试版 现已将其撤下

一些Beta测试人员下载了他们以为是macOSSequoia15.6RC的版本,但却错误地下载了macOSTahoe26公开测试版,后来苹果修复了该问题。苹果预计将于7月25...

make的多种用法!(make 的用法总结)

一、make的用法美make[meik]①V.制造;制定,拟定;使变得,使处于;造成,引起;整理(床铺);做,作出;强迫;挑选,任命…②n.(机器、设备等的)品牌,型号;结构,构造;通电,接电⑤[...

北顿尖刀哗变?俄第20近卫集团军损失惨重,拒绝执行指挥官命令?

【军武次位面】作者:太白近日,外国社交媒体“电报”上传出了一些消息,称俄罗斯在北顿涅兹克战场上的“尖刀”部队之一,俄第20近卫集团军因为损失惨重,已经出现了部分部队拒绝执行指挥官命令,甚至哗变的情况。...