百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

NAR | GMrepo:人类肠道宏基因组数据库

myzbx 2025-05-27 16:23 7 浏览



文献速递

GMrepo 是一个收录了 253 个项目,囊括了 58,903 个 samples/runs (扩增子 41,285;宏基因组 17,618),横跨 92 种表型(健康 + 91 疾病表型)。对收录的样品进行质控,分类注释和丰度计算,最后将这些信息网页可视化,以便用户查询和重利用人类肠道微生物数据。目前可查询的表型包括年龄、性别、国家、BMI和近期抗生素使用情况等,用户还可以通过 GMrepo 获得预先计算好的物种丰度、表型内和表型间的流行度以及菌株共现网络等信息。


Keywords: GMrepo, database, human gut metagenomes

Title: GMrepo: a database of curated and consistently annotated human gut metagenomes

DOI: 10.1093/nar/gkz764

Journal: Nucleic Acids Research [IF 11.147]

First Authors: Sicheng Wu, Chuqing Sun

Correspondence: Li-jie He,Xing-Ming Zhao,Weihua Chen

Affiliation: College of Life Science and Technology, Huazhong University of Science and Technology, 430074 Wuhan, Hubei, China

Published: 2019-09-04



研究背景

愈多研究表明了肠道菌群与人类生活的许多方面关联,包括健康与疾病,发育,对药物和治疗的反应等。随着研究的发展,人类肠道宏基因组数据日益增多,虽以有 NCBI,ENA 等数据库存储数据,但是数据的可利用和可访问性受到挑战,且表型数据无法简便查询。

研究结果

1.GMrepo的构建

1.1 测序数据的获取和元数据的手动检查

原始测序数据是从 EBI ENA 和 NCBI SRA 数据库中分别用 enaBrowserTools 和 SRA-Tools 下载接着用 Aspera 转换。元数据是从 MGnify 和 NCBI 数据库中匹配相应的测序平台,生物样品,实验,项目,粪便样本的人类宿主等关联信息,再提取表型(即疾病或健康),年龄,性别,国家/地区,BMI和抗生素使用情况等信息,最后换一个人重复校验元数据收集准确性。部分数据是联系文章作者获取。

图1. GMrepo 的整体工作流程

1.2 处理原始数据

使用 FastQC 评估下载数据的整体质量,然后使用 Trimmomatic 删除 vectors 和低质量的碱基。短于原始读取长度三分之二的序列从随后的分析中删除。若是双端的 16S 序列则还需要用 Casper 合并 read。处理后得到 Cleandata 进行后续分析。必要时使用 Seqtk 将 FASTQ 序列转换为 FASTA 格式。

1.3 分类注释及相对丰度计算

对于 16S 序列,使用 MAPseq 进行分类注释。保留在属水平上综合得分高于 0.4 的 read 用于后续分析。然后在每个 sample/run 的属和物种水平上计算相对丰度,总丰度值为100%。

对于宏基因组序列,使用 MetaPhlAn2 在默认参数条件下进行物种注释和相对丰度计算。

1.4 两步质控

经过分类注释后再进行一次质控,一共有 2 步。第一步,删除能分析的reads 条数小于 20000 的扩增子测序 sample/run。第二步,删除出现任一个物种或一个属占总丰度的 99.99% 以上的样品,这步包括扩增子和宏基因组样品。删除样品在 GMrepo 中标记为 ‘failed QC (QC status = 0)’。

图2. GMrepo 宏基因组和扩增子数据处理过程

1.5 物种共现分析

数据库还计算了在某一表型下物种共现情况。配对的物种-物种,属-属 至少在 50 个样品中出现才进行计算。计算物种是否共现的方法是用 R 的 fisher.tes 函数对四个必需数据(同时存在 2 个物种的样品数,只存在其中一个物种的样品数,只存在另外一个物种的样品数,两个物种都不存在样品数)进行检验,当 OR (Odds ratio)值大于 1 和 P 值 < 0.05 时,则认为两个物种在这种表型下是共现的。共现物种还使用 Person 和 Spearman 计算它们之间的互作关系。

1.6 数据库建设和网站开发

所有数据均已加载到 MySQL 数据库中。网站的前端(网页)是使用 HTML 和 JavaScript 编码的,而后端是使用带有 Slim 框架的 PHP 编码的,以支持对 MySQL 数据库的查询,并提供 API 访问的数据。AngularJS 框架用于合并前端和后端。D3.js 和 plotly.js 用于前端的可视化。还使用了其他各种开源 JavaScript 库,包括 jQuery 和jQuery QueryBuilder。该网站托管于 Apache 服务器。


2.Gmrepo 使用

2.1 依据宿主表型收集的人类肠道宏基因组学数据

数据库最后收录了 253 个项目,58,903 个samples/runs (扩增子 41,285 ;宏基因组 17,618 ) 横跨 92 种表型(健康 + 91 疾病表型)。表型汇总统计结果显示,大部分(88.17%)样品都能获取表型信息(图3A),但是同时拥有年龄,性别和 BMI 信息的样品只有三分之一,有 30.86% 的样本不包含任何基本元数据,而其余样本仅包含一个或两个(分别为 25.95% 和 10.31%)(图3B)。这些结果凸显了重用宏基因组学数据所面临的挑战,并呼吁提供元数据信息或宏基因组学样本的报告标准。

图3. GMrepo 的元数据统计

作者还使用了 MeSH (Medical Subject Headings) 系统描述和组织宿主表型。表1列出了 GMrepo 中包含的前 10 个表型。

对于每种表型,统计了相关物种和属的总数。例如健康表型,在可用健康表型的样品( 12,485 个)中发现最后注释到来自 1,613 个属的 6,189 个物种(种或株),但是至少存在 2 个样品以上且相对丰度大于 0.01% 的物种只有 389 个(约占总数的 6.3%)来自 91 个属(约占总数的5.6%),这表明了绝大多数物种只在一个样品出现或者检测到的丰度很低。在其他表型中也有类似结果。

统计数据库可用的 28,252 个样品的物种,最后一共找到了 1,710 个属 6,973 个物种,在一个以上样品出现,相对丰度大于 0.01% 且出现在一个以上表型的物种有 2,685 个物种分布在 834 个属。作者还将这 2,685 个物种进行系统进化树分析(图4),结果与早些发表的研究结果类似。

图4. 基于 NCBI 分类法的包括 2,685 个物种在内的系统发育树

2.2 表型内 / 间的物种丰度,流行率和共现率

基于可用数据,作者展示了每一物种在某种表型下组内丰度及其流行率(图5A)及对照组丰度比较(图5B),与该物种共现的其他物种互作关系(图5C)。这些数据用户均可下载或自己修改图标。数据库还提供了与这个物种相关的外部数据连接,例如, NCBI taxonomy, ENA taxonomy, genome annotations, microbe to bacteriophage interactions, bacteria to drug interactions等。

图5. GMrepo 展示在克罗恩病中 Faecalibacterium prausnitzii 的详细信息。Faecalibacterium prausnitzii 在克罗恩氏病中的分布(A),相对丰度(B)和物种共现网络(C)

2.3 搭载图形查询构建器可进行复杂且生物学相关的数据查询

GMrepo 搭载了图形查询构建器(由 jQueryBuilder 小部件提供支持),以允许用户执行复杂且生物学相关的数据查询。例如,图 6A 显示了如何从 BMI 在 18.5 至 24.9 之间的健康个体中查找运行/样本;图 6B 允许用户查找最近未使用抗生素的美国人的粪便样本;图 6C 显示了如何找到与神经系统疾病(包括自闭症谱系障碍,躁郁症和抑郁症)相关的项目,每个项目都包含健康的对照。

图6. 图形查询构建器的三个示例


结论与讨论

Gmrepo 提供了简便查询的人类宏基因组数据查询,数据库囊括样品多,整理了表型数据,结果可视化,可比较;网页功能系统齐全;对我们后续物种查询提供参考。


Wu S, Sun C, Li Y, et al. GMrepo: a database of curated and consistently annotated human gut metagenomes[J]. Nucleic acids research, 2019.



撰稿 | 三明治 责编 | NSC

本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics。

相关推荐

谷歌大刀阔斧,安卓UI将迎海量细节变更

前段时间谷歌宣布,将于北京时间2025年5月14日1时(美国太平洋时间5月13日10时)举行一场特别直播节目,名为《TheAndroidShow:I/OEdition》。该活动由Android...

Google Drive 通过新的分析功能改善视频播放器体验

GoogleDrive推出了一项新功能,可让您衡量上传到GoogleDrive的视频的参与度。Google在一篇博客文章中宣布,它已经更新了视频播放器的“详细信息”面板,新增了“分析”部分,...

DeepSeek生成Word方案

以下是结合DeepSeek生成网页、转PDF再转Word的三步进阶方案,涵盖普通用户与开发者两种实现路径:一、原生方案:HTML→PDF→Word全流程(适合普通用户)生成标准HTML使用DeepSe...

如何使用谷歌地图和LightningChart创建地理空间地图图表?

LightningChartJS是一款高性能的JavaScript图表工具,专注于性能密集型、实时可视化图表解决方案。LightningChartJS官方最新版免费下载试用,历史版本下载,在...

用 mxgraph.js 打造超实用流程图:从入门到精通(附源码)

在技术快速发展的当下,流程图作为一种直观展示流程和逻辑关系的工具,在项目管理、软件开发、业务流程梳理等诸多领域发挥着重要作用。今天我就和大家分享一下如何使用mxgraph.js构建功能丰富的流程图...

评测:4款免费开源数据可视化JavaScript库

交互式数据可视化在很大程度上取决于JavaScript库的任务能力。在这篇文章中,我们将看看四个JavaScript库:D3,InfoVis,Processing.js,和Recline.js。所有这...

DeepSeek自动生成漂亮的数据分析面板,会计天又塌了!老板超喜欢

如果你还在认为Deepseek分析能力强而做图弱时,只能说你根本不了解它。它其实可以自动生成高质量的数据分析面板。先来几个图吓吓你:如果不看标题,你是不是以为这是哪位数据分析高手做的图,嘿嘿,这的确是...

手绘风格的数据可视化 Sketchify,让你的图表也萌萌哒

作者|naughty来源|oschina.net/taogang/blog/3130390多少年以前,我在一家BI企业负责数据可视化产品的开发,作为产品创新的需要,一篇论文吸引了我的目光,《S...

告别单调,Django后台主页改造 - 使用AdminLTE组件

前言之前我做了个Django的项目,为了让管理后台更加美观,我对Django(应该说是SimpleUI的)默认的Admin后台主页进行改造,具体可以看这篇文章:项目完成-基于Django3.x版本...

Mermaid (美人鱼) 一个JS 渲染的图表工具

Mermaid是一种基于JavaScript的图表和图表工具,它使用受Markdown启发的文本定义和渲染器来创建和修改复杂的图表。Mermaid的主要目的是帮助文档跟上开发。图表和文档编...

分享10+可视图表库, 助你轻松制作精美可视化大屏

前言在开发可视化项目的过程中往往涉及到可视化图表,我们看到的很多酷炫的报表,大屏,都用了非常多的图表,接下来我和大家分享一些比较流行的开源免费的图表库.来源:趣谈前端公众号github:h...

JavaScript Charts更新至v3.15.2

JavaScriptCharts是兼容性好的JavaScript、HTML5图表开发工具,能满足大部分的开发需求,包括序列图表(列型图,条形图,线型图,面积图,步骤折线图,平滑折线图,蜡烛图,ohl...

JavaScript Charts更新至v3.17.0

JavaScriptCharts兼容性好的JavaScript、HTML5图表开发工具,能满足大部分的开发需求,包括序列图表(列型图,条形图,线型图,面积图,步骤折线图,平滑折线图,蜡烛图,ohlc...

最实用的大数据可视化分析工具汇总

四十三、OpenHeatMapOpenHeatMap简单易用,用户可以用它上传数据、创建地图、交流信息。它可以把数据(如GoogleSpreadsheet的表单)转化为交互式的地图应用,并在网上分享...

JavaScript Charts v3.17.3发布

JavaScriptCharts兼容性好的JavaScript、HTML5图表开发工具,能满足大部分的开发需求,包括序列图表(列型图,条形图,线型图,面积图,步骤折线图,平滑折线图,蜡烛图,ohlc...