五山生物 | 赶英超美?!美国国家生物技术信息中心的基因表达数据库了解?
PV: 0
Original: https://www.sohu.com/a/610546603_121618669

美国国家生物技术信息中心的基因表达数据库(GEO)项目是为了应对高通量基因表达数据公共存储库日益增长的需求而发起的。基因表达数据库(GEO)提供了灵活和开放的设计,便于从高通量基因表达和基因组杂交实验中提交、存储和检索不同类型的数据集。基因表达数据库(GEO)的目的不是要取代内部的基因表达数据库,这些数据库受益于连贯的数据集,并且构建这些数据库是为了促进特定的分析方法,而是通过充当第三级中央数据分发中心来补充这些数据库。基因表达数据库(GEO)的三个核心数据实体是平台、样本和系列,设计时考虑到了基因表达和基因组杂交实验。从本质上讲,平台是一系列探针,它们定义了可以检测到的分子集。一个样本描述了正在被探测的一组分子,并引用了用于生成其分子丰度数据的单一平台。一系列将样本组织成有意义的数据集,这些数据集构成了一个实验。基因表达数据库(GEO)可通过万维网公开访问。

设计

基因表达数据库(GEO)将数据分成三个主要组件,平台、样本和系列,每个组件都在关系数据库中访问(即给定唯一和恒定的标识符)。为了实现开放和灵活的设计,允许存储和检索非常不同的数据类型,数据没有在数据库中完全细化。取而代之的是,为每个平台和每个示例存储制表符分隔的ASCII表。该表由多个列以及相应的列标题名称组成。此表中的数据目前部分提取用于编制索引,但可能会进一步提取以进行更广泛的搜索和检索。此外,提交者可提供任意数量的补充列,以包括提交者定义的附加信息。

平台的实例本质上是一系列探针,它们定义了在利用该平台的任何实验中可以检测到的分子集。例如,平台数据表可以包含标识每个探针(SPOT)的位置和生物试剂含量的GEO定义的列,诸如GenBank登录号、开放阅读框架(ORF)名称和克隆识别符,以及提交者定义的列。平台登录号有一个‘GPL’前缀。

一个样本的实例描述了正在被探测的一组分子的派生,并利用平台来产生分子丰度数据。每个样本都有且只能有一个必须预先定义的父平台。例如,样本数据表可以包含指示在其平台中定义的相应斑点的最终相关丰度值的列,以及任何其他由GEO定义的(例如,原始信号、背景信号)和提交者定义的列。样本登录号有一个‘GSM’前缀。

序列的实例将样本组织成组成实验的有意义的数据集,并由共同的属性绑定在一起。系列登录号有一个‘GSE’前缀。

提交

对于新提交的和更新的提交,有两种通信模式可用,即交互或直接存放。交互式Web表单界面路线简单明了,最适合偶尔提交数量相对较少的样本。通过直接存放简单总括格式(SOFT)的文件,可以将大量提交的大量数据集迅速并入地球观测组织。SOFT是一种基于行的ASCII文本格式,允许在一个文件中表示多个GEO平台、样本和系列。在Soft中,元数据显示为标签-值对,并与平台和示例的制表符分隔的文本表相关联。Soft的设计使其易于使用现成的行扫描软件进行操作,并且可以非常容易地从电子表格、数据库和分析软件中生成或导入其中。有关SOFT和提交过程的更多信息,可从网站获得。

提交可以私下保存最多6个月;这项政策允许数据发布与稿件发布一致。这些提交的材料有一个最终的加入号,可能会在出版物中引用。在这一点上,提交的文件不是经过整理的,而是经过人工扫描,以确保满足最低基本要求。通过使用数据表中的标准列标题并提供足够的补充信息,使数据对其他人有用完全取决于提交者。

搜索和检索

在编写本报告时,仅通过登录号就可以检索完整的平台、样本和系列提交的材料。对GEO中的数据进行了广泛的索引和链接,并可通过名为Entrez ProbeSet的新Entrez数据库进行查询。这个数据库的Web界面使用与其他流行的NCBI资源(如PubMed和GenBank)相似的索引和链接引擎。与任何其他Entrez数据库一样,可以输入一个简单的布尔短语,并将其限制为任何数量的受支持属性字段。匹配项链接到完整的GEO条目以及其他Entrez数据库--目前是核苷酸、分类和PubMed-以及相关的Entrez ProbeSet条目。Entrez ProbeSet可通过Entrez网站作为用于选择要查询的Entrez数据库的下拉菜单之一进行访问。

未来的发展

基因表达数据库(GEO)正在不断开发,目的是改进其索引、链接、搜索和显示能力,以便能够进行更有力的数据挖掘。作为GEO储存库的扩展,我们目前正在开发一个完全细化的丰度测量数据库,该数据库将允许查询和检索单个丰度测量结果。然而,在当前高通量基因表达和基因组杂交实验的复杂性和快速发展带来的限制下,丰度测量可能只在类似派生的小组数据集内具有可比性。我们计划利用这些可比较的数据子集,以便尽可能多地查询丰度测量数据,以及提供这些数据的有用的概观。

英文原文

Edgar R, Domrachev M, Lash AE. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res. 2002 Jan 1;30(1):207-10. doi: 10.1093/nar/30.1.207. PMID: 11752295; PMCID: PMC99122.

NEWS CENTER