GEO 数据库概览

GEO (Gene Expression Omnibus) 是一个公共的功能基因组学数据库,最初是为了存储芯片数据,后期随着 NGS 的广泛应用纳入了各种平台的高通量组学数据。很多文献都会将实验数据上传至 GEO,并在文献结尾处给出对应的 GSE ID 号,方便其他人下载数据进行研究。本文将对 GEO 数据库进行一个简单的介绍,包括数据库的架构,数据存放规律以及如何下载数据等。

Overview

GEO 有3个主要的目标:

  1. 提供高效存储各种高通量功能基因组数据的数据库
  2. 为研究单位提供简单的数据递交操作和支持各种类型数据的格式
  3. 提供用户友好的接口以便用户查询,定位,回顾和下载感兴趣的研究的基因表达数据

Data organization

GEO 条目的组织包括以下几个方面:

  • GEO Platform (GPL)
  • GEO Samples (GSM)
  • GEO Series (GSE)
  • GEO Datasets (GDS)

简单理解:一篇文献中包含一个或多个 GSE 数据集,每个 GSE 数据集中包含一个或多个 GSM 样本。多个研究的 GSM 样本可以根据研究目的整合为一个 GDS,不过 GDS 本身用的很少。GSE 是有作者提交的记录,而 GDS 则是 GEO 员工整合后重组的数据集。每个 GSM 都有对应的平台,即 GPL。

MIAME and MINSEQE guidelines

MIAME (Minimum Information About a Microarray Experiment) 和 MINSEQE (Minimum Information About a Next-generation Sequencing Experiment) 指南给出了描述芯片或测序研究所应包含的最少信息。MIAME 承诺与递交格式或路径无关,而是与提供的内容有关。其中最重要的6个内容如下:

  1. 各实验的原始数据,如 CEL 或 FASTQ 文件
  2. 最终处理过(标准化的)数据,如基因表达数据计数矩阵
  3. 必要的样本注释(组织,性别,年龄等)和实验因素(剂量反应实验中的成分和剂量)
  4. 实验设计,包括样本数据关系,如哪个原始数据文件对应哪个样本,哪些试验是技术性重复,哪些是生物学重复
  5. 对所检测序列特征的充分描述,如 gene ID,基因组坐标等
  6. 必要的实验和数据操作步骤,如使用的是何种标准化方法

Data Formation

SOFT

Simple Omnibus Format in Text (SOFT) 格式是为快速提交和下载数据所设计的,是简单的基于行的文本格式,支持数据表及相关描述性信息

MINiML

MIAME Notation in Markup Language (MINiML) 是一种整合了实验数据和元数据的 XML 格式,实质上是 SOFT 格式的 XML 渲染

Query and Download

直接手动下载

一般我们都会从文献中获得数据对应的 GSE ID 号,就可以在 GEO 主页 搜索框中输入进行相关信息的查看和数据的下载

FTP 下载

GEO FTP 数据库的整体结构可以看它给出的 README
简单来说,根目录 ftp://ftp.ncbi.nlm.nih.gov/geo/ 下包含4个子目录 (datasets/, platforms/, samples/, series/),对应4种 GEO 记录类型。为了避免浏览超时,各个子目录下又给出了范围子目录,即将1000个文件汇集,构造出如 GSE1nnn, GSE2nnn… 的范围子目录。