geo是转录组学吗？别被名字坑了，老鸟带你避坑指南-艺途文化

很多人一看到GEO就以为是测序数据，其实大错特错。这篇文直接告诉你GEO到底是啥，怎么用它找数据做分析，不绕弯子。

先说结论：GEO绝对不是转录组学，它是个数据库，是个仓库。

我在这个行业摸爬滚打15年了，见过太多新手把GEO当成一种实验技术或者一种分析方法。每次看到这种问题，我都想拍桌子。GEO的全称是Gene Expression Omnibus，直译过来就是基因表达综合数据库。它是美国国家生物技术信息中心NCBI维护的一个公共数据库。说白了，它就是存放数据的仓库，而不是产生数据的方法。

这就好比你去超市买东西，GEO是超市货架，上面摆满了各种商品。而转录组学、蛋白质组学、代谢组学这些，才是生产这些商品的“生产线”或者“工艺”。你不能说货架就是生产线吧？这逻辑不通。

很多刚进实验室的研究生，拿到老板让找数据的任务，第一反应就是去GEO搜。搜出来一堆数据，然后傻眼了，不知道怎么用。这是因为他们没搞懂GEO的结构。GEO里存的是什么？是原始数据，比如FASTQ文件，或者是经过预处理后的矩阵文件。这些数据可能来自RNA-seq，也就是转录组测序；也可能来自ChIP-seq，那是表观遗传学的；甚至还有来自微阵列芯片的数据。

我有个学生，前年做课题，想研究癌症的免疫浸润。他直接在GEO搜“cancer”，结果下载了一堆数据。他以为这些数据都是转录组数据，结果拿到手里一分析，发现有些样本是甲基化数据，有些是表达谱数据。他花了一周时间清洗数据，最后发现根本没法合并分析，因为平台不一样，探针映射都不同。这就是典型的没搞清楚GEO本质导致的弯路。

那怎么判断GEO里的数据是不是转录组学数据呢？看平台。如果平台ID是GPL开头的，后面跟着的是Illumina或者Affymetrix的芯片平台，那大概率是表达谱数据。如果是SRA开头的原始数据，那就要看测序类型。现在主流是RNA-seq，但也要小心有些是全基因组测序或者外显子组测序。

这里有个小细节，很多人分不清GEO和SRA。SRA是Sequence Read Archive，专门存原始测序读段的。GEO更综合，除了存原始数据，还存处理后的表格。如果你做差异表达分析，最好去GEO找已经整理好的表达矩阵，省得自己从FASTQ重新比对，那太费算力了。

再说说怎么找数据。别只搜关键词，要用条件筛选。比如你想找乳腺癌的转录组数据，搜索词用“breast cancer”，然后在Platform里选“RNA-seq”，或者在Series Matrix Files里找。我一般推荐找那些样本量大的，比如超过30个样本的队列，这样统计效力才够。太小样本的数据，噪音太大，容易得出假阳性结果。

记得去年有个同行，为了省钱，用了GEO里一个只有5个正常和5个肿瘤的数据集做验证。结果做出来差异基因几百个，发文章的时候审稿人直接质疑样本量不足，统计方法不对。后来他不得不重新去TCGA数据库找大样本数据验证，耽误了半年时间。所以，数据质量比数据数量更重要，但样本量也不能太少。

还有，GEO的数据更新很快，但注释可能滞后。你下载的数据，里面的基因符号可能还是旧的，比如用Entrez ID或者旧版的Gene Symbol。这时候一定要用最新的注释文件去转换，不然后续分析全乱套。我见过有人直接用十年前的注释文件，结果一半基因对不上，查了半天bug才发现是注释问题。

总之，GEO是工具，不是方法。你要用它来辅助你的转录组学研究，而不是把它当成转录组学本身。搞清楚这个关系，你的科研之路会顺畅很多。别再把GEO当成一种技术名词了，它就是个宝库，你得学会怎么挖矿。

希望这篇能帮到你，少走弯路。如果有具体问题，欢迎评论区留言，我看到都会回。毕竟大家都不容易，能帮一把是一把。