geo数据做差异基因，别瞎搞，这坑我踩了七年-艺途文化

刚下班，累得想躺平。刚才还在群里看到有人问，手里有一堆GEO数据，想跑个差异表达分析，结果P值一堆，FDR怎么调都不显著，心态崩了。兄弟，先别急着骂软件，大概率是你第一步就走歪了。我在这一行摸爬滚打七年，见过太多小白拿着原始CEL文件或者甚至没质控过的表达矩阵就开始跑DESeq2或者limma，最后得出个“毫无意义”的结果，还在那儿纠结生物学机制。今天不扯那些高大上的统计学原理，就聊聊怎么让geo数据做差异基因分析这事儿变得靠谱点。

先说个真事。去年有个研究生找我帮忙，拿了一组GSE12345的数据，说是肿瘤vs正常。我看了一眼原始数据，发现样本量才3对3。我就问他，你确定这能看出个所以然？他说导师让做。我直接告诉他，这种样本量，除非效应值巨大，否则噪音能把你淹没。很多人不知道，geo数据做差异基因分析，第一步不是跑代码，是看元数据。Metadata！Metadata！重要的事情说三遍。你得去GEO官网把那篇对应的文章翻出来，看看人家是怎么分组，怎么提取RNA的，甚至用的是不是同一种芯片平台。我见过有人把Affymetrix的芯片数据和Illumina的数据混在一起做，那简直是灾难现场，技术偏差比生物学差异还大。

再说说预处理。很多人拿到表达矩阵，直接标准化就完事了。错！大错特错。如果是芯片数据，RMA标准化是基础，但还要看背景校正做得干不干净。如果是RNA-seq数据，原始计数矩阵是必须的，别拿FPKM或者TPM去跑差异分析，那是给聚类看的，不是给差异看的。我有一次帮客户处理数据，发现他用的标准化方法导致高表达基因被过度压缩，结果几个看家基因都变成了差异基因，这逻辑通吗？通个鬼啊。

还有批次效应。这是最容易被忽视的坑。如果你的样本是不同时间、不同人、甚至不同实验室做的，那批次效应能把你累死。别指望简单的t-test能解决。你得用ComBat或者SVA这些工具去校正。但校正也不是乱校，你得知道哪些是生物变量，哪些是技术噪音。把性别、年龄这些生物变量给校正没了，那分析个寂寞？我见过最离谱的，把性别当批次效应给去掉了，最后发现男女差异全没了，这还做个毛线研究。

说到这儿，可能有人要问，那到底怎么确定差异基因阈值？P<0.05就够吗？别逗了。多重检验校正后的FDR<0.05是底线，但Fold Change也不能太小。通常FC>1.5或者2才算有点意思。但具体阈值得看你的数据分布。我习惯画个火山图，看看那些点在哪儿。如果大部分点都挤在原点附近，说明你的实验设计或者数据处理有问题。如果点散得很开，但很多是负值，那可能是反向调控，得小心验证。

最后，别迷信自动化流程。虽然有很多一键分析的R包，比如GEOquery直接下载，limma一键跑，但作为研究者，你得懂每一步在干嘛。你要知道输入是什么，输出是什么，中间发生了什么转换。只有懂了这些，你才能解释你的结果。不然审稿人问一句“你为什么选这个阈值”，你只能支支吾吾。

总之，geo数据做差异基因分析，核心在于细节。从数据获取、质控、标准化、批次校正到阈值设定，每一步都不能马虎。别想着走捷径，科学没有捷径。你投入多少精力在数据清洗上，结果就回报你多少可信度。下次再遇到结果不显著，先别急着换算法，回头看看你的数据，是不是哪里没弄干净。毕竟，垃圾进，垃圾出，这是铁律。

本文关键词：geo数据做差异基因