GEO样本数量到底多少合适？6年老鸟掏心窝子告诉你，别被坑了-艺途文化

做GEO数据挖掘的朋友，我见过太多人死在“样本太少”或者“样本太多太杂”这两个极端上。刚入行那会儿，我也犯过傻，看到几个样本就急着跑差异分析，结果P值好看，生物学意义全无。干了6年，踩过无数坑，今天不整那些虚头巴脑的理论，直接聊点干货：GEO样本数量到底该怎么选？

首先，得有个心理预期。在大多数常见的癌症vs正常对照研究里，每组3-5个样本是底线。为什么？因为统计学的功效（Power）不够。你想想，如果每组只有2个样本，哪怕差异再大，t检验或者limma出来的结果都极其不稳定，稍微换个批次效应或者剔除一个离群值，结果就翻车。所以，别信那些说“3个样本就能发高分文章”的鬼话，除非你是做单细胞测序或者极特殊的罕见病，否则Bulk RNA-seq数据，每组至少凑够5个，最好8个以上。

但样本也不是越多越好。我见过有人为了凑数，把不同批次、不同平台、甚至不同物种的数据硬拼在一起。这就是典型的“垃圾进，垃圾出”。GEO数据库里数据虽然多，但质量参差不齐。很多公共数据是几年甚至十年前做的，平台可能已经淘汰，背景信息缺失严重。这时候，盲目追求样本数量，只会增加你清洗数据的工作量，最后得到的结论还不可靠。

那怎么平衡呢？我的建议是“宁缺毋滥，注重同质性”。

第一，看来源一致性。尽量从同一个GSE项目里找样本。比如GSE12345，里面包含了100个样本，这100个样本是在同一时间、同一实验室、用同一套流程处理的。这种数据，批次效应最小，直接拿来用最稳妥。如果你非要跨GSE项目合并数据，那恭喜你，准备好迎接复杂的ComBat校正或者SVA去批次处理吧，这对新手来说简直是噩梦。

第二，看临床信息完整性。样本数量再多，如果没有详细的临床随访、病理分期、治疗记录，那这些样本就是“死数据”。我在做生存分析的时候，经常遇到样本量很大，但随访时间只有6个月的情况，这种数据做OS（总生存期）分析毫无意义。所以，筛选样本时，一定要先下载metadata（元数据），看看有没有你需要的关键变量。

第三，关于价格。很多人问找代做或者买数据要多少钱。说实话，纯数据分析服务费，根据难度不同，从几百到几千不等。但如果你想买原始数据，那基本是不可能的，GEO是免费的。如果你是指找实验室做实验生成数据，那每组5个样本的成本，在小鼠实验里可能要上万，在人源样本里更贵。所以，利用GEO公共数据做二次挖掘，是性价比最高的选择，但前提是你要会挑。

避坑指南：千万别只看FDR值。很多新手看到FDR<0.05就以为找到了关键基因，其实还要看Fold Change（倍数变化）。有时候P值很小，但倍数变化只有1.1倍，这种基因在生物学上往往没有太大意义。另外，注意检查样本的聚类图。如果正常组和肿瘤组在PCA图上分不开，或者混在一起，那说明你的样本筛选有问题，或者数据本身噪音太大，这时候增加样本数量也没用，得回头检查数据质量。

最后，记住一点，GEO样本数量的选择没有标准答案，只有最适合你研究问题的答案。对于探索性研究，样本少点也能发现线索；对于验证性研究，样本必须足够大。别被网上的教程忽悠，觉得只要跑个代码就能发文章。真正的价值，在于你对数据的理解和清洗过程。

本文关键词：GEO样本数量