GEO数据库里没有疾病数据？别慌，老鸟教你怎么找替代方案-艺途文化

做生信分析的兄弟姐们们，估计都踩过这个坑。搜了一堆关键词，点进去一看，GEO数据库里没有疾病相关的样本，全是正常的或者细胞系的。那一刻，心态真的崩了。我入行十二年，从最早用微阵列到现在搞转录组、单细胞，这种“无米之炊”的情况太常见了。今天不整那些虚头巴脑的理论，直接说点实在的，怎么在GEO数据库里没有疾病数据的情况下，把活儿干了。

首先，你得承认一个事实：GEO（Gene Expression Omnibus）是个大杂烩，但它不是医院电子病历系统。很多研究者上传数据时，标签打得非常随意。你以为搜“肺癌”，结果出来一堆“Lung”或者“Normal”。这时候，别急着换数据库，先换个搜法。试试用具体的基因名，或者更细分的亚型。比如，别只搜“Breast Cancer”，试试“Triple Negative Breast Cancer”或者具体的分子分型。有时候，那些看起来不相关的标题里，其实藏着你要的病例。

如果真搜不到，怎么办？别死磕。这时候，去GEO数据库里没有疾病数据，并不代表这个病没有数据，只是没在GEO里，或者没公开。你可以看看TCGA（The Cancer Genome Atlas）。TCGA的数据更规范，临床信息更全。虽然TCGA和GEO的数据平台不一样，处理起来稍微麻烦点，但胜在质量高。很多老手都会把TCGA作为首选，GEO作为补充验证。

再一个，别忽视文献里的补充材料。有些高质量的文章，作者会把原始数据上传到GEO，但描述写得极其简单。你去翻翻他们的参考文献，或者看看他们引用的其他数据集。有时候，顺藤摸瓜，你能找到好几个相关的数据集。把这些数据集合并起来，做Meta分析，效果往往比单一数据集好得多。当然，合并数据要注意批次效应，这个后面再说。

说到批次效应，这是新手最容易忽略的地方。即使你找到了数据，不同批次、不同平台的数据直接扔进差异分析软件里，出来的结果基本没法看。一定要用ComBat或者limma这些工具去校正。我见过太多人，数据都没校正就直接跑差异分析，最后P值显著一堆，但生物学意义为零。这就是典型的为了发文章而发文章，毫无价值。

还有，关于样本量的问题。GEO里的很多研究，样本量其实很小。比如只有3个正常，3个肿瘤。这种数据做差异分析，统计效力很低。如果你发现GEO数据库里没有疾病的大样本数据，不妨考虑自己收集数据，或者找合作医院。当然，这需要伦理审批，比较麻烦，但如果是临床导向的研究，这是必经之路。

最后，我想说的是，工具只是工具，思路才是核心。GEO数据库里没有疾病，可能只是因为你没找到对的入口。多花点时间读文献，多看看别人的数据是怎么处理的，比盲目下载数据更有用。别怕麻烦，生信分析本来就是个体力活加脑力活。

记住，数据清洗占了你80%的时间，分析只占20%。别嫌麻烦，把基础打牢，后面的路才能走得稳。希望这些经验能帮到你，少走点弯路。毕竟，头发已经够少了，别再因为数据问题失眠了。