很多人一看到GEO就以为是测序数据,其实大错特错。这篇文直接告诉你GEO到底是啥,怎么用它找数据做分析,不绕弯子。
先说结论:GEO绝对不是转录组学,它是个数据库,是个仓库。
我在这个行业摸爬滚打15年了,见过太多新手把GEO当成一种实验技术或者一种分析方法。每次看到这种问题,我都想拍桌子。GEO的全称是Gene Expression Omnibus,直译过来就是基因表达综合数据库。它是美国国家生物技术信息中心NCBI维护的一个公共数据库。说白了,它就是存放数据的仓库,而不是产生数据的方法。
这就好比你去超市买东西,GEO是超市货架,上面摆满了各种商品。而转录组学、蛋白质组学、代谢组学这些,才是生产这些商品的“生产线”或者“工艺”。你不能说货架就是生产线吧?这逻辑不通。
很多刚进实验室的研究生,拿到老板让找数据的任务,第一反应就是去GEO搜。搜出来一堆数据,然后傻眼了,不知道怎么用。这是因为他们没搞懂GEO的结构。GEO里存的是什么?是原始数据,比如FASTQ文件,或者是经过预处理后的矩阵文件。这些数据可能来自RNA-seq,也就是转录组测序;也可能来自ChIP-seq,那是表观遗传学的;甚至还有来自微阵列芯片的数据。
我有个学生,前年做课题,想研究癌症的免疫浸润。他直接在GEO搜“cancer”,结果下载了一堆数据。他以为这些数据都是转录组数据,结果拿到手里一分析,发现有些样本是甲基化数据,有些是表达谱数据。他花了一周时间清洗数据,最后发现根本没法合并分析,因为平台不一样,探针映射都不同。这就是典型的没搞清楚GEO本质导致的弯路。
那怎么判断GEO里的数据是不是转录组学数据呢?看平台。如果平台ID是GPL开头的,后面跟着的是Illumina或者Affymetrix的芯片平台,那大概率是表达谱数据。如果是SRA开头的原始数据,那就要看测序类型。现在主流是RNA-seq,但也要小心有些是全基因组测序或者外显子组测序。
这里有个小细节,很多人分不清GEO和SRA。SRA是Sequence Read Archive,专门存原始测序读段的。GEO更综合,除了存原始数据,还存处理后的表格。如果你做差异表达分析,最好去GEO找已经整理好的表达矩阵,省得自己从FASTQ重新比对,那太费算力了。
再说说怎么找数据。别只搜关键词,要用条件筛选。比如你想找乳腺癌的转录组数据,搜索词用“breast cancer”,然后在Platform里选“RNA-seq”,或者在Series Matrix Files里找。我一般推荐找那些样本量大的,比如超过30个样本的队列,这样统计效力才够。太小样本的数据,噪音太大,容易得出假阳性结果。
记得去年有个同行,为了省钱,用了GEO里一个只有5个正常和5个肿瘤的数据集做验证。结果做出来差异基因几百个,发文章的时候审稿人直接质疑样本量不足,统计方法不对。后来他不得不重新去TCGA数据库找大样本数据验证,耽误了半年时间。所以,数据质量比数据数量更重要,但样本量也不能太少。
还有,GEO的数据更新很快,但注释可能滞后。你下载的数据,里面的基因符号可能还是旧的,比如用Entrez ID或者旧版的Gene Symbol。这时候一定要用最新的注释文件去转换,不然后续分析全乱套。我见过有人直接用十年前的注释文件,结果一半基因对不上,查了半天bug才发现是注释问题。
总之,GEO是工具,不是方法。你要用它来辅助你的转录组学研究,而不是把它当成转录组学本身。搞清楚这个关系,你的科研之路会顺畅很多。别再把GEO当成一种技术名词了,它就是个宝库,你得学会怎么挖矿。
希望这篇能帮到你,少走弯路。如果有具体问题,欢迎评论区留言,我看到都会回。毕竟大家都不容易,能帮一把是一把。