凌晨三点,我盯着屏幕上那堆乱七八糟的UMAP图,烟灰缸里堆满了烟头。这已经是这周第三次因为样本质量问题被老板骂得狗血淋头了。做我们这行,八年了,早就练就了一身“火眼金睛”,但geo单细胞测序分析这块硬骨头,依然能让新人哭爹喊娘,让老手也头皮发麻。
先说个大实话:单细胞测序不是万能的。别一听“单细胞”就觉得高大上,能解决所有生物学问题。那是扯淡。如果你只是想看几个差异基因,bulk测序性价比更高,钱省下来请团队吃顿好的不香吗?只有当你真正需要解析细胞异质性,比如肿瘤微环境里那些稀有的免疫细胞亚群,或者发育过程中那些转瞬即逝的过渡态细胞时,单细胞才是神器。
记得去年接了个肿瘤免疫的项目,客户非要上单细胞。样本送过来的时候,我一看OD值,心里就咯噔一下。细胞活性只有85%,这数据要是跑出来,垃圾堆里都嫌占地方。我跟客户说:“兄弟,这细胞状态不行,重取吧。”客户在那头急得跳脚,说经费有限,只能这批。没办法,硬着头皮上。
做geo单细胞测序分析,第一步就是质控。这一步要是偷懒,后面全是白搭。我们当时用了CellRanger处理数据,过滤掉那些线粒体基因占比超过20%的细胞,因为那代表细胞已经破防了,里面的东西都漏出来了。结果呢,过滤完只剩60%的细胞。客户看到报告直接炸毛,问我是不是技术不行。我直接把原始数据甩给他看,告诉他:“这不是技术问题,是生物学现实。细胞都死了,你让我怎么变活?”
最后我们调整了策略,结合bulk数据做了去卷积分析,虽然没达到客户预期的完美分辨率,但也算勉强过关。这件事让我明白,做geo单细胞测序分析,沟通比技术更重要。你得让客户知道,实验设计决定上限,技术只能帮你接近上限。
再说说数据分析。很多人以为装个Seurat包,跑个默认流程就完事了。大错特错!不同组织、不同物种,参数设置天差地别。比如脑组织,细胞碎片多,聚类时很容易把胶质细胞和神经元混在一起。我当时为了区分小胶质细胞和浸润的巨噬细胞,特意查了十几篇文献,调整了标记基因列表,才把这两个“双胞胎”分开。那种成就感,真的比中彩票还爽。
还有批次效应,这是单细胞数据的噩梦。不同时间、不同操作员、甚至不同天加的试剂,都能导致数据漂移。我们以前遇到过两个样本,明明来自同一批小鼠,结果在PCA图上分得远远的。后来发现是测序仪不同批次导致的。解决办法?Harmony或者BBKNN,这些工具得熟门熟路。别指望一键解决,你得懂背后的原理,才能判断结果靠不靠谱。
现在市面上很多外包公司,报价低得吓人,几百块一个样本。你猜怎么着?他们用的可能是过时的流程,或者干脆拿公共数据糊弄你。做geo单细胞测序分析,核心在于细节。从文库构建到测序深度,每一步都得抠。我们团队现在要求每个样本至少测到5万条有效读数,虽然成本高,但数据质量有保障。
最后想说,这行水很深,但也很有魅力。当你看到那些密密麻麻的细胞簇,发现了一个新的亚群,那种探索未知的快感,是其他工作给不了的。别怕出错,怕的是你不敢试。但记住,数据不会撒谎,你糊弄它,它就糊弄你。
所以,下次有人问你单细胞测序怎么搞,别急着报价格。先问问他的样本情况,问问他的科学问题。如果问题不对,再好的技术也是浪费。做geo单细胞测序分析,归根结底,是为了解决真实的生物学问题,而不是为了发文章凑数。这点底线,咱们得守住。