科学家们开发了TopicVelo,这是一种强大的新方法,用于分析来自scRNA-seq的静态快照,以观察细胞和基因随时间的变化。这一突破将大大增强对胚胎发育、细胞分化、癌症形成和免疫系统反应的研究。
想象一下,能从比赛开始10秒后的静态照片中预测肯塔基赛马的确切完赛顺序。
这个挑战与研究人员在使用单细胞RNA测序(scRNA-seq)研究胚胎发展、细胞分化、癌症形成和免疫系统反应时所遇到的复杂性相比,简直微不足道。在今天发表的一篇文章中,来自芝加哥大学普利兹克分子工程学院和化学系的研究小组开发了TopicVelo,这是一种分析细胞和基因如何随时间演变的新技术,利用来自scRNA-seq的静态快照。这个跨学科的团队结合了经典机器学习、计算生物学和化学的理念,创建了TopicVelo,它将无监督机器学习与转录模式相结合。“我们开发TopicVelo是为了从scRNA-seq数据中推断细胞状态转变,这也是一个非常简单、古老的想法。但是当你把它们放在一起时,它们会产生比你预期的更强大的效果,”普利兹克分子工程与医学助理教授萨曼莎·里森菲尔德说,她与化学系的苏里亚纳拉扬·瓦伊库坦纳坦教授以及他们的联合学生、芝加哥大学化学博士候选人高成芬一起撰写了这篇论文。
伪时间的问题
科学家们使用scRNA-seq获得强大而详细的测量,但从本质上讲,它们是静态的。
“我们开发TopicVelo是为了从scRNA-seq数据中推断细胞状态转变,”里森菲尔德解释道。“由于scRNA-seq的破坏性,这种类型的数据很难实现这种推断。当你以这种方式测量细胞时,实际上是在破坏它。”
因此,研究人员只能获得细胞被测量/破坏时的一个固定瞬间。虽然scRNA-seq提供了最全面的转录组快照,但许多研究人员真正需要的是追踪细胞如何随时间变化的能力。他们对细胞转变为癌性状态的过程或特定基因程序在免疫反应中表现如何感兴趣。
为了应对从静态快照理解动态过程的挑战,研究人员通常依赖一种称为“伪时间”的技术。在静态图像中观察单个细胞或基因表达的变化和生长是不可能的。然而,捕获的图像中也包含同一类型的其他细胞和基因,这些细胞和基因可能在相同过程中更进一步。通过正确连接这些点,科学家们可以获得关于这一过程的宝贵见解。
连接这些点涉及到困难的猜测,因为这基于一种假设,即相似的细胞处于同一路径上的不同点。生物学要复杂得多,假起步、停止、爆发和多种化学力量都会影响每个基因。
与传统相比
与关注细胞转录谱中表达相似性的传统伪时间方法相比,RNA速度方法分析的是细胞内转录、剪接和mRNA降解的动态。
尽管前景广阔,这项技术仍处于早期阶段。
“RNA速度的潜力与实际应用之间的差距限制了它的使用,”作者在论文中表示。
为了克服这一挑战,TopicVelo远离确定性模型,而是采用一种更复杂的随机模型,反映生物学固有的随机性,同时从中汲取见解。
“当你考虑细胞时,它们本质上是随机的,”论文的第一作者高说。“你可能有双胞胎或基因相同的细胞,他们长大会非常不同。TopicVelo引入了一种随机模型,更好地捕捉对于mRNA转录至关重要的转录过程中潜在的生物物理学。”
团队还发现,标准RNA速度受另一种假设的限制。“大多数方法假设所有细胞本质上都在表达相同的主要基因程序,但你可以想象细胞可能有不同的表达模式,”团队表示。里森菲尔德提到了在同一时间处理多种过程的必要性,每种过程的程度不同。解开这些过程之间的关系是一个挑战。来自芝加哥大学的团队利用概率主题建模,这是一种在书面文件中识别主题的常用机器学习工具。团队使用的TopicVelo工具根据细胞和基因参与的过程组织scRNA-seq数据,而不是根据细胞或基因类型进行分类。这些过程是根据数据本身确定的,而不是基于外部知识。这种方法不同于科学杂志的组织,后者通常对“物理学”、“化学”和“天体物理学”等主题进行分类。高提到,他们已经应用了一种组织原则于单细胞RNA测序数据,以将数据按“核糖体合成”、“分化”、“免疫反应”和“细胞周期”等主题进行分类。然后,他们可以应用特定于每个过程的随机转录模型。
随后,TopicVelo按主题组织这些过程,并对细胞施加权重,以考虑每个细胞的转录谱在每种活动中的百分比。这种方法有助于分析不同过程的动态,里森菲尔德说。这就是我们的项目是如何产生的,“来自不同背景的人们帮助实现了这一点。”高认为,这种跨学科的合作是推动细胞生物学研究和理解细胞复杂行为的关键。通过结合不同的模型和技术,研究人员可以更全面地理解细胞过程,最终在各种科学领域取得突破。“我们仍在努力,”他说。“这不仅仅是关于化学。”