JavaScript is required
订购咨询
0510-85220969
David Baker创立的AI制药公司扔出重磅炸弹:最大规模单细胞扰动测序数据集,支持虚拟细胞研究

2024 年 4 月,一家名为 Xaira Therapeutics 的人工智能(AI)药物研发公司成立,并同时宣布获得了令人瞠目结舌的 10 亿美元种子轮融资。该公司致力于通过新兴 AI 技术的端到端应用,帮助重新设计药物的发现和开发之旅。

该公司拥有一个星光熠熠的创始和领导团队,包括 AI 蛋白质设计先驱、2024 年诺贝尔化学奖得主 David Baker 教授,以及 2022 年诺贝尔化学奖得主 Carolyn Bertozzi 教授、美国 FDA 前局长 Scott Gottlieb、强生公司前 CEO Alex Gorsky,以及斯坦福大学前校长 Marc Tessier-Lavigne 等。因此,整个 AI 药物研发领域都在热切期待着该公司取得令人瞩目的科学成果。

现在,这家 AI 独角兽企业不负众望,在其成立的第一年就为虚拟细胞(Virtual Cell)研究领域送上了一份厚礼——发布了目前最大的公开可用的 Perturb-seq 数据集,名为 X-Atlas/Orion,为虚拟细胞研究提供支持,该数据集可用于 AI 模型训练,并能检测剂量依赖性遗传效应,从而增强药物发现的预测能力。

该数据集于 2025 年 6 月 16 日发表在预印本平台 bioRxiv,论文题为:X-Atlas/Orion: Genome-wide Perturb-seq Datasets via a Scalable Fix-Cryopreserve Platform for Training Dose-Dependent Biological Foundation Models

根据论文中的介绍,X-Atlas/Orion 包含了 8000000 个细胞,涵盖了人类所有编码蛋白质的基因,单细胞的深度测序超过 16000 个独特分子标识符(UMI)

Perturb-seq 是基于单细胞转录组测序(scRNA-seq)、以汇集的形式同时读出单细胞的 CRISPR sgRNA 遗传扰动和转录组的方法。过去,研究人员一直将 Perturb-seq 基因敲低视为一种“开”或“关”的开关,而 X-Atlas/Orion 通过检测剂量依赖性遗传效应取得了进步,从而揭示了基因活性如何随着特定干预措施的强度而变化,例如,可应用于确定对药物靶点的抑制百分比达到多少时会产生预期治疗效果。

大规模平行测序技术的迅猛发展催生了基础模型开发生态,这类模型可通过解析海量生物数据揭示全新生物学发现。然而,尽管 AI 驱动的虚拟细胞模型具备加速科学发现的革命性潜力,其发展始终受限于高质量扰动数据的规模性短缺——这一困境源于数据生成过程的可扩展性瓶颈与实验方法变异性的双重制约。

该研究推出了创新性的“固定-冻存-单细胞测序(Fix-Cryopreserve-scRNAseq, FiCS)Perturb-seq 平台,该工业化解决方案实现了扰动测序数据的规模生产。

实验验证表明,FiCS 平台展现出卓越的检测灵敏度与微弱的批次效应,能精准捕捉基因扰动引发的转录组变化,准确重现经典生物学通路与蛋白复合体特征。作为技术示范,Xaira Therapeutics 正式发布当前全球最大规模的公共扰动数据库——X-Atlas/Orion。该数据集源自两项针对人类全部蛋白质编码基因的全基因组 FiCS Perturb-seq 实验,包含 8000000 个深度测序细胞,单细胞独特分子标识符(UMI)超 16000 个,为领域研究树立新标杆。

该研究还揭示,sgRNA 丰度可作为基因敲低效能的有效表征。通过深度测序与每次扰动条件下充足细胞量的技术优势,证实基于 sgRNA 表达的剂量分层可解析遗传效应的浓度依赖性特征。

工业化 Perturb-seq 平台工作流

综合来看,FiCS Perturb-seq 成功打造了高效、可扩展的高通量扰动测序平台。通过 X-Atlas/Orion 数据集的发布,不仅为解决数据生成中的规模化和标准化难题提供关键方案,更将推动融合基因剂量效应的新一代基础模型开发,为加速生命科学发现注入强劲动力。

为促进虚拟细胞研究领域的开放协作,X-Atlas/Orion 数据集将以非商业使用许可向生物技术界开放共享。对于有意开展商业合作的公司,Xaira Therapeutics 表示愿意就数据授权与应用开发等合作模式进行商谈。

对于传统的早期药物研发,通常仅限于从文献中挑选少数几个基因进行尝试,但高性能的虚拟细胞(Virtual Cell)模型却有可能在研发流程中不良生物学效应出现之前就将其排除。

许多虚拟细胞模型是基于观察数据训练的,例如 CZ CELLxGENE,其单细胞数据主要来自健康的人类捐赠者,虽然观察数据对于某些生物学研究任务(例如细胞类型注释)非常有用,但在预测细胞对扰动(例如药物治疗)的响应方面却存在不足。

在 Perturb-seq 中,由于单细胞数据集的随机性和稀疏性,测量基因敲低效率一直颇具挑战性。为解决这一难题,Xaira Therapeutics 的研究人员证明,sgRNA 的丰度在每个细胞中能被检测到并表达数百个拷贝,这在单细胞检测中极为罕见,并且为基因被抑制的程度提供了一个可靠的替代指标。

Xaira Therapeutics 将利用 X-Atlas/Orion 提供的扰动信息,在高级副总裁、生物医学 AI 负责人王波博士的带领下构建虚拟细胞模型。他曾开发了 scGPT,这是一个在 3300 万个人类细胞上进行预训练的单细胞基础模型,具备下游功能,包括细胞类型注释、扰动响应预测和基因网络推断,相关研究于 2024 年 2 月 发表在了 Nature Methods 期刊。王波于今年 4 月份加入了 Xaira Therapeutics。

除了 Xaira Therapeutics,还有多个机构致力于构建虚拟细胞,例如,陈-扎克伯格倡议(CZI)在今年 4 月份发布了 TranscriptFormer,这是一种生成式 AI 模型,能够跨物种探究细胞生物学,并具有治疗应用。与此同时,Arc 研究所宣布与 10x Genomics 和 Ultima Genomics 建立合作伙伴关系,共同构建 Arc 虚拟细胞图谱。

像 X-Atlas/Orion 这样大规模全基因组实验可能极其耗时。仅对细胞进行分类以富集高质量细胞就可能需要超过 10 个小时。通过发布 X-Atlas/Orion 的方法,Xaira Therapeutics 旨在让更多的实验室能够以大规模、高质量和标准化的规模生成 Perturb-seq 数据,让各个实验室有能力利用大规模数据来检验特定假设。

这篇论文的通讯作者、Xaira Therapeutics 副总裁 Ci Chu 表示,弄清楚哪种类型的数据对于构建生物学基础模型最有用,需要集体思考。X-Atlas/Orion 是对现有单细胞数据公共数据库的补充,以支持虚拟细胞研究领域的合作。我们正处于 AI 驱动的虚拟细胞发展的初期阶段,这对整个科研界来说将是一段长期征程。

Ci Chu 进一步表示,目前团队正在努力将数据生成扩展到诱导多能干细胞(iPSC)和体内动物模型。团队投入了巨大精力实现了所有步骤的工业化,使这一流程真正具有可扩展性。现在,我们开放了 X-Atlas/Orion 数据集,我们迫不及待地想看看科学界会怎么应用这些数据,无论是在 AI 领域方面还是假设生成方面。我确信这也会激发我们自己的工作。


论文链接

1. https://www.biorxiv.org/content/10.1101/2025.06.11.659105v1

2. https://www.nature.com/articles/s41592-024-02201-0