Nature Methods：从“猜”到“预见”——AI模型PUPS揭示单细胞蛋白质定位的秘密

2025-05-21 00:00
来源：医药资讯网
阅读：91

蛋白质（proteins）在细胞（cells）内拥有各自特定的地址（subcellular localization），这对它们的正常功能至关重要。一旦定位错误（mislocalization），往往与众多疾病（diseases）直接相关。因此，绘制精确的蛋白质亚细胞地图是生命科学的核心任务。

尽管人类蛋白质图谱（Human Protein Atlas, HPA）等大规模项目已描绘了上万种蛋白质在部分细胞系（cell lines）中的定位，但这份地图远非完整。HPA覆盖了约13,147个基因（占已知人类基因的65%），但每个蛋白质最多仅在数据集总共37个细胞系中的三株中测量过，实验手段也限制了单次可标记的蛋白质数量。这意味着蛋白质与细胞系的绝大多数组合仍然未知。

更具挑战的是，蛋白质定位并非静态，它在不同细胞系间存在差异，甚至在同一细胞系内的单个细胞（single cells）间也有显著变异性（variability），例如受细胞周期影响。这种动态性难以通过现有有限数据捕捉。

计算模型被寄予厚望以填补空白。纯粹基于蛋白质序列（protein sequences）的模型虽能泛化到未见蛋白质，却忽视了细胞环境特异性。而基于细胞图像（cellular images）的模型虽能捕捉单细胞变异性，却依赖实际图像输入，无法预测新蛋白质或未测量细胞中的定位。亟需一个模型，能跨越蛋白质和细胞系的界限，预测未知定位，并揭示单细胞变异性。

5月13日《Nature Methods》的研究报道 Prediction of protein subcellular localization in single cells ，提出PUPS（Prediction of Unseen Proteins Subcellular localization）方法，创新性地结合了蛋白质语言模型（protein language model）和图像修补模型（image inpainting model）。它利用蛋白质序列实现对未知蛋白质的泛化，借助细胞标志物图像（landmark stains）捕捉单细胞变异性并泛化到未知细胞系。实验验证表明，PUPS能在训练数据之外的全新实验中准确预测蛋白质定位，其预测的变异性与实际观察一致。这为理解蛋白质在活细胞内的动态行为提供了一个强大的计算工具。