中国科学院上海营养与健康研究所的王泽峰研究团队在科学进展发表了题为《癌症中广泛存在的长度依赖性剪接调控》的研究论文。这项研究在癌症中发现了一种新的长度依赖的选择性剪接调控模式。人类基因组中90%以上的基因需要进行选择性剪接,剪接的错误调控会导致许多人类疾病,尤其是癌症。越来越多的证据表明,RNA剪接异常与人类癌症密切相关,广泛剪接异常是癌症的分子标记之一。因此,系统地探索可变剪接在癌症中的异常调控,将为癌症治疗提供新的思路。
本研究分析了TCGA数据库中的大规模癌症转录组数据,识别了癌症中存在异常剪接的外显子,发现癌症中存在异常剪接的外显子长度趋于变短,而这些短外显子在癌症中趋于被跳过。在这项研究中,确定了494个癌症相关的短外显子(病例),并进行了进一步的研究。研究人员通过使用CASE的拼接开发了一种用于癌症预测的随机森林模型,该模型可以准确预测癌症样本,AUC约为0.9。此外,本研究还提出了通过病例拼接计算危险因子来预测癌症患者预后的方法,该方法在TCGA数据集和其他独立的癌症数据集上均有较好的预测效果。
在机制研究中,本研究提出了影响案例拼接的两种机制。癌细胞的快速生长和增殖需要更快的转录过程,因此癌症中的异常转录可能会影响剪接。对不同转录延伸速度的细胞系中选择性剪接的分析表明,短外显子对转录速度的变化更敏感,更容易受到转录速度变化的干扰,导致外显子跳跃。转录对剪接的影响是广泛的和非选择性的。这项研究进一步表明,癌症中特定短外显子的跳跃是由剪接因子调控的。通过分析ENCODE数据库中大量RNA结合蛋白(RBPs)的相关组学数据,建立了RBPs对案例剪接的直接调控网络,并鉴定了几个调控案例剪接的RBPs,包括RBFOX2、AQR、U2AF2、PTBP1等。