基于自然语言处理的单细胞转录组数据伪时间分析

Abstract

针对单细胞转录组测序数据,人们已经提出了各种强大的分析模型和处理算法,用于细胞聚类、细胞类型识别、细胞伪时间轨迹推断、细胞RNA动力学、基因调控网络推断和RNA速度分析等。本文提出一种方法,将自然语言处理技术引入单细胞转录组数据分析中。算法首先采用TF-IDF表示转录组基因表达强度对细胞功能的影响程度,进一步把细胞演化发育过程所形成的各种基因表达变化,理解为自然语言中的各种句子文本,创新性地把自然语言文本分析技术应用于单细胞转录组演化发育的处理。通过在基因网络上随机行走生成各种基因序列文本,从而生成基因空间中基因的嵌入式词向量表示和细胞的嵌入式词向量表示,实现了对单细胞转录组数据的伪时间可视化分析。最后的分析结果表明该模型对于单细胞数据进行细胞发育伪时间分析是一种有效的方法。
关键词: 单细胞测序,伪时间轨迹推断,自然语言处理,基因组学

Publication
生物物理学, 2022, 10(2), 31-38
卢雨儿
卢雨儿
国科温州研究院
研究助理
帅建伟
帅建伟
课题组组长
PI

长期从事计算生物物理人工智能交叉学科的研究,包括智子力学、智能融合生命体、细胞信号网络动力学、深度学习核心算法构建、健康医疗大数据深度学习分析及深度学习在生物医学中的应用等。