流形拟合在生物序列语言模型嵌入空间中的结构建模与功能解码
总览
随着深度学习技术的进步,基于Transformer模型的方法在生物序列建模中逐渐展现出巨大潜力。这些模型能够将碱基序列映射为连续的向量表示,在多种生物任务中取得了优于传统表示方法的表现。然而,这些高维嵌入通常存在维度冗余、结构不明确等问题,限制了其在下游任务中的可解释性与鲁棒性。本项目拟将我们已成功应用于单细胞 RNA-seq 和代谢组学数据的流形拟合方法扩展至序列嵌入空间,探索其潜在的非线性低维结构。我们的目标是以几何方式重构和解码基因序列的“语言空间”,揭示其结构组织规律,并推动下游任务性能提升与模型解释能力增强。