首个基因挖掘大模型发布

责编：晨峰浏览：

城市快报网时间：2025-04-13

北京大学定量生物学中心的钱珑团队近期成功研发了一种新型大语言模型——SYMPLEX，该系统专为功能基因挖掘设计，能够在大量生物文献中快速识别并筛选出具有特定功能的关键基因。这一突破性的研究成果已发表在国际权威期刊《科学·进展》上。

钱珑指出，自然界中的生物体内蕴含着海量的有用基因，这些基因经过长期自然选择，形成了丰富多样的序列和组合，并演化出各种复杂的功能。然而，尽管现代测序技术已经积累了数十亿量级的生物序列数据，但目前只有少数热门基因被高质量注释并建立了结构模型。

针对这一难题，钱珑团队创新性地将大型语言模型与结构化生物知识库相结合，开发出SYMPLEX智能基因挖掘平台。该系统能够自动分析和理解数以千万计的生物学文献，从基因、功能和知识等多个层面提取信息，并通过与专家数据库进行概念匹配和统计模式生成，最终筛选出高质量的候选基因集合。

在实际应用中，研究团队利用SYMPLEX成功挖掘出了性能显著优于现有商业产品的mRNA加帽酶。实验结果显示，该系统发现了近2万个新型加帽酶，并对其中十余个进行了验证。这些新发现的酶表现出比当前疫苗生产所用酶高出两倍以上的活性。

钱珑表示，这一研究成果为mRNA疫苗的大规模生产提供了关键的技术支持。研究团队正在进一步利用该模型挖掘更多适用于合成生物学的关键酶元件，并计划将其应用于合成通路设计等领域。这标志着生物制造正逐步进入"人工智能驱动的科学研究"的新阶段。

责任编辑：晨峰

模型发布挖掘基因

THE END

城市快报网所刊载信息，来源于网络，并不代表本站观点。本文所涉及的信息、数据和分析均来自公开渠道，如有任何不实之处、涉及版权问题，请联系我们及时处理。城市快报网，不提供任何互联网新闻相关服务。本文仅供读者参考，任何人不得将本文用于非法用途，由此产生的法律后果由使用者自负。

如因文章侵权、图片版权和其它问题请邮件联系，我们会及时处理：Ts_leecn@sina.com

相关推荐