
人类的基因组,如同一本由30亿个碱基对编织而成的宏大“天书”。在这本“书”里,绝大部分文字在全人类中是通用的,唯有那些被称为SNP(单核苷酸多态性)的微小差异,悄悄决定了每个人的身高、智力、性格,甚至是患病风险。
昨天下午,在徐汇滨江的模速空间,全球首个专为全基因组规模SNP分析设计的基础大模型——SNPBag正式发布。这意味着,人类在破解遗传密码的征途中,告别了效率低下的传统计算模式,大步跨入大模型时代。
上报AI制图

基因也会交朋友
在基因科学的世界里,SNP是理解遗传多样性的核心。如果把基因序列比作一段长长的拉链,SNP就像是拉链上偶尔出现的一两个颜色不同的齿扣。虽然只有一点点不同,但它们却是生命多样性的源头。以往,科研人员想要研究这些变异,往往只能一个点一个点地去死磕,看某个位点和疾病的相关性。“这种传统方法其实忽略了基因之间复杂的相互作用。”计算生物学专家、飞瀑智能创始人兼首席科学家唐鲲在发布现场解释说,基因并不是孤立存在的,而是一个复杂的网络,它们之间会不停地交流、影响。
上报AI制图
此次发布的SNPBag拥有8.4亿参数,它像大语言模型学习人类文字逻辑一样,通过对100万个基因组数据的深度学习,自动在海量数据中找出这些复杂的相互关系掌牛宝,读懂了基因变异之间的语境。“以前离得很远的两个遗传特征,现在通过大模型的自注意力机制,被成功拉近并解释清楚。这种全局视野让它在处理基因信息时,运行速度比传统工具快了10到100倍。”
SNPBag模型架构
除了速度快,SNPBag还实现了一项革命性突破:它能将个体约600万个SNP位点的信息,压缩成一个仅0.75MB的数据包。这就像是给每个人办了一张轻便的“生命护照”。唐鲲介绍,这个极小的文件不仅完整保留了个体的遗传特征,而且因为不包含原始碱基信息,能更好地守护隐私,让跨机构的医疗协作变得既高效又安全。
让罕见病不再罕见
该模型目前已可用于查祖源、查亲缘,但它的潜力远不止于此。通过输入DNA序列,模型可以精准预测生命中某些阶段可能患上的疾病,实现提前筛查。在数据测试中,其准确率已超过现有的部分传统基因检测手段。
亲缘性推断性能
很多人都已经对无创产前早筛(NIPT)颇为熟悉,但是,纳入医保的仅涵盖少数几种常见染色体疾病。事实上,仅儿童罕见病就有两万多种,很多家庭因此背负沉重负担。唐鲲团队正与上海市儿童医院展开深度合作,基于SNPBag大模型,未来的无创产前早筛有望筛查出更多的罕见病种类,为更多家庭筑起健康屏障。不仅如此,该模型在亲缘关系推断上,能精准识别远至12级的血缘联系;在预测冠心病、阿尔茨海默症等重大疾病风险时,将展现出超过传统手段的临床应用潜力。在药物研发领域,SNPBag则有望将药物靶点筛查的成功率提高200%以上。
据团队透露,该模型将致力于实现国内主权基因库模型的国产自主化,确保中国人的基因数据安全。与此同时掌牛宝,下一步将围绕模型训练和应用产品开发持续发力,推出针对普通老百姓的C端产品,让这项“黑科技”真正惠及千家万户。
富豪配资提示:文章来自网络,不代表本站观点。