当前位置: 首页 > 新闻 > 国际新闻
国际新闻
罕见病缺乏数据,FDA研究称AI比传统建模更有办法
发布时间: 2025-12-16     来源: 识林

11月24日,FDA CDER研究人员在NEJM AI发表文章《应对数据有限带来的挑战,以促进人工智能在罕见病药物研发中的整合》,系统阐述了AI在罕见病药物开发中面临的数据稀缺问题及其应对策略。

罕见病因其“罕见”而缺乏数据,而传统建模过于依赖数据量,新一代的泛化型AI模型有望克服这个先天缺陷。研究人员指出,AI凭借其计算方法和算法的进步,能够应对罕见病药物开发中患者人群小、数据稀缺和临床变异性等挑战,可用于自然病程建模与疾病特征分析、小样本推断与迁移学习、合成数据生成、识别新治疗靶点、优化临床试验的设计与实施等领域。该研究给出了多种缓解数据稀缺影响、促进AI整合的策略:

发展小样本分析方法与防过拟合技术

传统AI模型训练与验证通常需要大样本量。近年来,面向小数据集的分析方法已取得进展,能够在保持统计效能的同时降低对样本量的依赖。同时,研究人员也正致力于开发在有限样本下仍能保持准确性、避免过拟合(指模型仅在训练数据上表现优异)的AI模型训练技术。

深化个体层面数据挖掘

尽管罕见病患者数量有限,但每位患者的个体数据具有重要价值。纵向医疗记录、多组学数据、影像资料及行为数据等,共同构成了丰富的个体数据集。AI能够深入分析这些详尽的个人数据,从中识别复杂规律,增强对疾病共性及独特性的理解,尤其有助于解析临床表现各异的疾病。

合成数据可用但需特别谨慎

合成数据(亦称模拟数据)是通过统计建模或计算机仿真人工生成的数据。这些数据模拟真实患者数据的结构、属性与关系,但不包含任何真实的个体识别信息。生成方式包括基于大型数据集通过机器学习(ML)创建数字孪生或虚拟患者,以及生成用于训练或研究的合成医学图像等。合成数据有望作为扩充罕见病有限数据集的一种途径,但研究同时强调,必须审慎确保其能够准确反映真实数据的特征。

构建集中化数据库与推动公私合作

为弥补数据不足,研究建议公共机构(包括监管机构)可通过整合多方数据来源,牵头建立集中化的罕见病数据库。这类数据库能够提供比当前零散小样本更全面、更稳健的研究数据集。研究者认识到罕见病领域商业动力有限,针对常见疾病的成功模式未必适用。因此,学术界、产业界、患者与监管机构之间的公私合作,将成为支持罕见病AI研发的关键。监管机构或需为此提供额外支持与指导,例如FDA发布的关于使用真实世界数据支持监管决策的指南。

该文章结合了AI与罕见病,而这两个领域也恰是当前FDA领导层——特别是局长Makary和CBER主任Prasad——予以特别关注的(反观两人对疫苗和大市场品种均持有保守的反传统观点)。AI方面最新动态是FDA部署智能体式AI平台;以及Makary与Prasad联名发表文章推进“合理机制路径”,意图革新罕见病药物审批范式。 

代理服务