当前位置: 首页 > 新闻 > 国际新闻
国际新闻
真实世界数据质量如何评价?EMA划定框架并提供示例
发布时间: 2026-04-08     来源: 识林

3月27日,EMA定稿工作文件《欧盟药品监管数据质量框架:应用于真实世界数据》,基于“欧洲药品监管网络数据质量框架”(EMRN DQF)以评估支撑真实世界证据(RWE)的真实世界数据(RWD)质量(即,RW-DQF),提供详细的可操作的技术建议,旨在促进高质量的RWE用于支持监管决策。

尽管目前中美监管机构已相继发布多项RWD/RWE的指导原则,但大多侧重于“用于什么”和“怎么用”的宏观共识层面,对于RWD本身的质量仍欠缺适用的量化标准。EMA的RWD质量量度框架对我国行业具有相当参考价值。

文件内容丰富,并且附有大量的示例表格,直观且实用,建议有需要的读者查阅原文。以下概要其提出的RWD数据质量评估框架,以及基于研究目的的评估思路。

数据质量量度的二维结构化框架

文件第五部分系统阐述了RWD的数据质量量度(metrics)。EMRN DQF将量度定义为“内在决定因素”,指无需了解数据生成方式及预期用途即可用于评估数据质量(可视为数据的“质量标准检测项目”)。RW-DQF在此基础上,针对RWD特征提供了具体的量度示例。

文件提出一个分类框架,将数据质量量度按照数据质量维度及所依赖的信息类型进行组织。该框架采用二维结构:“列”为数据质量维度,包括“可靠性”(Reliability,包括准确性和精确性),“覆盖度”(Extensiveness,或代表性),“连贯性”(Coherence,包括同质性和统一性),以及“时效性”(Timeliness,但并不意味着“过时”就一定失效)。这些维度在第三部分详述。

“行”则基于量度与数据集的关系分为五类:

  • 第一类为独立数据检查。该类量度无需对数据集内容具备额外知识或信息。示例包括空字段或损坏字段数量、潜在重复记录数量等,可广泛应用于不同类型的数据。

  • 第二类为基于数据源元数据的检查。该类量度依赖于对特定数据集的深度认知,如元数据或支持性文件中提供的信息。例如,数据集可附带描述数据点置信水平的元数据(如通过算法将数值映射至标准编码时的置信度),可用于评估数据集的可靠性。

  • 第三类为合理性检查。该类量度基于对数据所表征客观世界的一般知识,通过检测数据中不可能存在的模式来评估数据质量。示例包括女性患者中出现仅在男性中存在的医学观察值、超出合理范围的测量值(如血压1000/500 mmHg)、不符合时间逻辑的模式(如死亡后开具处方)。

  • 第四类为一致性检查。该类量度评估数据对规定结构、词典或格式的符合程度,如表示疾病状态的数值均应来源于某个指定术语集。

  • 第五类为与参考数据源的比较。通过与参考数据源进行个体层面(如跨数据源比对具体数据元素)或汇总层面(如比较整体分布或趋势)的对比,支持数据完整性和可靠性的评估。参考数据集需基于预设标准选取,并应在各数据质量维度上具备高质量。

文件强调,上述量度分类框架旨在帮助构建和系统化现有质量量度,形成均衡的度量集,并识别现有度量集的缺口。实际应用中,并非所有五类检查均可实现,申办者应根据具体情境和数据质量维度调整。

评价数据质量最终还是要从研究问题出发,以终为始

在利用RWD支持监管决策的进程中,数据质量的评价不能停留在技术层面,而是从研究设计之初就应开展系统性评估。文件第六部分就是阐述这一点。

文件强调,在定义研究问题时,利益相关者需引导患者代表深度参与。真实的临床价值不仅存在于实验室指标中,更存在于患者的日常感受与生存质量中。通过将患者体验转化为研究优先级,可以确保后续的所有数据筛选和分析工作都具备实质性的临床意义。

当研究问题明确后,评估工作的核心在于数据的“切合目的程度”(Fitness-for-purpose)。指南提出了一种“以终为始”的逻辑:研究者应预先设定满足研究所需的“最低数据要求”。一旦目标数据库在关键变量(如特定的基因突变记录)上存在先天缺失,且这种缺失无法通过逻辑推导或补充手段弥补,那么该数据库应被判定为不合格。这种严谨的准入机制也提醒申办者,并非所有研究问题都能通过后期算法修正来适配劣质数据集。

在处理来自不同医疗体系或地理区域的多源数据时,“连贯性”评估尤为关键。指南认为,虽然数据的不一致性通常不直接导致否决,但它决定了研究的执行难度与可信度。通过采用 SNOMED CT 或 ICD-10 等国际标准本体进行映射,以及运用算法校准技术,可以显著增强数据的可比性。尤其在跨境研究中,申办者需警惕不同医疗体制背后的系统性偏差(System Biases),这是确保分析结果具备普适性的前提。

最后,可靠的 RWD 研究必须建立在详尽的文档审计基础上。申办者不应仅关注最终的分析结果,还应回溯数据的生成全过程——从原始采集系统、质量保证流程到后期的数据富集与转化步骤。例如,通过对元数据的深度检查,申办者能够识别出隐藏在数据背后的采集偏好或处理痕迹。 

代理服务