专家专栏 | 数据产品化:样本库建设的何种场景需要 AI 相助?
Expert Column
专家专栏
前言
立足数据要素市场化改革与数字化转型浪潮,专家专栏聚焦 “数据产品化” 这一核心命题,邀请行业权威专家、领军企业实践者及资深研究者,系统解读数据从资源到产品的全生命周期转化路径。通过深度剖析技术架构、商业模式、政策合规及应用场景,为数据要素市场参与者提供兼具理论高度与实践价值的专业洞察,推动数据产品化在各行业的合规落地与创新发展。
本专栏致力于成为数据要素市场领域的专业思想阵地,以 “专业、前瞻、务实” 为基调,通过深度内容输出与行业互动,助力数据产品化从概念走向实践,为数字经济高质量发展提供智力支持。同时欢迎数据领域专家、企业及机构通过专栏平台分享观点与案例,共同推动数据产品化生态建设。
高质量的生物医药数据产品离不开优质的数据来源,而生物样本作为生物医药领域最具价值的数据载体之一,其标准化采集与管理正是数据产品化的核心基础。从数据要素市场化视角看,生物样本不仅是科研创新的“原材料”,更是可被深度挖掘的数据资产——每一份包含临床信息、基因组数据的生物样本,经规范化处理后都能转化为支撑药物研发、疾病预测的数据产品。在此背景下,以AI技术赋能生物样本库建设,正成为打通“样本资源—数据资产—产业价值”链条的关键抓手,其通过智能采集、动态管理与跨域协同,将为生物医药数据要素的高效配置开辟全新路径。所以在专家专栏的前几期,我们有幸邀请生物芯片上海国家工程研究中心副主任、生物样本库科学研究院院长王伟业教授分享他对于“生物样本如何进行数据产品化”的系列文章。
在第一次 AI-CBB 沙龙上,我们讨论了有关人工智能(AI)在生物样本库的建设、管理和应用方面的三个关键问题。我在上一篇文章中主要阐述其中的第一个问题,即如何正确认识和理解 AI-CBB。这篇文章将重点讨论其中的第二个问题:AI 在生物样本库中的应用场景。任何新技术应用都需要找到最合适的应用场景,但是我们并不是刻意为在我们工作中的去寻找这些应用场景,而是要认识和体会我们早已参与和经历过这些场景,而且需要 AI 帮助我们能够更好地实施和完成,尤其能以“动态整合”方式使工作整体性更加连贯和持续,这就是本文要阐明的AI 应用场景。
决策能力和预测能力是人工智能的核心内容,二者都很重要但本质上又不同,它们在某种程度上相互依赖,但也有自己的独立性。决策能力涉及到基于已有信息做出合理的选择或行动的能力。包括将已有的信息与要实现的目标进行比较、评估各种可能性以及选择最佳行动方案的能力,AI 决策能力通过算法或模型来指导系统做出最佳选择。比如,我们遵循 PICO(Problem、Intervention、Comparison and Outcome)原则,设计拟招募的样本人群(患者或正常人群),并依此采集生物样本及其相关数据,并受到多因素的影响。尤其是,生物样本库的工作是建设资源平台,并不是单纯为某个具体研究项目建设资源。这就需要针对多方面需求和应用方向,考虑不同临床业务与实际影响因素,综合性分析并权衡多因素后作出决定,保障尽可能满足大多数的资源要求。汇集已有经验以及其他机构成功与失败教训,基于对各因素相对重要性的量化分析与评估,权衡利弊,依据可行性,给出最符合设计要求满足采集内容,计划和实施方式。所以,AI 帮助方式不是根据某个人经验和专业智能,而是汇集众人智能所做出的决策,这个决定应该地当下最合理的。
预测能力是 AI 另外一个核心能力,是基于已有数据和模式预测未来可能发生的情况,并对未来事件或结果进行估计的能力。这是我们在生物样本库的工作场景中很需要,但又都缺乏的一种能力。比如,我们计划在明年申请科研项目,需要提前估计在目标时间内是否能够获得项目申报需要样本人群和样本类型的数量。并且,依据申报设计以及获得数量的可能性,我们需要提前考虑采用病例对照还是专病队列的研究方法,因为研究方法决定了对人群和样本数量以及类型的要求。预估结果会受到临床业务,样本采集进度,参与者意愿等因素影响,但是针对这个资源建设,我们缺乏经验,也无法权衡做出可行性大的决策。这就需要基于既往或其他机构积累的经验,对未来数量和在要求的时间满足需要给出预测。AI 预测能力可为我们制定计划以及调整方案提前规划周全:选择不同临床研究方法、延长满足采集要求的时间、寻找其他机构的资源以合作方式以求达到数量要求。
由此可见。决策能力和预测能力之间存在相互依赖的关系。预测能力为决策提供了前提条件,因为一个好的决策通常需要对未来可能发生的情况有一定的预测。因此,决策能力更关注如何采取行动,而预测更关注于对工作事态发展的估计。这两种能力是生物样本库的各种工作场景中必不可少的能力,也是 AI 帮助我们工作最有效的应用场景。认识 AI 应用场景,就要清楚在哪些场景是需要我
们做出决策以及预测,而我们可以借助 AI 帮助我们做出决策,以及预测事态变化。这些场景主要发生在这六大关键环节:
(1)设计样本和数据采集
(2)管理样本库的资源建设过程
(3)生物样本和数据的应用与服务
(4)整合多种来源的样本和数据
(5)提供资源共享的方式与方法
(6)提升生物样本库的自动化能力
这些场景中包括质量检测方案、采集要求、接收与接受、处理方式、储存方式选择,性价比高的分装方案、申请与出库选择和应用评估等众多行为,在这些行为活动,会因涉及方方面面因素而影响人的决策能力。
1. 如前所述,设计资源采集方案需要决策能力,依据多方面因素的重要些评估选择最可行的实施方案;
2. 生物样本库的工作是一个设计基础上的长期积累过程,在运行全过程的不同阶段受很多因素,可能受到与设计方案出入较大的因素影响,阶段性结果并不能符合与满足初期的设计要求,需要依据预测从小调整设计方案,这是预测能力与决策能力协同作用的必要性应用场景;
3. 资源的应用申请与审批,同样影响因素较多,要想符合预设的机制和要求实施公平和公众,以及应用的科学性等评估后做出决定,同样只有依赖于 AI 的决策力才能按照既定的智慧合约制度分配资源;
4. 整合多途径获得的资源存在着极大异质性,要想从“杂乱”的资源合成(整合)产生适用性强的最小资源以及最大化的整合方案,很显然,这是一个需要非常聪慧决策能力的工作,才能做出最合适选择性合成新资源的方案;
5. 资源共享也是一个绕不开的重要行为,但现实中也是最难以在合约与实际行为之间决策性挑战,显而易见,也是一个重要的决策能力的应用场景;
6. AI 编排自动化流程是另外有效的应用场景。我们都知道生物样本库有自动化工作场景,但基本是独立运行的自动化流程。最典型是自动化储存场景与信息化管理之间是分隔开来的两种行为,也就是储存之前,储存以及申请出库是三个独立行为。既没有实质性信息交流也没有实质性信息化管理。另外,依据设计,提前打印出样本采集标签,与自动化提取DNA 样本都储存之间也是分隔独立行为。三个行为之间需加入人工做出决策者后才能继续。因此,AI 编排自动化流程的核心点是通过 AI 的决策能力将分隔的流程连接产生更大的工作流程。AI 可以根据当前环境和目标,动态地调整并按照参数,确保各流程按正确顺序实施连续性执行,并在其运行过程中依据决策调整和优化,最大程度地优化整体效率和性能,在真实世界与虚拟世界的工作之间建立连续性。
总之,从模拟现实场景到构建理想场景事一个建设与发展过程。我们已有的场景还是模拟现实,不一定能捕捉规律和动态变化。在虚拟世界里构建另外一种适用性和可用性更强和更专业的场景,将是一种新高度的应用场景。需要自动学习生物样本库的工作方法和知识体系,建立更专业的工作方法。我将在下一篇文章中再讨论 AI-CBB 在具体业务场景中的多元化应用方式。
本期专家:王伟业
王伟业教授,美国M.D. Anderson肿瘤研究中心博士,生物芯片上海国家工程研究中心副主任、生物样本库科学研究院院长、教育部和上海市环境与儿童健康重点实验室兼职教授。原上海交通大学医学院附属新华医院教授、博士生导师和新华生物样本库(XH Biobank)主任。
研究建立“样本价值完整性评估方法”、“生物样本库数字化建设方法”、“DBCaseBiobank”专病队列建设模式,数据特征建设方法论以及创建生物数据沙龙系列(BCD)等。发表数十篇SCI文章。
END