专家专栏 | 数据产品化:认识与构建生物样本库 AI 的原则,要素和方法
Expert Column
专家专栏
前言
立足数据要素市场化改革与数字化转型浪潮,专家专栏聚焦 “数据产品化” 这一核心命题,邀请行业权威专家、领军企业实践者及资深研究者,系统解读数据从资源到产品的全生命周期转化路径。通过深度剖析技术架构、商业模式、政策合规及应用场景,为数据要素市场参与者提供兼具理论高度与实践价值的专业洞察,推动数据产品化在各行业的合规落地与创新发展。
本专栏致力于成为数据要素市场领域的专业思想阵地,以 “专业、前瞻、务实” 为基调,通过深度内容输出与行业互动,助力数据产品化从概念走向实践,为数字经济高质量发展提供智力支持。同时欢迎数据领域专家、企业及机构通过专栏平台分享观点与案例,共同推动数据产品化生态建设。
高质量的生物医药数据产品离不开优质的数据来源,而生物样本作为生物医药领域最具价值的数据载体之一,其标准化采集与管理正是数据产品化的核心基础。从数据要素市场化视角看,生物样本不仅是科研创新的“原材料”,更是可被深度挖掘的数据资产——每一份包含临床信息、基因组数据的生物样本,经规范化处理后都能转化为支撑药物研发、疾病预测的数据产品。在此背景下,以AI技术赋能生物样本库建设,正成为打通“样本资源—数据资产—产业价值”链条的关键抓手,其通过智能采集、动态管理与跨域协同,将为生物医药数据要素的高效配置开辟全新路径。所以在专家专栏的前几期,我们有幸邀请生物芯片上海国家工程研究中心副主任、生物样本库科学研究院院长王伟业教授分享他对于“生物样本如何进行数据产品化”的系列文章。
本期专家:王伟业
王伟业教授,美国M.D. Anderson肿瘤研究中心博士,生物芯片上海国家工程研究中心副主任、生物样本库科学研究院院长、教育部和上海市环境与儿童健康重点实验室兼职教授。原上海交通大学医学院附属新华医院教授、博士生导师和新华生物样本库(XH Biobank)主任。
研究建立“样本价值完整性评估方法”、“生物样本库数字化建设方法”、“DBCaseBiobank”专病队列建设模式,数据特征建设方法论以及创建生物数据沙龙系列(BCD)等。发表数十篇SCI文章。
认识与构建生物样本库 AI 的原则,要素和方法
原以为人工智能(AI)还是未来之事,2022 年 11 月底出现的 ChatGPT 将 AI变成当今之事,标志我们已进入人工智能时代,也就是算法的时代。算法,算力和数据是 AI 三大要素。算法即方法,也就是机器学习所需模型,而建立及其学习模型是建立已有的数据以及应用数据的方法,算了是应用数据的速度,所以本质上 AI 是方法学。
AI 涉及各行各业,其核心是提升人在各种业务中的决策能力(Decision Making)。AI 算法能够加速数据分析、鉴定、管理与应用模式,并基于相关数据提取关键见解并做出预测。因此,AI 为决策者做出正确决策提供有力的参考依据,并基于决策方法给出预测的结果。决策和预测能力也是生物样本库建设、管理和应用的核心能力。生物样本库的建设是设计基础上的长期积累,基于阶段性结果评估分析及时调整决策,避免累积错误结果正是 AI 可帮助我们做出决策的关键应用。所以,不是考虑生物样本库行业是否需要 AI,而是应考虑如何建设生物样本库的 AI。由此可见,建设生物样本库 AI,我们无法回避三个关键问题:
(1)AI 的本质是什么?
(2)AI 在生物样本库的建设中的应用场景是什么?
(3)如何建设生物样本库 AI?
这三个问题也是生物样本库 AI 建设的契入点。AI 不是传统意义上的工具,因为工具只是基于其性能发挥固定的作用。AI 技术虽然也重要,但算法(方法)才是核心。因此,正确认识和理解 AI 是建设和应用生物样本库 AI 的关键起点。以 ChatGPT 为代表的,在 2023 年迅速涌现出来多种 AI 方法,是与我们日常生活和工作中的通用型 AI。如果将生物样本库的业务工作细分,我们可在一定程度上应用这些通用型 AI 方法。比如,询问和文字编写书等。其实也不能准确回答生物样本库建设的具体问题,因为缺乏完整的只是体系和相关数据,更不能提供决策力和预测分析,因为这些 AI 能力不是建立在生物样本库专业的数据和算法基础上,也就是说他们不懂生物样本库专业。由此可见,AI 并不是依赖经费购买的仪器设备或工具(传统认识中的信息化系统或自动化设备),而是需要我们这些懂专业的人共同建设的一种新能力。要在建设专业的知识体系和方法论基础上,从知识到智慧的转变能力才是这种新的能力,也就是 AI-CBB(AI-Coupled Biobanking)。
当然,智能化也不完全是全新的,而是相关发展进程必然走到节点。与信息化,数字化,自动化之间有着不可分割关系,他们本质上各自不同,但相互之间又是依赖关系。信息化是采集和记录业务相关信息的技术手段;数字化是一种能力,是将业务信息转化为可以储存、传输和分析的数据,数字化是智能化的基础。自动化主要是基于编程指导行为,AI 主要是基于学习获得特有决策能力。在样本库建设、管理与应用的业务场景中,信息化技术和手段记录样本采集、接收、处理、储存和应用各种相关信息;数字化处理、分析与应用这些记录的信息;智能化则将在信息处理和应用多个业务场景中做出正确的选择,使得而自动化的业务行为可构成较大流程而增加自动化工作的完整性。因此,人工智能技术和方法应用使得许多重复性、规律性高的工作可以被更加全面自动化,而自动化建立的数据完整性和准确性又能进一步加强智能化决策力。比如,采集样本之后,AI 决策力决定哪些样本符合接受条件指标进入样本库储存。由此可见,采集现场通过远程自动化打印标签,完成采集送到样本库后进入接收环节。信息化方式将采集信息传输到生物样本库,将原本两个环节之间由人来决策的事改由 AI 完成。因此 AI 能力将采集和接收两个业务场景衔接,自动化方式完成更多的工作流程。
生物样本库的工作是由各色各样业务场景(Operational Scenario Case,OSC)构成整个业务体系。比如,注册登记环节针对样本来源,不同机构,设计的采集方式和研究方式等会有不同的业务方式。诸如队列招募样本人群,体检结合采集样本和临床肿瘤手术采集样本是完全不同的 OSC。业务场景是生物样本库的核心内容。基于影响 OSC 的多种元素,在实施业务过程总有许多方面需要 AI或与人一起做出最合理的决策,并基于决策预测最可能的结果。显而易见,建设过程有很多关键环节需要有正确的决策能力,也就是 AI 在生物样本库的应用场景。我们缺乏应对多种变量因素导致的场景多样性需要的决策能力,而这个能力是建立在行业的知识体系和方法论指导下的方法应用,所以 AI-CBB 需要建立知识体系,方法论基础上建立的算法,建立机器学习模型,并基于主导多种 OSC 的数据构成 AI-CBB 的体系结构才能在生物样本库的业务场景中应用 AI。
AI-CBB 面临挑战核心要素是算法,其次是数据,不是算力。我们不需要在短时间内计算大量数据,因此计算速度不是 AI-CBB 要素。作者认为 AI-CBB 建设将分为三个阶段:
(1)首先实现应用数据来实施样本库 OSC 中各种行为,比如,解决如何用数据和信息实施仪器设备的管理。因此,数字化建设是 AI-CBB 的建设要素,也是我们制定数据系列标准的应用动机之一。
(2)建立数字化方式运行、管理与评估的 OSC,主要先采用编程方式实施比对做出与选择方式,实现编程出来的 AI-CBB(编程型)。
(3)在此基础之上,获得足够积累的数字化信息,基于我们的知识体系和方法论建立算法和模型,实现学出来的 AI-CBB。(学习型)
建设 AI-CBB 需要行业的知识体系和方法论。两年前建立的生物样本库建设方法论。主要由四条原则构成方法论的逻辑结构为主题,以及多种元素的连接方式为应用原理所构成。原则包括设计采集,过程监管,阶段分析和体系评估,也是作为生物样本库学科的理论基础,也是指导样本库学科建设的理论或工作原理(关于整个理论的阐述,将会在其它文中讨论)。
多个业务场景之间的连续性基于上一个输出成为下一个输入,而输出与输入的衔接决策力取决于连接二者之间 AI-CBB 能力,而这种能力又取决于两个 OSC 之间的数字化能力,因此,AI 直接决定上一个环节与下一个环节是否可以正确地连接成为整个业务体系。因此建设 AI-CBB 的算法主要基于三个模型,基于上述方法论建立 DIKW 模型(Data-Information-Knowledge-Wisdom),DIKW 一个层次结构,用于描述信息处理的不同阶段。此模型构建各种元素基本属性和行为属性之间的关系模型;采用决策树分析法和随机树分析法。前者易于解释和理解,适合初学者:后者是进一步提高准确性,通过多个决策树的组合,随机森林能够提供更高的预测准确性。这两个模型相互应用可构建描述和预测个体或系统行为的模型。这些涉及机器学习算法、统计分析、模型建设等技术手段,以及领域的知识体系,结合具体的领域和目标来选择合适的行为实施模型的方法和技术。由此可见,AI-CBB 建设的整体过程形成了一个循环,从实际应用中获得的新数据可以用于不断改进模型和知识的质量。在整体过程中,关键是充分和正确地利用数据、能够提取有意义的信息、构建有效的机器学习模型,并将输出集成到知识体系中,以支持合理的决策和行为。这需要跨学科的团队合作,结合数据科学家、机器学习专家和领域专家的知识。基于建立的知识体系,将 DIKW 模型与行为实施模型结合,可形成一个生物样本库业务场景的系统性流程,构建和应用机器学习模型。
总而言之,AI-CBB 建设需要我们专业知识和经验教训,基于正确方法论的指导,Blend(融合) 不同业务元素、策略、方法或流程,相互结合或整合以产生更好的结果或效果为宗旨应用 AI 方法。
END