专家专栏 | 数据产品化:数字化建设是一种新型的基础设施建设
Expert Column
专家专栏
前言
立足数据要素市场化改革与数字化转型浪潮,专家专栏聚焦 “数据产品化” 这一核心命题,邀请行业权威专家、领军企业实践者及资深研究者,系统解读数据从资源到产品的全生命周期转化路径。通过深度剖析技术架构、商业模式、政策合规及应用场景,为数据要素市场参与者提供兼具理论高度与实践价值的专业洞察,推动数据产品化在各行业的合规落地与创新发展。
本专栏致力于成为数据要素市场领域的专业思想阵地,以 “专业、前瞻、务实” 为基调,通过深度内容输出与行业互动,助力数据产品化从概念走向实践,为数字经济高质量发展提供智力支持。同时欢迎数据领域专家、企业及机构通过专栏平台分享观点与案例,共同推动数据产品化生态建设。
高质量的生物医药数据产品离不开优质的数据来源,而生物样本作为生物医药领域最具价值的数据载体之一,其标准化采集与管理正是数据产品化的核心基础。从数据要素市场化视角看,生物样本不仅是科研创新的“原材料”,更是可被深度挖掘的数据资产——每一份包含临床信息、基因组数据的生物样本,经规范化处理后都能转化为支撑药物研发、疾病预测的数据产品。在此背景下,以AI技术赋能生物样本库建设,正成为打通“样本资源—数据资产—产业价值”链条的关键抓手,其通过智能采集、动态管理与跨域协同,将为生物医药数据要素的高效配置开辟全新路径。所以在专家专栏的前几期,我们有幸邀请生物芯片上海国家工程研究中心副主任、生物样本库科学研究院院长王伟业教授分享他对于“生物样本如何进行数据产品化”的系列文章。
在传统认知模式,提及基础设施,我们自然会想到仪器、设备、空间与环境等物质性的内容。但在数字化和智能化时代,一切工作都可以,也需要用数字化方式重新做,定会得到不一样效果或意想不到的结果。数字化建设是智能化的关键基础,也是一种形式的基础设施。通过分析数据,我们能够更好地了解工作相关整体内容而不是被分割;通过应用分析获得的数据,我们可以在已有内容中找到本来看起来没有关系的两个事物之间却有内在联系,可发现事物变化的新规律,从而做出更合适的决策。由此可见,数据也已成为我们工作中制定决策的重要依据,具有高质量和可靠的数据是驱动决策的基础设施,是业务数字化转型的核心,是这个时代一切工作必然要建设的新型基础设施。
先用一把椅子作为一个简单例子来认识数字化建设的基本方式和结果。我们可用尺子测量和其他方式获得椅子的材质、大小、承重、占地面积与适用场景等属性数据,分析数据后我们会对椅子适用性有较多和全面的认识。如果在椅子上嵌入压力传感器和姿势感应器,可检测人体在椅子上的位置、姿势和活动获得人体的行为数据。再将椅子的属性数据与使用者的行为数据进行关联性分析,多元化数据连接可帮助找出椅子与使用者之间的内在联系与二者结合的行为规律,可产生的新结果,也就是对椅子适用性,使用者的坐立行为,以及二者协同性有了新的认识。因此,可提供使用者个性化的坐姿建议、当检测到用椅子使用者的固定时间未有活动或姿势不良时,提醒休息或调整姿势,保障符合人体工程学要求,以预防坐姿不良引发的健康问题。如果将椅子使用者行为数据与人力资源管理信息联系与分析,可能为工作岗位需求选择更合适人员提供决策参考。由此可见,新型基础设施既不是积累数据的内容建设,也不是将数据堆积一起的数量建设,而是建设数字化内容,发挥数字化作用获得新的数字化结果的过程,我将这个三条作为数字化建设方法论的三大原则,指导建设新型基础设施。
让我们看一个生物样本库的例子来认识数字化对建设策略的指导。从临床研究结果发现吸烟的肺癌患者与非吸烟肺癌患者表现出不同的组织病理和分子特征。这两方面疾病属性导致肺癌发生差异性,两个特征的差异性分析可为临床免疫治疗方案的选择提供潜在的决策性信息。吸烟,病理特征、分子特征、治疗方式几方面的数据可建立新的数据关联性:
(1)基于确定的分子特征,知道分析物种类及其质量要求;
(2)可确定数据完整性的界定指标(吸烟数据集);
(3)清楚知道从哪些患者采集符合要求的生物样本;
(4)基于发现的内在联系,针对性招募更多的适合性样本人群,为深入一步临床研究建立所需资源。此例中描述的将患者生活行为,与疾病相关分子,病理的数据联系分析,并由此对临床治疗决策为基础的资源建设方案,其本质是样本人群(肺癌患者)的临床注释(Clinical Annotation)原理,也就是应用数字化内容结合数字化行为“组装”并“合成”适用性资源,即数字化结果的过程。因此,数字化结果也就是生物样本库针对资源如何从资源生产出数字化产品的方向。
综上所述,关联性是数字化建设中一个重要特征,发现事物之间的内在联系以及确定多个事物发生变化的规律,可基于目标帮助我们提高决策能力。在生物样本库的建设、管理与应用中,可帮助我们做到非数字化做不到的事情。关联性数字化关联性也可通过跨界关联,椅子例子中椅子-使用者行为-工作岗位之间的管理就是跨界关联的应用。由此可见,数字化建设的跨界关联可促进跨学科合作。通过数字化关联特征,不同领域研究人员可以共享并交叉分析数据,发现更深层次的规律和关联。建设新型基础设施可依据 DIKWP 模型的原理。该模型从数据(Data)、信息(Information)、知识(Knowledge)、智慧(Wisdom)和目的(Purpose),是基于具体到抽象的语义层次,指明从简单数据到深层智慧的演化过程的方式。基于DIKW 原理,我们将采集的吸烟数据作为原始事实。通过解释和理解吸烟数据转化获得相关信息。通过模式识别、趋势分析和上下文理解来实现构建行为属性与肺癌属性信息。进一步通过对信息中的模式、关联和规律的识别,转化为吸烟-病理-分子-肺癌差异性的相关知识,使得我们从全面角度理解吸烟患者与非吸烟患者在免疫治疗方案进行综合性评估和判断。知识进一步转化为智慧,做出明智的肺癌免疫治疗方案决策。应用 DIKWP 原理,建设数字化生物样本库,记录、分析和应用数据是建设方法需要遵循的基本原则。记录是确保准确、全面地记录数据,通过数据分析发现内在联系和规律特点,将分析得到的数据应用到实际问题中。只有遵循这三条原则,才能完整地建设数字化内容,发挥数字化作用和获得数字化结果。
在数字化时代,我们需要改变一些传统认知方式,以及可能需要接受新的认知维度。与传统基础设施中相比,新型基础设施具有以下特点和要点:
(1)虚拟性,数据作为基础设施具有虚拟性,不像传统基础设施那样占据实际的物理空间。
(2)无形性: 数据作为基础设施是无形的,不具备物质形态,而是以信息的形式存在。
(3)重要性:分析和应用制定决策和预测能力是其特有的作用。
(4)跨界性: 数据作为基础设施具有跨界性。数据可以涉及各个领域和行业,不受地域和空间限制,可以在全球范围内进行存储、传输和共享,为各种应用场景提供支持和服务。
总而言之,数字化建设作为一种新型基础设施的建设方式,为数据的加工、分析和应用提供了强大的工具和平台,对整个社会的各个领域凸显越来越重要的作用。将在下一篇中讨论生物样本库的数字化建设原则、要素、方法和应用趋势。
本期专家:王伟业
王伟业教授,美国M.D. Anderson肿瘤研究中心博士,生物芯片上海国家工程研究中心副主任、生物样本库科学研究院院长、教育部和上海市环境与儿童健康重点实验室兼职教授。原上海交通大学医学院附属新华医院教授、博士生导师和新华生物样本库(XH Biobank)主任。
研究建立“样本价值完整性评估方法”、“生物样本库数字化建设方法”、“DBCaseBiobank”专病队列建设模式,数据特征建设方法论以及创建生物数据沙龙系列(BCD)等。发表数十篇SCI文章。
END