第二批“数据要素×”典型案例之十三 | 科技文献数据挖掘 助力科研效率提升和大模型训练

2024-09-26 0

"

8月29日,国家数据局会同科技部、农业农村部、文化和旅游部、中国科学院、中国工程院、国家文物局、国家中医药局等部门在中国国际大数据产业博览会上发布第二批28个“数据要素×”典型案例。第二批案例在注重发挥以数据解行业发展难题、促行业效益提升作用的同时,更加突出数据来源合规、治理有效以及依靠先进适用技术保障数据安全流通等内容,彰显数据要素推动经济发展的乘数效应。

"

  科技文献为科学研究提供了丰富的研究资源与参考资料,是学术交流的重要媒介。科技创新需要大量科技文献数据支持,但传统文献文档内容结构松散,信息分布呈现碎片化特点,导致数据筛选整合低效,严重影响科研效率。中国科学院文献情报中心联合相关单位借助人工智能技术,深度挖掘科技文献中的数据价值,构建覆盖多领域的高质量数据集,支持科技领域大模型建设,助推科研范式变革。
  一是合规归集高质量科技文献数据。在遵循知识产权法规和国际通行规范的基础上,充分发挥中国科学院文献情报中心和国家科技图书文献中心(NSTL)的学科优势,与领域内的科学家紧密协作,汇聚大量权威可靠的科技文献数据及专业领域知识。通过对科技文献全文数据中的文本、图表、公式等进行多模态解构,构建了一个覆盖多个学科的综合知识资源库,不仅包含了传统的文本信息,还涵盖了图表和公式等非文本元素,形成一个全方位的多模态知识体系。目前公益学术平台(PubScholar)已归集1.8亿条文献元数据,逾8065万篇完整的文献全文,为科研人员提供了丰富的研究素材和知识支持。
  二是突破关键技术研发科技文献人工智能引擎(SciAIEngine)。提出了掩藏句子模型(Masked Sentence Model)与两阶段方案实现文本中的知识抽取,基于层次分类器集群实现千级类目中图法分类,通过嵌入词典和词性特征实现关键词识别,基于小样本数据利用半监督迭代学习等技术实现命名实体识别。利用这些创新技术,提升文本挖掘能力,研发科技文献人工智能引擎(SciAIEngine)。形成一系列可供扩展应用的软件、数据、解决方案和工具集,并提出了一套从科技文献中挖掘领域知识与科学数据的流程方法。
  三是深度挖掘科技文献内容。利用科学人工智能引擎对优选文献进行深度挖掘,提取包括关键科学数据、实验结果等硬信息,提取理论框架、研究方法等软知识。通过深度挖掘科技文献的专业领域本体知识、科学数据、观点倾向等科技文献内容,建立细粒度科技文献内容与句子、段落、图表、全文之间的循证关系,支持文献内容溯源。将细粒度知识与科学数据进一步融合、精选、对齐、补齐,构建高质量语料库、专业化领域知识本体库、适用人工智能的科学数据集和研究观点倾向库。当前已支持上海药物所从文献中挖掘药物靶标数据,支撑新药研发;与西南交大合作挖掘二维材料属性数据,赋能材料研发;与东北地理所合作挖掘木质纤维素生物降解知识,助力黑土地生物质高效利用。
  四是建设科技文献大模型。基于专业化领域知识本体库、适用人工智能的科学数据集、研究观点倾向库构建支撑智能科研(AI4S)的科技文献知识底座,支持AI4S模型的训练,为AI4S智能模型假设的提出、预测的验证和推理的监督提供知识基础。与头部人工智能企业合作,集成知识图谱、语义搜索等功能,打造支持智能化科研的解决方案。同时开发医学、化学领域的垂直大模型,为科技创新提供知识数据支持。其中,科技文献大模型提高论文调研效率10倍以上,论文研读有效率超90%。
image.png

图1 AI4S知识底座

image.png

图2 PubScholar公益学术平台