需求发布
联系我们
1. 例数:
肺癌(TNM III-IV期):2000例。
2. 字段:
2.1 基因数据(重点需求)
患者从首次确诊至末次随访之间的基因检测原始数据(文件格式为FASTQ,要求使用2019年后主流平台,如Illumina NovaSeq 6000、DNBSEQ-T7、MGISEQ-2000/DNBSEQ-G400及相关兼容平台)。
突变注释文件(VCF格式,含COSMIC、OncoKB数据库注释)。
2.2 临床数据
患者基本信息:
人口学数据:年龄、性别、种族、生活习惯、职业暴露、环境暴露。
病史记录:现病史、既往疾病、合并症、家族史、用药史、不良反应、ECOG评分。
诊断与病理数据:
肿瘤组织学类型(如腺癌、鳞癌、小细胞肺癌)、分化程度、分子分型(如EGFR突变型/ALK阳性/PD-L1高表达等)、免疫组化结果、TNM分期(原发肿瘤大小、淋巴结转移、远处转移)。
影像学与实验室数据:
影像学数据:首次诊断和治疗期间动态监测的影像学指标,包括且不限于胸透、CT、MRI、PET-CT图像等。
实验室数据:首次诊断和治疗期间动态监测的实验室指标,包括且不限于血常规、肝肾功能、肿瘤标志物(如CEA、CA19-9、CA125)等。
其他临床数据:首次诊断和治疗期间动态监测的其他临床相关指标。
治疗与响应数据(重点需求):
治疗方案:包括治疗线数、各线治疗方案、治疗类型(如化疗、靶向治疗、免疫治疗)、用药细节(药物名称、剂量、治疗周期)、联合/序贯治疗方案、治疗中断/终止原因。
应答评估:基于RECIST标准,提供治疗前后的影像学评估数据,并包括治疗相关的生物标志物数据。
随访与预后数据:
复发/转移情况:局部复发或远处转移的具体情况和发生时间。
生存状态:患者死亡时间、死亡原因(疾病相关或其他)。需提供全周期生存数据,包括治疗后随访信息。
3. 数据质量要求:
3.1 临床数据要求
字段完整性:每个病例必须包含关键字段(如TNM分期、基因突变类型、治疗记录),缺失率≤5%。
时间连续性:需覆盖患者从首次诊断到死亡/末次随访的全周期数据,特别关注治疗前后的动态变化。
数据更新周期:随访数据需在患者状态变更后3个月内更新(如复发、死亡)。
治疗记录规范:治疗方案需包括治疗线数、治疗类型、治疗药物名称、用药剂量、用药持续时间(如“奥沙利铂 85mg/m² d1, q2w”)以及治疗相关不良事件的分级及处理记录。
影像数据标准:需要提供原始DICOM文件,影像数据应包含层厚、原始参数、放射科结构化报告,CT/MRI的层厚≤3mm的影像占比不低于80%。
3.2 基因数据要求
样本质量控制:FFPE样本肿瘤细胞占比≥30%。
对照样本:需配套外周血白细胞测序数据,用于胚系变异识别,对照样本占比不低于40%。
测序深度:全基因组测序(WGS)≥30X,全外显子测序(WES)≥100X,靶向Panel测序≥500X。
数据格式:基因数据需提供原始格式(FASTQ)和注释后格式(VCF),遵循GA4GH规范。
突变注释:突变注释需基于权威数据库(如COSMIC、ClinVar),并标注置信度(VAF≥5%)。必须包含突变功能注释(如致病性、临床意义)、药物关联(OncoKB数据库分级)。
3.3 动态数据要求
所需数据包括从首次确诊到末次随访之间的全周期基因和临床数据。
3.4 数据来源多样性
单一中心数据占比≤40%。
需求场景:通过整合基因数据、临床数据、治疗响应及生存期数据,支持人工智能模型的训练,以优化药物敏感性预测算法。
面议
一、数据内容
套餐唯一ID、套餐名称(如“基础入职体检”)、套餐类型、套餐包含项目描述、价格(元)、有效期(天)、适用性别、检查项目名称(如“血常规”)、检测结果值(数值/文本)、参考范围(如“3.5-5.5 mmol/L”)、单位(如“mmol/L”)、是否异常(True/False)、检查日期、医生建议、机构名称(如“XX健康中心”)、机构地址、联系电话、服务时间(如“周一至周五 8:00-18:00”)、机构等级、综合健康风险等级等。
二、地区
东部沿海地区
三、量级
百万级别
需求场景:商保、核保、理赔
面议
1. 数据范围:市级含以上。样本人数≥500万人。数据来源首选,依次选择:医保、卫健。(不选择:电票数据)
2. 医保数据:
市居民基本医疗保险参保人住院费用结算单/市城镇职工医疗保险住院费用结算单
数据字段:医疗统筹登记号、社会保障卡号、姓名、住院号、医院编码、医院名称、入院时间、入院科室名称、床号、出院时间、入院诊断编码、入院诊断名称、出院原因 、出院疾病编码、出院疾病名称、住院天数、结算号ID、就诊类型、总金额、费用项目、费用分项、发票金额、自付部分、自费、医保报销、第三方给付金额。
3. 住院费用清单
数据字段:药品及诊疗项目编码、药品及诊疗项目名称、商品名、剂型名、费用项目名称、数量、单价、金额、自付比例、备注。
4. 既往病史记录
数据字段:医疗统筹登记号、姓名、住院号、医院编码、医院名称、入院时间、入院科室名称、出院时间、入院诊断编码、入院诊断名称、出院原因 、出院疾病编码、出院疾病名称、住院天数、结算号ID、统筹支付合计、统筹全额支付、统筹部分支付、统筹不予支付、统筹部分自付
5. 卫健数据:
(1)全民健康信息—查询住院史
(2)全民健康信息-查询就诊记录
(3)数据字段:
A、姓名、出院病区、入院科室代码、科室名称、住院结束日期、医院代码、医院名称、住院id、入院病区、入院时情况、就诊流水号、住院开始日期、诊断名称
B、姓名、入院科室代码、科室名称、诊断说明、医生姓名、医院代码、医院名称、就诊时间、就诊类型、就诊流水号、诊断、主诉、病症描述
需求场景:商保、核保、理赔
面议
全科 所有病例
基本信息:身份证号(需求方提供个人授权,合法合规)
就诊信息:就诊类型,就诊时间,出院时间,疾病名称,疾病ICD编码,就医花费等
需求场景:保险核保/保险理赔
面议
颅内血管CT影像(可包含颅内血管狭窄、动脉瘤等)
数量:5000
分辨率:尽可能清晰
备注:头颈部CTA
需求场景:用于产品研发 AI模型训练
面议