数据采购需求 颅脑MRI影像数据
颅脑 MRI
一、疾病 未见异常、脑出血、脑梗塞、胶质瘤、脑膜瘤、脑转移瘤、血管瘤、垂体瘤、听神经瘤、三叉神经瘤 二、例数:每种疾病各2000例 三、影像数据: 1.序列需求: (1)除垂体瘤外其他疾病必须包含序列: a. 轴位:T1WI、T2WI、T2Flair、DWI、ADC、T1WI+C (2)垂体瘤必须包含序列: a. 矢状位:T1WI、T2WI、T1WI+C b. 冠状位:T1WI、T2WI、T1WI+C (3)其他序列如SWI、DTI、3DCiss等,如有请一并提供。 2.参数要求 (1)影像采集设备线圈要求:头线圈或头颈联合线圈。 (2)影像采集设备磁场强度要求:≥1T。 (3)影像层厚要求:5mm-8mm。 (4)影像层间隔要求:≤层厚×30%。 (5)矩阵:≥256×192。 3.标注与标签要求 标注与标签明确疾病类型,应提供病灶区域的边界框或像素级分割掩码。 四、报告 1.影像报告:包含病灶的部位、形态特征、分期及严重程度评估等关键信息。 2.病理报告(如有):包含送检组织的来源部位、细胞类型、病变性质、分化程度等关键信息。 五、数据多样性要求 1.设备来源:数据应来源于多个医疗中心,并覆盖至少多家设备制造商,以确保算法泛化能力。 2.人群代表性:患者人群应涵盖不同地区、性别与年龄分布,具备流行病学代表性,能反映真实的临床人群特征。 六、脱敏要求 必须对数据进行彻底脱敏处理,去除所有可直接或间接识别个人身份的信息,仅保留与医学研究相关的参数与标签。
需求场景:AI模型
面议
数据采购需求 上腹部CT影像数据
上腹部 CT 脏器
一、疾病 肝癌、肝脏血管瘤、胆囊癌、胰腺癌、胰腺囊腺瘤、脾脏血管瘤、脾脏淋巴瘤、肾上腺癌、肾癌、淋巴瘤、淋巴结反增生 二、例数:每种疾病各2000例 三、影像数据: 1.DICOM数据标准:矩阵分辨率 ≥ 512×512原始DICOM格式,保留完整元数据(扫描参数、层厚、重建核等) 2.序列要求: (1)上腹部平扫CT: a. 要求包含完整的肝脏,胆囊,肾上腺,肾脏,胰腺,脾脏等器官。 b. 以1.25mm薄层CT为主(占比80%左右),其余薄层(如0.625mm)CT作为数据多样性补充。 c. 以GE 256排CT为主(占比80%),其余厂商不同扫描设备作为数据多样性补充。 d. 不包含严重运动伪影与金属伪影 (2)同一患者上腹部增强增强CT: a. 与平扫CT要求相同。 b. 同一患者平扫与增强序列拍摄时间间隔小于一周。 3.标注内容要求:再平扫CT上完成标注,标注与标签明确疾病类型,应提供病灶区域的边界框或像素级分割掩码。 四、报告 1.影像报告:包含病灶的部位、形态特征、病理类型、分期及严重程度评估等关键信息。 2.病理报告:包含送检组织的来源部位、细胞类型、病变性质、肿瘤大小、分化程度等关键信息。 五、数据多样性要求 每类病种应覆盖不同年龄、性别、病程阶段、分级、分类、分期、病社大小等。 六、脱敏要求 必须对数据进行彻底脱敏处理,去除所有可直接或间接识别个人身份的信息,仅保留与医学研究相关的参数与标签。
需求场景:AI模型
面议
数据采购需求 晚期实体瘤MRD诊疗数据
实体瘤 MRD
一、病例 至少1000例,中位随访时间至少2年。 二、患者基本信息 性别、出生日期、确诊年龄、吸烟史、饮酒史、肿瘤家族史、疾病史、合并症等。 三、疾病与治疗史 1.影像检查:影像检查类型、影像检查时间、影像报告摘要。 2.病理诊断:肿瘤类型、原发部位、诊断日期、初始分期(AJCC/TNM)、远处转移部位、肿瘤大小、切缘状态等。 3.实验室检验:血常规、肝功能、肾功能、肿瘤标志物等项目,含项目名称、结果、参考范围。 4.治疗信息:是否接受新辅助治疗、新辅助治疗方案、手术日期、手术类型(如根治性切除、姑息性切除等)、辅助治疗(化疗/放疗/靶向/免疫治疗,方案、周期、起止时间)等。 四、分子检测信息 检测日期、检测平台、样本类型、融合基因、变异名称(含基因名、转录本)、变异丰度、TMB、MSI、MMR、PDL1克隆号、PDL1表达、MSI、MMR等。 五、MRD检测信息 MRD检测时间、样本类型、检测方法、检测灵敏度、MRD状态、检出变异、MRD丰度、基线肿瘤组织突变谱等。 六、随访与结局信息 1.实验室检查:包括肿瘤标志物、分子检测、病理检查等。 2.治疗信息 3.影像检查:影像检查类型、影像检查时间、影像报告摘要、影像学评估结果。 4.结局信息:复发/进展日期、复发部位、生存状态、死亡时间、死亡原因、无病生存期、总生存期。 七、原始数据 影像数据:确诊手术前、每次随访 MRD数据
需求场景:疾病研究
面议
数据采购需求 系统性红斑狼疮数据集
系统性红斑狼疮 预后 AI模型
1.数量:至少2000例 2.数据内容 1)一般信息:性别、出生日期、民族、家族史(自身免疫病)、吸烟史、饮酒史。 2)诊断信息:初诊年龄、SLE确诊日期、首发症状 3)实验室检验:ANA、dsDNA抗体、ENA谱(抗Sm,抗RNP,抗SSA,抗SSB等)、补体C3、C4、抗心磷脂抗体、狼疮抗凝物、抗β2-糖蛋白I抗体、血沉、CRP、肝功能、肾功能、血常规等,含项目名称、结果、参考范围。 4)治疗情况:药品名、每日剂量、开始日期,换药/停药原因(疾病活动、副作用、缓解后减停、经济原因等),治疗依从性(良好、一般、差)。 5)并发症与合并症(随访更新) 6)器官系统受累情况(随访更新) 7)疾病活动度评估(随访更新) 8)随访与结局(随访更新) 随访信息:随访编号、随访时间、随访状态(仍在随访、失访、死亡) 死亡信息(如发生):死亡日期,死亡原因(SLE相关、感染、心血管事件、其它)
需求场景:疾病研究
面议
数据采购需求 糖尿病前期和糖尿病数据集
血糖 糖尿病 肥胖
1.数量:至少5000组 2.数据内容 1)一般信息:性别、年龄、身高、体重、BMI、血压、吸烟、饮酒、饮食、运动、疾病史、用药史等。 2)实验室检验:空腹血糖、口服葡萄糖耐量试验、糖化血红蛋白、空腹胰岛素水平、空腹C肽、肝功能、肾功能、血脂、血糖等项目,含项目名称、结果、参考范围。 3)干预信息:饮食控制、运动、治疗药物 4)随访信息:随访编号、随访时间、本次随访HbA1c值、本次空腹血糖、是否调整用药方案、新发生的慢性并发症描述、依从性评估等
需求场景:AI模型
面议
数据采购需求 肺结节CT影像数据
肺结节 肺癌 CT
1.例数:至少2万例 2.疾病:肺结节,肺癌 3.数据内容: 基本信息:性别、年龄、吸烟史等 临床信息:临床诊断、病理诊断、实验室检查等 影像数据:层厚、扫描部位、扫描方式、扫描序列、影像格式、影像数量、影像分辨率、影像压缩方式等。 4.其他信息: 是否有病社报告、是否有标注信息等
需求场景:AI模型
面议
数据采购需求 连续性体检数据
体检数据
1.数量:至少1000组 2.数据内容 1)一般信息:性别、年龄等。 2)体格检查:身高、体重、BMI(体重指数)、血压、脉搏、视力、听力、口腔、皮肤等。 3)内科检查 4)外科检查 5)实验室检验:肝功能、肾功能、蛋白4项目、胆红素3项、血脂、血糖、血常规、尿常规、粪便常规、粪便隐血、肿瘤标志物、甲状腺功能等,含项目名称、结果、参考范围、异常标识。 6)影像:X光、B超、CT、MRI等。 7)内镜检查:胃镜、肠镜等。 8)心电图 9)妇科检查 10)男科检查 11)其他项目:肺功能检测,骨密度,动态心电图(Holter),动态血压等。 12)体检报告:体检结论,医生建议。 3. 连续性要求 1)同受检者关联:同一受检者的多份报告需通过唯一ID关联(如加密身份证号或机构内部标识符)。 2)时间跨度:每组报告需覆盖至少2年,建议5年内。 4. 数据质量 1)完整性:单份报告体检项目完整率≥95%,无关键字段缺失。 2)准确性:数值型结果需与原始报告一致,误差率≤1%。 3)合规性:数据需脱敏处理(去除患者真实姓名、身份证号、联系方式等隐私信息)。 5. 详细要求见附件。
需求场景:AI模型
面议
数据采购需求 医院诊疗数据
诊疗 AI模型
1.数量:10万例 2.数据内容 1)一般信息:年龄、性别、疾病史等。 2)症状 3)诊断 4)检验:肝功能、肾功能、蛋白4项目、胆红素3项、血脂、血糖、血常规、尿常规、粪便常规、粪便隐血、肿瘤标志物、甲状腺功能等,含项目名称、结果、参考范围、异常标识。 5)影像检查报告:B超、CT、MRI等。 6)医嘱 7)其他:用药记录、手术记录。 3.数据完整性 结构规范:电子病历:需包含完整诊疗流程(主诉→现病史→检查→诊断→治疗方案);检验项目无缺失(含项目名称、结果、参考范围、异常标识);逻辑保留:章节标题(如"实验室检查")、字段标签(如"血压:120/80 mmHg")必须完整,禁止删除关键模块(如缺失"影像学结论"视为无效)。 4.数据准确性 直接导出自医院信息系统(HIS/LIS/RIS),禁止经OCR识别或格式转换。数值结果(如血常规)与检测设备输出一致,保留原始单位与精度(如HbA1c:6.5 %)。文本内容无乱码、关键术语错误(如"心肌梗死"无误)。 5.合规性要求 隐私脱敏:删除涉及个人隐私数据。匿名ID,日期偏移处理,仅保留年龄、性别、检查时间 6.格式要求: 文本类型的纯文本,编码格式utf-8(需兼容中英双语及特殊医学符号,如μ、℃等)。以患者为单位存储(单患者所有记录整合为独立文件)。若为CSV文件,需明确列分隔符(建议逗号,)及转义符规则。
需求场景:AI模型
面议