🚀 GENIE模型卡片
GENIE(Generative Note Information Extraction,中文名:病历精灵)是一个端到端的模型,旨在对电子病历(EHR)中的自由文本进行结构化处理。它能一次性处理EHR,提取生物医学命名实体及其断言状态、身体位置、修饰符、值、单位和预期用途,并以结构化的JSON格式输出信息。
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
7B |
最大令牌数 |
8192 |
基础模型 |
Qwen 2.5 7B |
模型描述
GENIE(Generative Note Information Extraction,中文名:病历精灵)是一个端到端的模型,专为对电子健康记录(EHR)中的自由文本进行结构化处理而设计。它只需对EHR进行一次处理,就能提取生物医学命名实体及其断言状态、身体位置、修饰词、值、单位和预期用途,并以结构化的JSON格式输出这些信息。这种简化的方法通过用单个模型取代所有分析组件,简化了传统的自然语言处理工作流程,使系统更易于维护,同时利用了大语言模型(LLM)的先进分析能力。与通用LLM相比,GENIE不需要提示工程或小样本示例。此外,它能一次性生成所有相关属性,显著降低了运行时间和运营成本。
GENIE由盛宇(https://www.stat.tsinghua.edu.cn/teachers/shengyu/)、蔡天西(https://dbmi.hms.harvard.edu/people/tianxi-cai)和艾萨克·科哈内(https://dbmi.hms.harvard.edu/people/isaac-kohane)的团队共同开发。
🚀 快速开始
代码示例
from vllm import LLM, SamplingParams
PROMPT_TEMPLATE = "Human:\n{query}\n\n Assistant:\n"
sampling_params = SamplingParams(temperature=temperature, max_tokens=max_new_token)
EHR = ['xxxxx1','xxxxx2']
texts = [PROMPT_TEMPLATE.format(query=k) for k in EHR]
output = model.generate(texts, sampling_params)
💻 使用示例
基础用法
输入示例
EHR = ['慢性乙型肝炎病史10余年,曾有肝功能异常,中医治疗后好转;1年余前查HBsAg转阴,但肝脏病理提示病毒性肝炎伴肝纤维化(G1S3-4)']
输出示例
res = [
{ "术语": "慢性乙型肝炎",
"语义类型": "疾病、综合征、病理功能",
"叙述状态": "存在",
"身体部位": "无",
"数值": "NA",
"单位": "NA",
"修饰词": "无" },
{ "术语": "肝功能异常",
"语义类型": "症状、体征、临床所见",
"叙述状态": "存在",
"身体部位": "无",
"数值": "NA",
"单位": "NA",
"修饰词": "无" },
{ "术语": "HBsAg",
"语义类型": "化学物质、药物",
"叙述状态": "不存在",
"身体部位": "NA",
"数值": "无",
"单位": "NA",
"修饰词": "NA" },
{ "术语": "肝脏病理",
"语义类型": "诊断操作",
"叙述状态": "存在",
"身体部位": "无",
"数值": "无",
"单位": "NA",
"修饰词": "NA" },
{ "术语": "病毒性肝炎",
"语义类型": "疾病、综合征、病理功能",
"叙述状态": "存在",
"身体部位": "无",
"数值": "NA",
"单位": "NA",
"修饰词": "无" },
{ "术语": "肝纤维化",
"语义类型": "疾病、综合征、病理功能",
"叙述状态": "存在",
"身体部位": "无",
"数值": "NA",
"单位": "NA",
"修饰词": "无" },
]
📄 许可证
本项目采用Apache-2.0许可证。
📖 引用
如果您觉得我们的论文或模型有帮助,请考虑引用:
@misc{ying2025geniegenerativenoteinformation,
title={GENIE: Generative Note Information Extraction model for structuring EHR data},
author={Huaiyuan Ying and Hongyi Yuan and Jinsen Lu and Zitian Qu and Yang Zhao and Zhengyun Zhao and Isaac Kohane and Tianxi Cai and Sheng Yu},
year={2025},
eprint={2501.18435},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.18435},
}