🚀 GENIE模型卡片
GENIE(Generative Note Information Extraction,中文名:病歷精靈)是一個端到端的模型,旨在對電子病歷(EHR)中的自由文本進行結構化處理。它能一次性處理EHR,提取生物醫學命名實體及其斷言狀態、身體位置、修飾符、值、單位和預期用途,並以結構化的JSON格式輸出信息。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
模型類型 |
7B |
最大令牌數 |
8192 |
基礎模型 |
Qwen 2.5 7B |
模型描述
GENIE(Generative Note Information Extraction,中文名:病歷精靈)是一個端到端的模型,專為對電子健康記錄(EHR)中的自由文本進行結構化處理而設計。它只需對EHR進行一次處理,就能提取生物醫學命名實體及其斷言狀態、身體位置、修飾詞、值、單位和預期用途,並以結構化的JSON格式輸出這些信息。這種簡化的方法通過用單個模型取代所有分析組件,簡化了傳統的自然語言處理工作流程,使系統更易於維護,同時利用了大語言模型(LLM)的先進分析能力。與通用LLM相比,GENIE不需要提示工程或小樣本示例。此外,它能一次性生成所有相關屬性,顯著降低了運行時間和運營成本。
GENIE由盛宇(https://www.stat.tsinghua.edu.cn/teachers/shengyu/)、蔡天西(https://dbmi.hms.harvard.edu/people/tianxi-cai)和艾薩克·科哈內(https://dbmi.hms.harvard.edu/people/isaac-kohane)的團隊共同開發。
🚀 快速開始
代碼示例
from vllm import LLM, SamplingParams
PROMPT_TEMPLATE = "Human:\n{query}\n\n Assistant:\n"
sampling_params = SamplingParams(temperature=temperature, max_tokens=max_new_token)
EHR = ['xxxxx1','xxxxx2']
texts = [PROMPT_TEMPLATE.format(query=k) for k in EHR]
output = model.generate(texts, sampling_params)
💻 使用示例
基礎用法
輸入示例
EHR = ['慢性乙型肝炎病史10餘年,曾有肝功能異常,中醫治療後好轉;1年餘前查HBsAg轉陰,但肝臟病理提示病毒性肝炎伴肝纖維化(G1S3-4)']
輸出示例
res = [
{ "術語": "慢性乙型肝炎",
"語義類型": "疾病、綜合徵、病理功能",
"敘述狀態": "存在",
"身體部位": "無",
"數值": "NA",
"單位": "NA",
"修飾詞": "無" },
{ "術語": "肝功能異常",
"語義類型": "症狀、體徵、臨床所見",
"敘述狀態": "存在",
"身體部位": "無",
"數值": "NA",
"單位": "NA",
"修飾詞": "無" },
{ "術語": "HBsAg",
"語義類型": "化學物質、藥物",
"敘述狀態": "不存在",
"身體部位": "NA",
"數值": "無",
"單位": "NA",
"修飾詞": "NA" },
{ "術語": "肝臟病理",
"語義類型": "診斷操作",
"敘述狀態": "存在",
"身體部位": "無",
"數值": "無",
"單位": "NA",
"修飾詞": "NA" },
{ "術語": "病毒性肝炎",
"語義類型": "疾病、綜合徵、病理功能",
"敘述狀態": "存在",
"身體部位": "無",
"數值": "NA",
"單位": "NA",
"修飾詞": "無" },
{ "術語": "肝纖維化",
"語義類型": "疾病、綜合徵、病理功能",
"敘述狀態": "存在",
"身體部位": "無",
"數值": "NA",
"單位": "NA",
"修飾詞": "無" },
]
📄 許可證
本項目採用Apache-2.0許可證。
📖 引用
如果您覺得我們的論文或模型有幫助,請考慮引用:
@misc{ying2025geniegenerativenoteinformation,
title={GENIE: Generative Note Information Extraction model for structuring EHR data},
author={Huaiyuan Ying and Hongyi Yuan and Jinsen Lu and Zitian Qu and Yang Zhao and Zhengyun Zhao and Isaac Kohane and Tianxi Cai and Sheng Yu},
year={2025},
eprint={2501.18435},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.18435},
}