🚀 文本生成模型
本模型專注於文本生成領域,特別是臨床報告摘要生成。它基於 Qwen/Qwen2.5-0.5B-Instruct
模型進行微調,在多語言臨床報告摘要任務中表現出色,為生物醫學領域的信息處理提供了高效解決方案。
🚀 快速開始
本模型是 Qwen/Qwen2.5-0.5B-Instruct
在 MultiClinSum 訓練數據及其 rationale
上的蒸餾微調版本。該模型的結果用於提交 BioASQ-2025 研討會 / CLEF 2025 的相關成果。

我們首先採用 Qwen/Qwen2.5-72B-Instruct
為訓練數據推斷 rationale
(更多細節請繼續閱讀)。
基線版本:https://huggingface.co/nicolay-r/qwen25-05b-multiclinsum-standard
✨ 主要特性
- 模型類型:基於解碼器的模型
- 支持語言(NLP):Qwen2.5 原生支持語言,並在
en
、fr
、pt
、es
語言的摘要上進行了微調
- 許可證:MIT
- 微調基礎模型:https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct
屬性 |
詳情 |
模型類型 |
基於解碼器的模型 |
支持語言(NLP) |
Qwen2.5 原生支持語言,並在 en 、fr 、pt 、es 語言的摘要上進行了微調 |
許可證 |
MIT |
微調基礎模型 |
https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct |
📦 安裝指南
暫未提供相關安裝步驟。
💻 使用示例
基礎用法
from bulk_chain.api import iter_content
from bulk_chain.core.utils import dynamic_init
content_it = iter_content(
schema={"schema": [
{"prompt": "Summarize: {input}", "out": "summary"}]
},
llm=dynamic_init(
class_filepath="huggingface_qwen.py",
class_name="Qwen2")(
api_token="YOUR_HF_API_KEY_GOES_HERE",
model_name="nicolay-r/qwen25-05b-multiclinsum-distil",
temp=0.1,
use_bf16=True,
max_new_tokens=args.max_tokens,
device=args.device
),
infer_mode="batch",
batch_size=4,
return_mode="record",
input_dicts_it=[
{"input": "A patient 62 years old with ..."}
],
)
for record in content_it:
print(record["summary"])
高級用法
暫未提供相關高級用法示例。
📚 詳細文檔
模型來源

- 代碼倉庫:https://github.com/nicolay-r/distil-tuning-llm
- 論文:待公佈
- 演示:https://colab.research.google.com/drive/1TXGaz39o73nBucEQw12gbad7Tw11j2Ol?usp=sharing
🔧 技術細節
訓練數據
- MultiClinSum
- 我們使用 以下腳本 下載數據集。
- 官網:https://temu.bsc.es/multiclinsum
- 數據:https://zenodo.org/records/15463353
- BioASQ:http://bioasq.org/
訓練過程
訓練過程包括:
- 為摘要蒸餾準備
rationale
。
- 啟動 微調 過程。
準備工作:我們採用 Qwen/Qwen2.5-72B-Instruct
通過以下腳本來推斷 rationale
:
- https://github.com/nicolay-r/distil-tuning-llm/blob/master/predict/annotate_train_rationale.py
- 上述腳本依賴
open-router
作為遠程 API 提供者:https://openrouter.ai/qwen/qwen-2.5-72b-instruct
微調:請遵循此腳本,在 GoogleColab A100(40GB VRAM)+ 80GB RAM 上使用 MultiClinSum
數據集 進行微調:
- https://github.com/nicolay-r/distil-tuning-llm/blob/master/distil_ft_qwen25_05b_A100-40GB_80GB_dis.sh
預處理
參考以下腳本進行 微調
預處理:
- https://github.com/nicolay-r/distil-tuning-llm/blob/master/resources/make_dataset_mult.py
訓練超參數
我們參考原始參數:
- https://github.com/QwenLM/Qwen2.5-VL/tree/main/qwen-vl-finetune
並使用以下腳本:
- https://github.com/nicolay-r/distil-tuning-llm/blob/master/distil_ft_qwen25_05b_A100-40GB_80GB_dis.sh
速度、大小、時間
在 GoogleColab A100 上進行 3
個 epoch 的微調過程大約需要 ~1 小時
。
評估
測試數據
我們使用所有可用訓練數據中 20 篇文檔的評估分割,涵蓋所有語言:en
、fr
、pt
、es
。
評估指標
在本次評估中,我們僅使用 rouge
分數。
評估結果
我們為 distil
和 standard
版本分別啟動了 3 個獨立的微調過程,以展示多次運行之間的結果差異。
圖:該模型的評估結果對應 distil
版本。

總結
硬件環境
我們使用 GoogleColab Notebook 服務及其相關資源進行模型推理和啟動實驗:
- 微調:A100(40GB)
- 推理:T4(16GB)
請參考倉庫中的 Google Codalab Notebook:
- https://github.com/nicolay-r/distil-tuning-llm
軟件環境
這是該模型卡片的官方代碼倉庫:
- https://github.com/nicolay-r/distil-tuning-llm
📄 許可證
本模型使用 MIT 許可證。
引用
BibTeX:待添加
模型卡片作者
Nicolay Rusnachenko