ViHealthBERT開源語言模型 - 免費用於越南語醫療健康文本挖掘

首頁

Vihealthbert Base Word

由demdecuong開發

ViHealthBERT是面向越南語健康文本挖掘的預訓練語言模型，在醫療健康領域提供強基線性能

大型語言模型

Transformers

#越南語醫療文本處理 #預訓練語言模型 #命名實體識別

下載量 633

發布時間 : 4/20/2022

模型概述

專為越南語醫療健康文本設計的預訓練語言模型，支持命名實體識別、縮略詞消歧和文本摘要等任務

模型特點

醫療領域優化

針對越南語醫療健康文本進行專門預訓練，在相關任務上表現優異

雙分詞器支持

提供詞級和音節級兩種分詞器版本，適應不同應用場景

配套數據集

發佈醫療縮略詞數據集(acrDrAid)和常見問題摘要數據集

模型能力

越南語醫療文本理解

命名實體識別

縮略詞消歧

文本摘要生成

使用案例

醫療信息處理

COVID-19實體識別

從越南語醫療文本中識別COVID-19相關實體

在COVID-19 & ViMQ數據集上達到SOTA性能

醫療縮略詞解析

解析越南語醫療文檔中的專業縮略詞

在acrDrAid數據集上表現優異

醫療文本摘要

常見問題摘要

生成越南語醫療常見問題的簡潔摘要

🚀 ViHealthBERT：用於越南語醫療文本挖掘的預訓練語言模型

ViHealthBERT是醫療領域中用於越南語的強大基準語言模型。我們通過實驗研究了採用不同訓練策略的模型，在3個下游任務（命名實體識別（NER，包括COVID - 19和ViMQ）、縮略詞消歧和文本摘要）上取得了當前最優（SOTA）性能。

我們推出了兩個越南語數據集：醫療領域的縮略詞數據集（acrDrAid）和常見問題解答摘要數據集。我們的acrDrAid數據集標註了135組關鍵詞。

ViHealthBERT的通用方法和實驗結果可在我們即將更新的LREC - 2022海報論文中查看：

@article{vihealthbert,
    title     = {{ViHealthBERT: Pre-trained Language Models for Vietnamese in Health Text Mining}},
    author    = {Minh Phuc Nguyen, Vu Hoang Tran, Vu Hoang, Ta Duc Huy, Trung H. Bui, Steven Q. H. Truong },
    journal   = {13th Edition of its Language Resources and Evaluation Conference},
    year      = {2022}
}

🚀 快速開始

本部分將引導你瞭解ViHealthBERT的安裝、預訓練模型信息及使用示例。

✨ 主要特性

針對越南語醫療領域，提供強大的預訓練語言模型。
通過不同訓練策略，在多個下游任務上取得當前最優性能。
推出兩個越南語醫療領域數據集，且acrDrAid數據集標註了135組關鍵詞。

📦 安裝指南

環境要求：Python 3.6+，PyTorch >= 1.6
安裝transformers庫：

pip install transformers==4.2.0

📚 詳細文檔

預訓練模型

模型	參數數量	架構	分詞器
`demdecuong/vihealthbert-base-word`	1.35億	基礎	詞級
`demdecuong/vihealthbert-base-syllable`	1.35億	基礎	音節級

💻 使用示例

基礎用法

import torch
from transformers import AutoModel, AutoTokenizer

vihealthbert = AutoModel.from_pretrained("demdecuong/vihealthbert-base-word")
tokenizer = AutoTokenizer.from_pretrained("demdecuong/vihealthbert-base-word")

# 輸入文本必須已經進行過分詞！
line = "Tôi là sinh_viên trường đại_học Công_nghệ ."

input_ids = torch.tensor([tokenizer.encode(line)])
with torch.no_grad():
    features = vihealthbert(input_ids)  # 模型輸出現在是元組形式

高級用法

原始文本使用示例

由於ViHealthBERT使用了來自VnCoreNLP的RDRSegmenter對預訓練數據進行預處理，我們強烈建議在ViHealthBERT的下游應用中使用相同的分詞器。

安裝步驟

# 安裝vncorenlp的Python包裝器
pip3 install vncorenlp

# 下載VnCoreNLP - 1.1.1.jar及其分詞組件（即RDRSegmenter）
mkdir -p vncorenlp/models/wordsegmenter
wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/VnCoreNLP-1.1.1.jar
wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/vi-vocab
wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/wordsegmenter.rdr
mv VnCoreNLP-1.1.1.jar vncorenlp/ 
mv vi-vocab vncorenlp/models/wordsegmenter/
mv wordsegmenter.rdr vncorenlp/models/wordsegmenter/

VnCoreNLP - 1.1.1.jar（27MB）和models/文件夾必須放在同一工作目錄中。

使用示例

# 更多細節請參考：https://github.com/vncorenlp/VnCoreNLP

# 從VnCoreNLP加載rdrsegmenter
from vncorenlp import VnCoreNLP
rdrsegmenter = VnCoreNLP("/Absolute-path-to/vncorenlp/VnCoreNLP-1.1.1.jar", annotators="wseg", max_heap_size='-Xmx500m') 

# 輸入文本
text = "Ông Nguyễn Khắc Chúc  đang làm việc tại Đại học Quốc gia Hà Nội. Bà Lan, vợ ông Chúc, cũng làm việc tại đây."

# 進行分詞（和句子分割）
sentences = rdrsegmenter.tokenize(text) 
for sentence in sentences:
    print(" ".join(sentence))