vi-word-segmentation開源越南語分詞模型 - 免費部署實現高精度越南語分詞

首頁

Vi Word Segmentation

由NlpHUST開發

基於ELECTRA架構的越南語分詞模型，在VLSP 2013數據集上微調，提供高精度的越南語分詞能力

序列標註

Transformers

其他#越南語分詞 #高精度F1值 #ELECTRA微調

下載量 1,756

發布時間 : 10/30/2022

模型概述

該模型專門用於越南語文本的分詞任務，能夠準確識別越南語中的詞語邊界，適用於自然語言處理中的預處理環節

模型特點

高精度分詞

在VLSP 2013評估集上達到98.35%的F1值

基於ELECTRA架構

使用高效的ELECTRA預訓練模型作為基礎，具有更好的上下文理解能力

專業領域適應

在政府公文和社會經濟類文本上表現優異

模型能力

越南語文本分詞

專業術語識別

複合詞分割

使用案例

政府文檔處理

國會文件分析

對越南國會討論文件進行自動分詞處理

可準確分割政府公文中的專業術語和複合詞

社會經濟研究

社會經濟報告處理

自動處理越南社會經濟形勢報告文本

能正確識別經濟領域專業詞彙

🚀 越南語分詞模型

本模型是在vlsp 2013越南語分詞數據集上對 NlpHUST/electra-base-vn 進行微調後的版本。該模型在評估集上取得了以下成績：

損失值：0.0501
精確率：0.9833
召回率：0.9838
F1值：0.9835
準確率：0.9911

🚀 快速開始

你可以使用Transformers的 pipeline 對該模型進行命名實體識別（NER）任務。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("NlpHUST/vi-word-segmentation")
model = AutoModelForTokenClassification.from_pretrained("NlpHUST/vi-word-segmentation")

nlp = pipeline("token-classification", model=model, tokenizer=tokenizer)
example = "Phát biểu tại phiên thảo luận về tình hình kinh tế xã hội của Quốc hội sáng 28/10 , Bộ trưởng Bộ LĐ-TB&XH Đào Ngọc Dung khái quát , tại phiên khai mạc kỳ họp , lãnh đạo chính phủ đã báo cáo , đề cập tương đối rõ ràng về việc thực hiện các chính sách an sinh xã hội"

ner_results = nlp(example)
example_tok = ""
for e in ner_results:
    if "##" in e["word"]:
        example_tok = example_tok + e["word"].replace("##","")
    elif e["entity"] =="I":
        example_tok = example_tok + "_" + e["word"]
    else:
        example_tok = example_tok + " " + e["word"]
print(example_tok)

Phát_biểu tại phiên thảo_luận về tình_hình kinh_tế xã_hội của Quốc_hội sáng 28 / 10 , Bộ_trưởng Bộ LĐ - TB [UNK] XH Đào_Ngọc_Dung khái_quát , tại phiên khai_mạc kỳ họp , lãnh_đạo chính_phủ đã báo_cáo , đề_cập tương_đối rõ_ràng về việc thực_hiện các chính_sách an_sinh xã_hội

✨ 主要特性

微調模型：基於 NlpHUST/electra-base-vn 在越南語分詞數據集上微調，適配越南語分詞任務。
高性能表現：在評估集上，損失值低至0.0501，精確率、召回率、F1值和準確率都達到了較高水平，分別為0.9833、0.9838、0.9835和0.9911。
易於使用：可通過Transformers的 pipeline 直接進行命名實體識別任務。

📦 安裝指南

文檔未提供具體安裝步驟，可參考Hugging Face相關庫的安裝方式：

pip install transformers datasets tokenizers torch

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("NlpHUST/vi-word-segmentation")
model = AutoModelForTokenClassification.from_pretrained("NlpHUST/vi-word-segmentation")

nlp = pipeline("token-classification", model=model, tokenizer=tokenizer)
example = "Phát biểu tại phiên thảo luận về tình hình kinh tế xã hội của Quốc hội sáng 28/10 , Bộ trưởng Bộ LĐ-TB&XH Đào Ngọc Dung khái quát , tại phiên khai mạc kỳ họp , lãnh đạo chính phủ đã báo cáo , đề cập tương đối rõ ràng về việc thực hiện các chính sách an sinh xã hội"

ner_results = nlp(example)
example_tok = ""
for e in ner_results:
    if "##" in e["word"]:
        example_tok = example_tok + e["word"].replace("##","")
    elif e["entity"] =="I":
        example_tok = example_tok + "_" + e["word"]
    else:
        example_tok = example_tok + " " + e["word"]
print(example_tok)

高級用法

# 可根據實際需求對模型輸出進行進一步處理，例如將結果存儲到文件中
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("NlpHUST/vi-word-segmentation")
model = AutoModelForTokenClassification.from_pretrained("NlpHUST/vi-word-segmentation")

nlp = pipeline("token-classification", model=model, tokenizer=tokenizer)
example = "Phát biểu tại phiên thảo luận về tình hình kinh tế xã hội của Quốc hội sáng 28/10 , Bộ trưởng Bộ LĐ-TB&XH Đào Ngọc Dung khái quát , tại phiên khai mạc kỳ họp , lãnh đạo chính phủ đã báo cáo , đề cập tương đối rõ ràng về việc thực hiện các chính sách an sinh xã hội"

ner_results = nlp(example)
example_tok = ""
for e in ner_results:
    if "##" in e["word"]:
        example_tok = example_tok + e["word"].replace("##","")
    elif e["entity"] =="I":
        example_tok = example_tok + "_" + e["word"]
    else:
        example_tok = example_tok + " " + e["word"]

# 將結果寫入文件
with open('output.txt', 'w', encoding='utf-8') as f:
    f.write(example_tok)

🔧 技術細節

訓練超參數

訓練過程中使用了以下超參數：

學習率：5e - 05
訓練批次大小：8
評估批次大小：4
隨機種子：42
梯度累積步數：2
總訓練批次大小：16
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
訓練輪數：5.0

訓練結果

訓練損失值	訓練輪數	訓練步數	驗證損失值	精確率	召回率	F1值	準確率
0.0168	1.0	4712	0.0284	0.9813	0.9825	0.9819	0.9904
0.0107	2.0	9424	0.0350	0.9789	0.9814	0.9802	0.9895
0.005	3.0	14136	0.0364	0.9826	0.9843	0.9835	0.9909
0.0033	4.0	18848	0.0434	0.9830	0.9831	0.9830	0.9908
0.0017	5.0	23560	0.0501	0.9833	0.9838	0.9835	0.9911