vi-word-segmentation开源越南语分词模型 - 免费部署实现高精度越南语分词

首页

Vi Word Segmentation

由 NlpHUST 开发

基于ELECTRA架构的越南语分词模型，在VLSP 2013数据集上微调，提供高精度的越南语分词能力

序列标注

Transformers

其他#越南语分词 #高精度F1值 #ELECTRA微调

下载量 1,756

发布时间 : 10/30/2022

模型简介

该模型专门用于越南语文本的分词任务，能够准确识别越南语中的词语边界，适用于自然语言处理中的预处理环节

模型特点

高精度分词

在VLSP 2013评估集上达到98.35%的F1值

基于ELECTRA架构

使用高效的ELECTRA预训练模型作为基础，具有更好的上下文理解能力

专业领域适应

在政府公文和社会经济类文本上表现优异

模型能力

越南语文本分词

专业术语识别

复合词分割

使用案例

政府文档处理

国会文件分析

对越南国会讨论文件进行自动分词处理

可准确分割政府公文中的专业术语和复合词

社会经济研究

社会经济报告处理

自动处理越南社会经济形势报告文本

能正确识别经济领域专业词汇

🚀 越南语分词模型

本模型是在vlsp 2013越南语分词数据集上对 NlpHUST/electra-base-vn 进行微调后的版本。该模型在评估集上取得了以下成绩：

损失值：0.0501
精确率：0.9833
召回率：0.9838
F1值：0.9835
准确率：0.9911

🚀 快速开始

你可以使用Transformers的 pipeline 对该模型进行命名实体识别（NER）任务。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("NlpHUST/vi-word-segmentation")
model = AutoModelForTokenClassification.from_pretrained("NlpHUST/vi-word-segmentation")

nlp = pipeline("token-classification", model=model, tokenizer=tokenizer)
example = "Phát biểu tại phiên thảo luận về tình hình kinh tế xã hội của Quốc hội sáng 28/10 , Bộ trưởng Bộ LĐ-TB&XH Đào Ngọc Dung khái quát , tại phiên khai mạc kỳ họp , lãnh đạo chính phủ đã báo cáo , đề cập tương đối rõ ràng về việc thực hiện các chính sách an sinh xã hội"

ner_results = nlp(example)
example_tok = ""
for e in ner_results:
    if "##" in e["word"]:
        example_tok = example_tok + e["word"].replace("##","")
    elif e["entity"] =="I":
        example_tok = example_tok + "_" + e["word"]
    else:
        example_tok = example_tok + " " + e["word"]
print(example_tok)

Phát_biểu tại phiên thảo_luận về tình_hình kinh_tế xã_hội của Quốc_hội sáng 28 / 10 , Bộ_trưởng Bộ LĐ - TB [UNK] XH Đào_Ngọc_Dung khái_quát , tại phiên khai_mạc kỳ họp , lãnh_đạo chính_phủ đã báo_cáo , đề_cập tương_đối rõ_ràng về việc thực_hiện các chính_sách an_sinh xã_hội

✨ 主要特性

微调模型：基于 NlpHUST/electra-base-vn 在越南语分词数据集上微调，适配越南语分词任务。
高性能表现：在评估集上，损失值低至0.0501，精确率、召回率、F1值和准确率都达到了较高水平，分别为0.9833、0.9838、0.9835和0.9911。
易于使用：可通过Transformers的 pipeline 直接进行命名实体识别任务。

📦 安装指南

文档未提供具体安装步骤，可参考Hugging Face相关库的安装方式：

pip install transformers datasets tokenizers torch

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("NlpHUST/vi-word-segmentation")
model = AutoModelForTokenClassification.from_pretrained("NlpHUST/vi-word-segmentation")

nlp = pipeline("token-classification", model=model, tokenizer=tokenizer)
example = "Phát biểu tại phiên thảo luận về tình hình kinh tế xã hội của Quốc hội sáng 28/10 , Bộ trưởng Bộ LĐ-TB&XH Đào Ngọc Dung khái quát , tại phiên khai mạc kỳ họp , lãnh đạo chính phủ đã báo cáo , đề cập tương đối rõ ràng về việc thực hiện các chính sách an sinh xã hội"

ner_results = nlp(example)
example_tok = ""
for e in ner_results:
    if "##" in e["word"]:
        example_tok = example_tok + e["word"].replace("##","")
    elif e["entity"] =="I":
        example_tok = example_tok + "_" + e["word"]
    else:
        example_tok = example_tok + " " + e["word"]
print(example_tok)

高级用法

# 可根据实际需求对模型输出进行进一步处理，例如将结果存储到文件中
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("NlpHUST/vi-word-segmentation")
model = AutoModelForTokenClassification.from_pretrained("NlpHUST/vi-word-segmentation")

nlp = pipeline("token-classification", model=model, tokenizer=tokenizer)
example = "Phát biểu tại phiên thảo luận về tình hình kinh tế xã hội của Quốc hội sáng 28/10 , Bộ trưởng Bộ LĐ-TB&XH Đào Ngọc Dung khái quát , tại phiên khai mạc kỳ họp , lãnh đạo chính phủ đã báo cáo , đề cập tương đối rõ ràng về việc thực hiện các chính sách an sinh xã hội"

ner_results = nlp(example)
example_tok = ""
for e in ner_results:
    if "##" in e["word"]:
        example_tok = example_tok + e["word"].replace("##","")
    elif e["entity"] =="I":
        example_tok = example_tok + "_" + e["word"]
    else:
        example_tok = example_tok + " " + e["word"]

# 将结果写入文件
with open('output.txt', 'w', encoding='utf-8') as f:
    f.write(example_tok)

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

学习率：5e - 05
训练批次大小：8
评估批次大小：4
随机种子：42
梯度累积步数：2
总训练批次大小：16
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
训练轮数：5.0

训练结果

训练损失值	训练轮数	训练步数	验证损失值	精确率	召回率	F1值	准确率
0.0168	1.0	4712	0.0284	0.9813	0.9825	0.9819	0.9904
0.0107	2.0	9424	0.0350	0.9789	0.9814	0.9802	0.9895
0.005	3.0	14136	0.0364	0.9826	0.9843	0.9835	0.9909
0.0033	4.0	18848	0.0434	0.9830	0.9831	0.9830	0.9908
0.0017	5.0	23560	0.0501	0.9833	0.9838	0.9835	0.9911