Vi Word Segmentation
基于ELECTRA架构的越南语分词模型,在VLSP 2013数据集上微调,提供高精度的越南语分词能力
下载量 1,756
发布时间 : 10/30/2022
模型简介
该模型专门用于越南语文本的分词任务,能够准确识别越南语中的词语边界,适用于自然语言处理中的预处理环节
模型特点
高精度分词
在VLSP 2013评估集上达到98.35%的F1值
基于ELECTRA架构
使用高效的ELECTRA预训练模型作为基础,具有更好的上下文理解能力
专业领域适应
在政府公文和社会经济类文本上表现优异
模型能力
越南语文本分词
专业术语识别
复合词分割
使用案例
政府文档处理
国会文件分析
对越南国会讨论文件进行自动分词处理
可准确分割政府公文中的专业术语和复合词
社会经济研究
社会经济报告处理
自动处理越南社会经济形势报告文本
能正确识别经济领域专业词汇
🚀 越南语分词模型
本模型是在vlsp 2013越南语分词数据集上对 NlpHUST/electra-base-vn 进行微调后的版本。该模型在评估集上取得了以下成绩:
- 损失值:0.0501
- 精确率:0.9833
- 召回率:0.9838
- F1值:0.9835
- 准确率:0.9911
🚀 快速开始
你可以使用Transformers的 pipeline 对该模型进行命名实体识别(NER)任务。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("NlpHUST/vi-word-segmentation")
model = AutoModelForTokenClassification.from_pretrained("NlpHUST/vi-word-segmentation")
nlp = pipeline("token-classification", model=model, tokenizer=tokenizer)
example = "Phát biểu tại phiên thảo luận về tình hình kinh tế xã hội của Quốc hội sáng 28/10 , Bộ trưởng Bộ LĐ-TB&XH Đào Ngọc Dung khái quát , tại phiên khai mạc kỳ họp , lãnh đạo chính phủ đã báo cáo , đề cập tương đối rõ ràng về việc thực hiện các chính sách an sinh xã hội"
ner_results = nlp(example)
example_tok = ""
for e in ner_results:
if "##" in e["word"]:
example_tok = example_tok + e["word"].replace("##","")
elif e["entity"] =="I":
example_tok = example_tok + "_" + e["word"]
else:
example_tok = example_tok + " " + e["word"]
print(example_tok)
Phát_biểu tại phiên thảo_luận về tình_hình kinh_tế xã_hội của Quốc_hội sáng 28 / 10 , Bộ_trưởng Bộ LĐ - TB [UNK] XH Đào_Ngọc_Dung khái_quát , tại phiên khai_mạc kỳ họp , lãnh_đạo chính_phủ đã báo_cáo , đề_cập tương_đối rõ_ràng về việc thực_hiện các chính_sách an_sinh xã_hội
✨ 主要特性
- 微调模型:基于 NlpHUST/electra-base-vn 在越南语分词数据集上微调,适配越南语分词任务。
- 高性能表现:在评估集上,损失值低至0.0501,精确率、召回率、F1值和准确率都达到了较高水平,分别为0.9833、0.9838、0.9835和0.9911。
- 易于使用:可通过Transformers的 pipeline 直接进行命名实体识别任务。
📦 安装指南
文档未提供具体安装步骤,可参考Hugging Face相关库的安装方式:
pip install transformers datasets tokenizers torch
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("NlpHUST/vi-word-segmentation")
model = AutoModelForTokenClassification.from_pretrained("NlpHUST/vi-word-segmentation")
nlp = pipeline("token-classification", model=model, tokenizer=tokenizer)
example = "Phát biểu tại phiên thảo luận về tình hình kinh tế xã hội của Quốc hội sáng 28/10 , Bộ trưởng Bộ LĐ-TB&XH Đào Ngọc Dung khái quát , tại phiên khai mạc kỳ họp , lãnh đạo chính phủ đã báo cáo , đề cập tương đối rõ ràng về việc thực hiện các chính sách an sinh xã hội"
ner_results = nlp(example)
example_tok = ""
for e in ner_results:
if "##" in e["word"]:
example_tok = example_tok + e["word"].replace("##","")
elif e["entity"] =="I":
example_tok = example_tok + "_" + e["word"]
else:
example_tok = example_tok + " " + e["word"]
print(example_tok)
高级用法
# 可根据实际需求对模型输出进行进一步处理,例如将结果存储到文件中
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("NlpHUST/vi-word-segmentation")
model = AutoModelForTokenClassification.from_pretrained("NlpHUST/vi-word-segmentation")
nlp = pipeline("token-classification", model=model, tokenizer=tokenizer)
example = "Phát biểu tại phiên thảo luận về tình hình kinh tế xã hội của Quốc hội sáng 28/10 , Bộ trưởng Bộ LĐ-TB&XH Đào Ngọc Dung khái quát , tại phiên khai mạc kỳ họp , lãnh đạo chính phủ đã báo cáo , đề cập tương đối rõ ràng về việc thực hiện các chính sách an sinh xã hội"
ner_results = nlp(example)
example_tok = ""
for e in ner_results:
if "##" in e["word"]:
example_tok = example_tok + e["word"].replace("##","")
elif e["entity"] =="I":
example_tok = example_tok + "_" + e["word"]
else:
example_tok = example_tok + " " + e["word"]
# 将结果写入文件
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(example_tok)
🔧 技术细节
训练超参数
训练过程中使用了以下超参数:
- 学习率:5e - 05
- 训练批次大小:8
- 评估批次大小:4
- 随机种子:42
- 梯度累积步数:2
- 总训练批次大小:16
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 训练轮数:5.0
训练结果
训练损失值 | 训练轮数 | 训练步数 | 验证损失值 | 精确率 | 召回率 | F1值 | 准确率 |
---|---|---|---|---|---|---|---|
0.0168 | 1.0 | 4712 | 0.0284 | 0.9813 | 0.9825 | 0.9819 | 0.9904 |
0.0107 | 2.0 | 9424 | 0.0350 | 0.9789 | 0.9814 | 0.9802 | 0.9895 |
0.005 | 3.0 | 14136 | 0.0364 | 0.9826 | 0.9843 | 0.9835 | 0.9909 |
0.0033 | 4.0 | 18848 | 0.0434 | 0.9830 | 0.9831 | 0.9830 | 0.9908 |
0.0017 | 5.0 | 23560 | 0.0501 | 0.9833 | 0.9838 | 0.9835 | 0.9911 |
框架版本
- Transformers 4.22.2
- Pytorch 1.12.1+cu113
- Datasets 2.4.0
- Tokenizers 0.12.1
Indonesian Roberta Base Posp Tagger
MIT
这是一个基于印尼语RoBERTa模型微调的词性标注模型,在indonlu数据集上训练,用于印尼语文本的词性标注任务。
序列标注
Transformers 其他

I
w11wo
2.2M
7
Bert Base NER
MIT
基于BERT微调的命名实体识别模型,可识别四类实体:地点(LOC)、组织机构(ORG)、人名(PER)和杂项(MISC)
序列标注 英语
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
该模型是基于RoBERTa微调的序列标注模型,用于识别和移除医疗记录中的受保护健康信息(PHI/PII)。
序列标注
Transformers 支持多种语言

D
obi
1.1M
33
Ner English Fast
Flair自带的英文快速4类命名实体识别模型,基于Flair嵌入和LSTM-CRF架构,在CoNLL-03数据集上达到92.92的F1分数。
序列标注
PyTorch 英语
N
flair
978.01k
24
French Camembert Postag Model
基于Camembert-base的法语词性标注模型,使用free-french-treebank数据集训练
序列标注
Transformers 法语

F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基于XLM-Roberta-large架构微调的西班牙语命名实体识别模型,在CoNLL-2002数据集上表现优异。
序列标注
Transformers 西班牙语

X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基于NusaBert-v1.3在印尼语NER任务上微调的命名实体识别模型
序列标注
Transformers 其他

N
cahya
759.09k
3
Ner English Large
Flair框架内置的英文4类大型NER模型,基于文档级XLM-R嵌入和FLERT技术,在CoNLL-03数据集上F1分数达94.36。
序列标注
PyTorch 英语
N
flair
749.04k
44
Punctuate All
MIT
基于xlm-roberta-base微调的多语言标点符号预测模型,支持12种欧洲语言的标点符号自动补全
序列标注
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基于xlm-roberta-base微调的日语命名实体识别模型
序列标注
Transformers 支持多种语言

X
tsmatz
630.71k
25
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98