🚀 XLM - RoBERTa 大小写与标点恢复模型
本项目是一个基于 [XLM - RoBERTa](https://huggingface.co/xlm - roberta - base) 微调的模型,用于在 [OSCAR - 2109](https://huggingface.co/datasets/oscar - corpus/OSCAR - 2109) 数据集上进行越南语的标点恢复。该模型能够预测纯小写文本的标点和大小写,例如可用于自动语音识别(ASR)输出或文本标点丢失的场景。此模型既可以直接作为通用越南语的标点恢复模型使用,也可以在特定领域文本上进一步微调以完成标点恢复任务。模型可以恢复以下标点:[. , : ? ],还能恢复像 YouTube、MobiFone 这类单词的复杂大小写。
🚀 快速开始
下载文件
import os
import shutil
import sys
from huggingface_hub import snapshot_download
cache_dir = "./capu"
def download_files(repo_id, cache_dir=None, ignore_regex=None):
download_dir = snapshot_download(repo_id=repo_id, cache_dir=cache_dir, ignore_regex=ignore_regex)
if cache_dir is None or download_dir == cache_dir:
return download_dir
file_names = os.listdir(download_dir)
for file_name in file_names:
shutil.move(os.path.join(download_dir, file_name), cache_dir)
os.rmdir(download_dir)
return cache_dir
cache_dir = download_files(repo_id="dragonSwing/xlm - roberta - capu", cache_dir=cache_dir, ignore_regex=["*.json", "*.bin"])
sys.path.append(cache_dir)
示例代码
import os
from gec_model import GecBERTModel
model = GecBERTModel(
vocab_path=os.path.join(cache_dir, "vocabulary"),
model_paths="dragonSwing/xlm - roberta - capu",
split_chunk=True
)
model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
model("những gói cước năm g mobifone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời so với mạng bốn g thì tốc độ truy cập mạng 5 g mobifone được nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần")
该模型可以处理任意长度的越南语文本。
📦 训练数据
以下是用于微调模型的产品评论数量:
属性 |
详情 |
语言 |
越南语 |
文本样本数量 |
5,600,000 |
🎯 准确率
以下是模型在 10,000 个保留文本样本上按每个标签的性能细分:
标签 |
精确率 |
召回率 |
F1 分数 |
样本数 |
大写 |
0.89 |
0.90 |
0.89 |
56497 |
复杂大写 |
0.93 |
0.83 |
0.88 |
480 |
. |
0.81 |
0.84 |
0.82 |
18139 |
, |
0.69 |
0.75 |
0.72 |
22961 |
: |
0.76 |
0.60 |
0.67 |
1432 |
? |
0.82 |
0.75 |
0.78 |
1730 |
无 |
0.99 |
0.99 |
0.99 |
475611 |
📄 许可证
本项目采用 CC - BY - SA - 4.0 许可证。