🚀 XLM - RoBERTa 大小寫與標點恢復模型
本項目是一個基於 [XLM - RoBERTa](https://huggingface.co/xlm - roberta - base) 微調的模型,用於在 [OSCAR - 2109](https://huggingface.co/datasets/oscar - corpus/OSCAR - 2109) 數據集上進行越南語的標點恢復。該模型能夠預測純小寫文本的標點和大小寫,例如可用於自動語音識別(ASR)輸出或文本標點丟失的場景。此模型既可以直接作為通用越南語的標點恢復模型使用,也可以在特定領域文本上進一步微調以完成標點恢復任務。模型可以恢復以下標點:[. , : ? ],還能恢復像 YouTube、MobiFone 這類單詞的複雜大小寫。
🚀 快速開始
下載文件
import os
import shutil
import sys
from huggingface_hub import snapshot_download
cache_dir = "./capu"
def download_files(repo_id, cache_dir=None, ignore_regex=None):
download_dir = snapshot_download(repo_id=repo_id, cache_dir=cache_dir, ignore_regex=ignore_regex)
if cache_dir is None or download_dir == cache_dir:
return download_dir
file_names = os.listdir(download_dir)
for file_name in file_names:
shutil.move(os.path.join(download_dir, file_name), cache_dir)
os.rmdir(download_dir)
return cache_dir
cache_dir = download_files(repo_id="dragonSwing/xlm - roberta - capu", cache_dir=cache_dir, ignore_regex=["*.json", "*.bin"])
sys.path.append(cache_dir)
示例代碼
import os
from gec_model import GecBERTModel
model = GecBERTModel(
vocab_path=os.path.join(cache_dir, "vocabulary"),
model_paths="dragonSwing/xlm - roberta - capu",
split_chunk=True
)
model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
model("những gói cước năm g mobifone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời so với mạng bốn g thì tốc độ truy cập mạng 5 g mobifone được nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần")
該模型可以處理任意長度的越南語文本。
📦 訓練數據
以下是用於微調模型的產品評論數量:
屬性 |
詳情 |
語言 |
越南語 |
文本樣本數量 |
5,600,000 |
🎯 準確率
以下是模型在 10,000 個保留文本樣本上按每個標籤的性能細分:
標籤 |
精確率 |
召回率 |
F1 分數 |
樣本數 |
大寫 |
0.89 |
0.90 |
0.89 |
56497 |
複雜大寫 |
0.93 |
0.83 |
0.88 |
480 |
. |
0.81 |
0.84 |
0.82 |
18139 |
, |
0.69 |
0.75 |
0.72 |
22961 |
: |
0.76 |
0.60 |
0.67 |
1432 |
? |
0.82 |
0.75 |
0.78 |
1730 |
無 |
0.99 |
0.99 |
0.99 |
475611 |
📄 許可證
本項目採用 CC - BY - SA - 4.0 許可證。