🚀 xlm-roberta-capitalization-punctuation
このモデルは、OSCAR-2109 データセットを使用してベトナム語の句読点復元のためにファインチューニングされた XLM-RoBERTa モデルです。このモデルは、小文字の平文テキストの句読点と大文字化を予測します。具体的な使用例としては、音声認識(ASR)の出力や、句読点が失われたテキストの場合が考えられます。このモデルは、一般的なベトナム語の句読点復元モデルとして直接使用することを想定しています。また、特定ドメインのテキストに対する句読点復元タスクでのさらなるファインチューニングにも使用できます。このモデルは、[. , : ? ] といった句読点を復元し、YouTube、MobiFone のような単語の複雑な大文字化も復元します。
🚀 クイックスタート
モデルの使用方法
以下は、このモデルをすぐに使い始めるための手順です。
💻 使用例
基本的な使用法
import os
import shutil
import sys
from huggingface_hub import snapshot_download
cache_dir = "./capu"
def download_files(repo_id, cache_dir=None, ignore_regex=None):
download_dir = snapshot_download(repo_id=repo_id, cache_dir=cache_dir, ignore_regex=ignore_regex)
if cache_dir is None or download_dir == cache_dir:
return download_dir
file_names = os.listdir(download_dir)
for file_name in file_names:
shutil.move(os.path.join(download_dir, file_name), cache_dir)
os.rmdir(download_dir)
return cache_dir
cache_dir = download_files(repo_id="dragonSwing/xlm-roberta-capu", cache_dir=cache_dir, ignore_regex=["*.json", "*.bin"])
sys.path.append(cache_dir)
高度な使用法
import os
from gec_model import GecBERTModel
model = GecBERTModel(
vocab_path=os.path.join(cache_dir, "vocabulary"),
model_paths="dragonSwing/xlm-roberta-capu",
split_chunk=True
)
model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
model("những gói cước năm g mobifone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời so với mạng bốn g thì tốc độ truy cập mạng 5 g mobifone được nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần")
このモデルは、任意の長さのベトナム語テキストに対応しています。
📦 インストール
ハブからファイルをダウンロード
import os
import shutil
import sys
from huggingface_hub import snapshot_download
cache_dir = "./capu"
def download_files(repo_id, cache_dir=None, ignore_regex=None):
download_dir = snapshot_download(repo_id=repo_id, cache_dir=cache_dir, ignore_regex=ignore_regex)
if cache_dir is None or download_dir == cache_dir:
return download_dir
file_names = os.listdir(download_dir)
for file_name in file_names:
shutil.move(os.path.join(download_dir, file_name), cache_dir)
os.rmdir(download_dir)
return cache_dir
cache_dir = download_files(repo_id="dragonSwing/xlm-roberta-capu", cache_dir=cache_dir, ignore_regex=["*.json", "*.bin"])
sys.path.append(cache_dir)
📚 ドキュメント
📦 学習データ
このモデルのファインチューニングに使用したテキストサンプルの数は以下の通りです。
属性 |
详情 |
言語 |
ベトナム語 |
テキストサンプル数 |
5,600,000 |
🎯 精度
以下は、10,000のホールドアウトテキストサンプルに対する各ラベルのモデルの性能の内訳です。
ラベル |
適合率 |
再現率 |
F1値 |
サポート数 |
Upper |
0.89 |
0.90 |
0.89 |
56497 |
Complex-Upper |
0.93 |
0.83 |
0.88 |
480 |
. |
0.81 |
0.84 |
0.82 |
18139 |
, |
0.69 |
0.75 |
0.72 |
22961 |
: |
0.76 |
0.60 |
0.67 |
1432 |
? |
0.82 |
0.75 |
0.78 |
1730 |
none |
0.99 |
0.99 |
0.99 |
475611 |
📄 ライセンス
このモデルは、CC BY-SA 4.0ライセンスの下で提供されています。