xlm - roberta - capuオープンソースベトナム語句読点復元モデル - 純粋な小文字テキストの句読点と大文字形式を精度よく予測

ホーム

Xlm Roberta Capu

dragonSwingによって開発

XLM-RoBERTaをファインチューニングしたベトナム語句読点復元モデルで、小文字テキストの句読点と大文字形式を予測可能

シーケンスラベリング

Transformers

その他#ベトナム語テキスト修復 #ASR後処理 #複数句読点予測

ダウンロード数 1,722

リリース時間 : 5/11/2022

モデル概要

このモデルはベトナム語テキストの句読点と大文字形式を復元するために使用され、音声認識出力や句読点が失われたテキスト処理シナリオに適しています。一般的な句読点（. , : ?）や複雑な単語の大文字形式の復元をサポートします。

モデル特徴

複数句読点復元

句点、読点、コロン、疑問符の4つの一般的な句読点を復元可能

インテリジェント大文字変換

YouTubeやMobiFoneなどの複雑な固有名詞の大文字形式を正確に復元

長文処理

任意の長さのベトナム語テキストを処理可能で、内蔵のチャンク処理メカニズムを備える

高精度

テストセットでF1値0.89を達成、固有名詞認識精度は0.93

モデル能力

テキスト句読点復元

大文字小文字変換

ベトナム語テキスト処理

音声認識後処理

使用事例

音声認識後処理

ASR出力テキスト正規化

音声認識システムが出力した句読点なし小文字テキストを規範形式に変換

ASR出力テキストの可読性と専門性を向上

テキスト前処理

ソーシャルメディアテキスト正規化

ソーシャルメディアの非規範的ベトナム語テキストを処理

非公式テキストを公式執筆規範に適合させる

🚀 xlm-roberta-capitalization-punctuation

このモデルは、OSCAR-2109 データセットを使用してベトナム語の句読点復元のためにファインチューニングされた XLM-RoBERTa モデルです。このモデルは、小文字の平文テキストの句読点と大文字化を予測します。具体的な使用例としては、音声認識（ASR）の出力や、句読点が失われたテキストの場合が考えられます。このモデルは、一般的なベトナム語の句読点復元モデルとして直接使用することを想定しています。また、特定ドメインのテキストに対する句読点復元タスクでのさらなるファインチューニングにも使用できます。このモデルは、[. , : ? ] といった句読点を復元し、YouTube、MobiFone のような単語の複雑な大文字化も復元します。

🚀 クイックスタート

モデルの使用方法

以下は、このモデルをすぐに使い始めるための手順です。

💻 使用例

基本的な使用法

import os
import shutil
import sys
from huggingface_hub import snapshot_download
cache_dir = "./capu"
def download_files(repo_id, cache_dir=None, ignore_regex=None):
    download_dir = snapshot_download(repo_id=repo_id, cache_dir=cache_dir, ignore_regex=ignore_regex)
    if cache_dir is None or download_dir == cache_dir:
        return download_dir
    file_names = os.listdir(download_dir)
    for file_name in file_names:
        shutil.move(os.path.join(download_dir, file_name), cache_dir)
    os.rmdir(download_dir)
    return cache_dir
cache_dir = download_files(repo_id="dragonSwing/xlm-roberta-capu", cache_dir=cache_dir, ignore_regex=["*.json", "*.bin"])
sys.path.append(cache_dir)

高度な使用法

import os
from gec_model import GecBERTModel
model = GecBERTModel(
    vocab_path=os.path.join(cache_dir, "vocabulary"),
    model_paths="dragonSwing/xlm-roberta-capu",
    split_chunk=True
)
model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
# Always return list of outputs.
# ['Theo đó, Thủ tướng dự kiến tiếp Bộ trưởng Nông nghiệp Mỹ Tom Wilsack, Bộ trưởng Thương mại Mỹ Gina Raimondo, Bộ trưởng Tài chính Janet Yellen, gặp gỡ Thượng nghị sĩ Patrick Leahy và một số nghị sĩ Mỹ khác.']
model("những gói cước năm g mobifone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời so với mạng bốn g thì tốc độ truy cập mạng 5 g mobifone được nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần")
# ['Những gói cước 5G MobiFone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời. So với mạng 4G thì tốc độ truy cập mạng 5G MobiFone được Nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần.']

このモデルは、任意の長さのベトナム語テキストに対応しています。

📦 インストール

ハブからファイルをダウンロード

import os
import shutil
import sys
from huggingface_hub import snapshot_download
cache_dir = "./capu"
def download_files(repo_id, cache_dir=None, ignore_regex=None):
    download_dir = snapshot_download(repo_id=repo_id, cache_dir=cache_dir, ignore_regex=ignore_regex)
    if cache_dir is None or download_dir == cache_dir:
        return download_dir
    file_names = os.listdir(download_dir)
    for file_name in file_names:
        shutil.move(os.path.join(download_dir, file_name), cache_dir)
    os.rmdir(download_dir)
    return cache_dir
cache_dir = download_files(repo_id="dragonSwing/xlm-roberta-capu", cache_dir=cache_dir, ignore_regex=["*.json", "*.bin"])
sys.path.append(cache_dir)

📚 ドキュメント

📦 学習データ

このモデルのファインチューニングに使用したテキストサンプルの数は以下の通りです。

属性	详情
言語	ベトナム語
テキストサンプル数	5,600,000

🎯 精度

以下は、10,000のホールドアウトテキストサンプルに対する各ラベルのモデルの性能の内訳です。

ラベル	適合率	再現率	F1値	サポート数
Upper	0.89	0.90	0.89	56497
Complex-Upper	0.93	0.83	0.88	480
.	0.81	0.84	0.82	18139
,	0.69	0.75	0.72	22961
:	0.76	0.60	0.67	1432
?	0.82	0.75	0.78	1730
none	0.99	0.99	0.99	475611