xlm-roberta-capu開源越南語標點恢復模型 - 精準預測純小寫文本標點與大寫形式

首頁

Xlm Roberta Capu

由dragonSwing開發

基於XLM-RoBERTa微調的越南語標點恢復模型，可預測純小寫文本的標點符號和大寫形式

序列標註

Transformers

其他#越南語文本修復 #ASR後處理 #多標點預測

下載量 1,722

發布時間 : 5/11/2022

模型概述

該模型用於恢復越南語文本中的標點符號和大寫形式，適用於語音識別輸出或其他丟失標點的文本處理場景。支持恢復常見標點符號（. , : ?）和複雜單詞的大寫形式。

模型特點

多標點恢復

支持恢復句號、逗號、冒號和問號四種常見標點符號

智能大寫轉換

能準確還原複雜專有名詞的大寫形式，如YouTube、MobiFone等

長文本處理

可處理任意長度的越南語文本，內置分塊處理機制

高準確率

在測試集上達到0.89的F1值，專有名詞識別準確率達0.93

模型能力

文本標點恢復

大小寫轉換

越南語文本處理

語音識別後處理

使用案例

語音識別後處理

ASR輸出文本規範化

將語音識別系統輸出的無標點小寫文本轉換為規範格式

提升ASR輸出文本的可讀性和專業性

文本預處理

社交媒體文本規範化

處理社交媒體中的非規範化越南語文本

使非正式文本符合正式寫作規範

🚀 XLM - RoBERTa 大小寫與標點恢復模型

本項目是一個基於 [XLM - RoBERTa](https://huggingface.co/xlm - roberta - base) 微調的模型，用於在 [OSCAR - 2109](https://huggingface.co/datasets/oscar - corpus/OSCAR - 2109) 數據集上進行越南語的標點恢復。該模型能夠預測純小寫文本的標點和大小寫，例如可用於自動語音識別（ASR）輸出或文本標點丟失的場景。此模型既可以直接作為通用越南語的標點恢復模型使用，也可以在特定領域文本上進一步微調以完成標點恢復任務。模型可以恢復以下標點：[. , : ? ]，還能恢復像 YouTube、MobiFone 這類單詞的複雜大小寫。

🚀 快速開始

下載文件

import os
import shutil
import sys
from huggingface_hub import snapshot_download
cache_dir = "./capu"
def download_files(repo_id, cache_dir=None, ignore_regex=None):
    download_dir = snapshot_download(repo_id=repo_id, cache_dir=cache_dir, ignore_regex=ignore_regex)
    if cache_dir is None or download_dir == cache_dir:
        return download_dir
    file_names = os.listdir(download_dir)
    for file_name in file_names:
        shutil.move(os.path.join(download_dir, file_name), cache_dir)
    os.rmdir(download_dir)
    return cache_dir
cache_dir = download_files(repo_id="dragonSwing/xlm - roberta - capu", cache_dir=cache_dir, ignore_regex=["*.json", "*.bin"])
sys.path.append(cache_dir)

示例代碼

import os
from gec_model import GecBERTModel
model = GecBERTModel(
    vocab_path=os.path.join(cache_dir, "vocabulary"),
    model_paths="dragonSwing/xlm - roberta - capu",
    split_chunk=True
)
model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
# 始終返回輸出列表。
# ['Theo đó, Thủ tướng dự kiến tiếp Bộ trưởng Nông nghiệp Mỹ Tom Wilsack, Bộ trưởng Thương mại Mỹ Gina Raimondo, Bộ trưởng Tài chính Janet Yellen, gặp gỡ Thượng nghị sĩ Patrick Leahy và một số nghị sĩ Mỹ khác.']
model("những gói cước năm g mobifone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời so với mạng bốn g thì tốc độ truy cập mạng 5 g mobifone được nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần")
# ['Những gói cước 5G MobiFone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời. So với mạng 4G thì tốc độ truy cập mạng 5G MobiFone được Nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần.']