ruT5-ASRオープンソースモデル - 無料でロシア語自動音声認識出力のエラーを修正

ホーム

Rut5 ASR

bond005によって開発

ruT5-baseアーキテクチャに基づいて訓練されたモデルで、ロシア語自動音声認識(ASR)出力の誤りを修正するために使用されます

テキスト生成

Transformers

その他オープンソースライセンス:Apache-2.0 #ロシア語ASR誤り訂正 #ruT5ベース #音声認識後処理

ダウンロード数 62

リリース時間 : 4/6/2023

モデル概要

このモデルは特にロシア語自動音声認識システムの出力誤りを修正するために設計されており、特にWav2Vec2-Large-Ru-Golosモデルの出力結果に焦点を当てています。

モデル特徴

ロシア語ASR誤り訂正

ロシア語自動音声認識システムの出力に対して特化した誤り訂正と最適化を行います

ruT5アーキテクチャベース

強力なruT5-baseアーキテクチャを利用してシーケンス・ツー・シーケンスのテキスト生成を行います

複数データセット評価

Golos、Common Voiceなど複数のロシア語データセットで包括的な評価を行っています

モデル能力

ロシア語テキスト修正

ASR出力最適化

シーケンス・ツー・シーケンステキスト生成

使用事例

音声認識後処理

ASR出力修正

自動音声認識システムが出力したロシア語テキストの誤りを修正します

複数のデータセットで単語誤り率(WER)を大幅に低減しました

音声転写最適化

ロシア語音声転写テキストの正確性と可読性を向上させます

Common VoiceデータセットでWERを18.55%から11.60%に低減しました

🚀 ruT5-ASR

このモデルは、ASRの出力（特にWav2Vec2-Large-Ru-Golosの出力）の誤りを修正するために、bond005によって訓練されました。モデルはruT5-baseに基づいています。

🚀 クイックスタート

✨ 主な機能

このモデルは、ASR出力の誤りを修正するために使用されます。具体的には、Wav2Vec2-Large-Ru-Golosの出力の誤りを修正することができます。

📦 インストール

このモデルを使用するには、transformersとtorchライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers torch

💻 使用例

基本的な使用法

ASR出力を修正するために、このモデルを以下のように独立したシーケンス-to-シーケンスモデルとして使用できます。

from transformers import T5ForConditionalGeneration, T5Tokenizer
import torch


def rescore(text: str, tokenizer: T5Tokenizer,
            model: T5ForConditionalGeneration) -> str:
    if len(text) == 0:  # if an input text is empty, then we return an empty text too
        return ''
    ru_letters = set('аоуыэяеёюибвгдйжзклмнпрстфхцчшщьъ')
    punct = set('.,:/\\?!()[]{};"\'-')
    x = tokenizer(text, return_tensors='pt', padding=True).to(model.device)
    max_size = int(x.input_ids.shape[1] * 1.5 + 10)
    min_size = 3
    if x.input_ids.shape[1] <= min_size:
        return text  # we don't rescore a very short text
    out = model.generate(**x, do_sample=False, num_beams=5,
                         max_length=max_size, min_length=min_size)
    res = tokenizer.decode(out[0], skip_special_tokens=True).lower().strip()
    res = ' '.join(res.split())
    postprocessed = ''
    for cur in res:
        if cur.isspace() or (cur in punct):
            postprocessed += ' '
        elif cur in ru_letters:
            postprocessed += cur
    return (' '.join(postprocessed.strip().split())).replace('ё', 'е')


# load model and tokenizer
tokenizer_for_rescoring = T5Tokenizer.from_pretrained('bond005/ruT5-ASR')
model_for_rescoring = T5ForConditionalGeneration.from_pretrained('bond005/ruT5-ASR')
if torch.cuda.is_available():
    model_for_rescoring = model_for_rescoring.cuda()

input_examples = [
    'уласны в москве интерне только в большом году что лепровели',
    'мороз и солнце день чудесный',
    'нейро сети эта харошо',
    'да'
]

for src in input_examples:
    rescored = rescore(src, tokenizer_for_rescoring, model_for_rescoring)
    print(f'{src} -> {rescored}')

出力例

уласны в москве интерне только в большом году что лепровели -> у нас в москве интернет только в прошлом году что ли провели
мороз и солнце день чудесный -> мороз и солнце день чудесный
нейро сети эта харошо -> нейросети это хорошо
да -> да

🔧 技術詳細

このモデルは、SberDevices Golos、Common Voice 6.0（ロシア語部分）、およびRussian Librispeechのテストサブセットで評価されましたが、訓練はSberDevices Golosの訓練サブセットのみで行われました。他のデータセット（Russian LibrispeechやSOVA RuDevicesを含む）の評価スクリプトは、私のKaggleページhttps://www.kaggle.com/code/bond005/wav2vec2-t5-ru-eval で見ることができます。

📚 ドキュメント

評価結果

「純粋な」Wav2Vec2-Large-Ru-Golosとの比較（WER, %）:

データセット名	純粋なASR	リスコアリング付きASR
Voxforge Ru	27.08	40.48
Russian LibriSpeech	21.87	23.77
Sova RuDevices	25.41	20.13
Golos Crowd	10.14	9.42
Golos Farfield	20.35	17.99
CommonVoice Ru	18.55	11.60