stt_fa_fastconformer_hybrid_largeオープンソースモデル - ペルシャ語の自動音声の高速かつ正確な認識を支援

ホーム

Stt Fa Fastconformer Hybrid Large

nvidiaによって開発

これはペルシャ語の自動音声認識(ASR)向けのハイブリッドモデルで、センサーとCTCデコーダーの損失を組み合わせ、FastConformerアーキテクチャに基づいて最適化されています。

音声認識

PyTorch

その他#ペルシャ語音声認識 #ハイブリッドセンサー-CTC #高精度転写

ダウンロード数 2,398

リリース時間 : 11/21/2023

モデル概要

このモデルはペルシャ語の音声をテキストに転写するために使用され、FastConformerセンサー-CTCモデルの'大規模'バージョンで、1億1500万のパラメータを持ちます。

モデル特徴

ハイブリッドトレーニング

センサーとCTCデコーダーの損失を同時に使用してトレーニングし、モデルの堅牢性を向上

最適化アーキテクチャ

FastConformerアーキテクチャに基づき、8倍の深さ分離可能な畳み込みダウンサンプリングを実装

高精度

ペルシャ語テストセットで13.16% WERと3.85% CERの優れた性能を達成

モデル能力

ペルシャ語音声認識

音声転写

リアルタイム音声処理

使用事例

音声からテキストへ

ペルシャ語音声転写

ペルシャ語音声をテキストに変換

CommonVoiceテストセットで13.16% WERを達成

音声アシスタント

ペルシャ語音声コマンド認識

ペルシャ語音声アシスタントの開発に使用

🚀 NVIDIA FastConformer-Hybrid Large (fa)

このモデルは、ペルシャ語の音声を文字起こしします。FastConformer Transducer-CTCの「ラージ」バージョン（約1億1500万のパラメータ）で、Transducer（デフォルト）とCTCの2つの損失関数で学習されたハイブリッドモデルです。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

| | |

🚀 クイックスタート

このモデルを使用するには、まずNVIDIA NeMoをインストールする必要があります。最新バージョンのPytorchをインストールした後、以下のコマンドを実行します。

pip install nemo_toolkit['all']

✨ 主な機能

ペルシャ語の音声を文字起こしすることができます。
FastConformer Transducer-CTCの「ラージ」バージョンで、約1億1500万のパラメータを持ちます。
Transducer（デフォルト）とCTCの2つの損失関数で学習されたハイブリッドモデルです。

📦 インストール

NVIDIA NeMoのインストール

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecHybridRNNTCTCBPEModel.from_pretrained(model_name="nvidia/stt_fa_fastconformer_hybrid_large")

音声ファイルの文字起こし

output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

複数の音声ファイルの文字起こし

Transducerモードでの推論

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fa_fastconformer_hybrid_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

CTCモードでの推論

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fa_fastconformer_hybrid_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
 decoder_type="ctc"

📚 ドキュメント

入力

このモデルは、16000 Hzのモノラルチャンネルの音声ファイル（wav形式）を入力として受け付けます。

出力

このモデルは、与えられた音声サンプルに対して文字起こしされた文字列を出力します。

🔧 技術詳細

モデルアーキテクチャ

FastConformer [1] は、Conformerモデルの最適化バージョンで、8倍の深さ方向分離畳み込みダウンサンプリングを備えています。このモデルは、TransducerとCTCのデコーダ損失を同時に使用するマルチタスク設定で学習されています。FastConformerの詳細については、Fast-Conformer Model を、Hybrid Transducer-CTCの学習については、Hybrid Transducer-CTC を参照してください。

学習

NeMoツールキット [3] を使用して、数百エポック以上の学習を行いました。これらのモデルは、このサンプルスクリプトとこのベースコンフィグを使用して学習されました。

これらのモデルのトークナイザーは、学習セットのテキストトランスクリプトを使用して、このスクリプトで構築されました。

このモデルは、英語のFastConformer Hybrid (Transducer and CTC) Large P&Cモデルの重みで初期化され、ペルシャ語のデータでファインチューニングされました。

データセット

このモデルは、Mozilla CommonVoice Persian Corpus 15.0で学習されました。

検証済みのデータ全体を活用するために、標準の学習/検証/テスト分割は破棄され、カスタム分割に置き換えられました。カスタム分割は、以下の手順で再現できます。

同一のトランスクリプトを持つ発話をグループ化し、（トランスクリプトの占有率、トランスクリプト）のペアで発話を（昇順に）ソートする。
最初の10540個の発話をテストセットに選択する（元のサイズを維持するため）。
2番目の10540個の発話を検証セットに選択する。
残りのデータを学習セットに選択する。

トランスクリプトは、以下のスクリプトに従ってさらに正規化されました（空の結果は破棄されました）。

import unicodedata
import string

SKIP = set(
    list(string.ascii_letters)
    + [
        "=",  # occurs only 2x in utterance (transl.): "twenty = xx"
        "ā",  # occurs only 4x together with "š"
        "š",
        # Arabic letters
        "ة",  # TEH MARBUTA
    ]
)

DISCARD = [
    # "(laughter)" in Farsi
    "(خنده)",
    # ASCII
    "!",
    '"',
    "#",
    "&",
    "'",
    "(",
    ")",
    ",",
    "-",
    ".",
    ":",
    ";",
    # Unicode punctuation?
    "–",
    "“",
    "”",
    "…",
    "؟",
    "،",
    "؛",
    "ـ",
    # Unicode whitespace?
    "ً",
    "ٌ",
    "َ",
    "ُ",
    "ِ",
    "ّ",
    "ْ",
    "ٔ",
    # Other
    "«",
    "»",
]

REPLACEMENTS = {
    "أ": "ا",
    "ۀ": "ە",
    "ك": "ک",
    "ي": "ی",
    "ى": "ی",
    "ﯽ": "ی",
    "ﻮ": "و",
    "ے": "ی",
    "ﺒ": "ب",
    "ﻢ": "ﻡ",
    "٬": " ",
    "ە": "ه",
}


def maybe_normalize(text: str) -> str | None:

    # Skip selected with banned characters
    if set(text) & SKIP:
        return None  # skip this

    # Remove hashtags - they are not being read in Farsi CV
    text = " ".join(w for w in text.split() if not w.startswith("#"))

    # Replace selected characters with others
    for lhs, rhs in REPLACEMENTS.items():
        text = text.replace(lhs, rhs)

    # Replace selected characters with empty strings
    for tok in DISCARD:
        text = text.replace(tok, "")

    # Unify the symbols that have the same meaning but different Unicode representation.
    text = unicodedata.normalize("NFKC", text)

    # Remove hamza's that were not merged with any letter by NFKC.
    text = text.replace("ء", "")

    # Remove double whitespace etc.
    return " ".join(t for t in text.split() if t)