ja-cascaded-s2t-translationオープンソースモデル - 簡単に日本語音声から多言語テキストへの翻訳を実現

ホーム

Ja Cascaded S2t Translation

japanese-asrによって開発

これはカスケード方式に基づく日本語音声から任意のターゲット言語テキストへの翻訳パイプラインで、自動音声認識（ASR）とテキスト翻訳の2つの部分で構成されています。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #日本語音声転写 #多言語翻訳 #カスケードモデル

ダウンロード数 60

リリース時間 : 9/25/2024

モデル概要

このパイプラインは kotoba-tech/kotoba-whisper-v2.0 を使用して日本語音声認識（日本語音声 -> 日本語テキスト）を行い、facebook/nllb-200-3.3B を使用してテキスト翻訳を行います。入力は日本語音声でなければならず、翻訳はNLLBが学習した任意の言語に可能です。

モデル特徴

高精度

日本語音声から英語テキストへの翻訳タスクにおいて、OpenAI Whisperモデルと比較して単語誤り率（WER）が低い。

多言語サポート

日本語音声をNLLBモデルが学習した任意のターゲット言語に翻訳可能。

モジュール設計

カスケード方式を採用しており、ASRや翻訳モジュールを柔軟に交換可能。

効率的な推論

長い音声でも高速な推論速度を維持。

モデル能力

日本語音声認識

多言語テキスト翻訳

音声処理

使用事例

音声翻訳

日本語会議議事録翻訳

日本語会議録音をリアルタイムで英語や他の言語テキストに翻訳。

CoVoST2データセットで64.3 WERを達成

日本語教育

日本語学習者が日本語音声を母国語テキストに変換するのを支援。

多言語コンテンツ作成

ポッドキャスト多言語字幕生成

日本語ポッドキャストコンテンツを自動的に複数言語の字幕に翻訳。

🚀 カスケード型日本語音声テキスト翻訳

このパイプラインは、カスケード方式に基づき、日本語の音声を任意の目的言語のテキストに変換する音声テキスト翻訳パイプラインです。この方式は、自動音声認識（ASR）と翻訳の2つのステップから構成されています。パイプラインは、ASR（日本語音声 -> 日本語テキスト）にはkotoba-tech/kotoba-whisper-v2.0 を、テキスト翻訳には facebook/nllb-200-3.3B を使用しています。入力は日本語の音声である必要があり、翻訳先はNLLBが学習した任意の言語にできます。利用可能なすべての言語とその言語コードは、こちらを参照してください。

英語の音声翻訳用のモデルは en-cascaded-s2t-translation で利用できます。

🚀 クイックスタート

このパイプラインを使えば、日本語の音声を任意の目的言語のテキストに翻訳できます。以下に使用方法の例を示します。

✨ 主な機能

カスケード方式による高精度な音声テキスト翻訳
NLLBを用いた多言語翻訳対応

📦 インストール

このパイプラインは transformers ライブラリを使用しています。transformers がインストールされていない場合は、以下のコマンドでインストールしてください。

pip install transformers

💻 使用例

基本的な使用法

以下は、日本語の音声を英語のテキストに翻訳する例です。まず、サンプル音声をダウンロードします。

wget https://huggingface.co/datasets/japanese-asr/ja_asr.jsut_basic5000/resolve/main/sample.flac -O sample_ja.flac

次に、以下のようにパイプラインを実行します。

from transformers import pipeline

# load model
pipe = pipeline(
    model="japanese-asr/ja-cascaded-s2t-translation",
    model_kwargs={"attn_implementation": "sdpa"},
    model_translation="facebook/nllb-200-distilled-600M",
    tgt_lang="eng_Latn",
    chunk_length_s=15,
    trust_remote_code=True,
)

# translate
output = pipe("./sample_ja.flac")

高度な使用法

他のNLLBモデルを使用する場合は、model_translation を設定することができます。例えば以下のように設定できます。

📚 ドキュメント

ベンチマーク

以下の表は、日本語の音声を英語のテキストに翻訳するタスク（CoVoST2 と Fleurs のサブセット）において、異なるサイズのNLLBモデルとOpenAI Whisperモデルを使用した場合の単語誤り率（WER）を示しています。

モデル	CoVoST2 (Ja->En)	Fleurs (Ja->En)
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-3.3B)	64.3	67.1
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-1.3B)	65.4	68.9
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-distilled-1.3B)	65.6	67.4
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-distilled-600M)	68.2	72.2
openai/whisper-large-v3	71	86.1
openai/whisper-large-v2	66.4	78.8
openai/whisper-large	66.5	86.1
openai/whisper-medium	70.3	97.2
openai/whisper-small	97.3	132.2
openai/whisper-base	186.2	349.6
openai/whisper-tiny	377.2	474

評価の詳細については、https://github.com/kotoba-tech/kotoba-whisper を参照してください。

推論速度

カスケード方式の性質上、このパイプラインは単一のエンドツーエンドのOpenAI Whisperモデルと比較して、高精度を実現するために追加の複雑さがあります。以下の表は、異なる長さの音声サンプルに対して10回の試行で平均した推論時間（秒）を示しています。

モデル	10秒	30秒	60秒	300秒
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-3.3B)	0.173	0.247	0.352	1.772
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-1.3B)	0.173	0.24	0.348	1.515
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-distilled-1.3B)	0.17	0.245	0.348	1.882
japanese-asr/ja-cascaded-s2t-translation (facebook/nllb-200-distilled-600M)	0.108	0.179	0.283	1.33
openai/whisper-large-v3	0.061	0.184	0.372	1.804
openai/whisper-large-v2	0.062	0.199	0.415	1.854
openai/whisper-large	0.062	0.183	0.363	1.899
openai/whisper-medium	0.045	0.132	0.266	1.368
openai/whisper-small	0.135	0.376	0.631	3.495
openai/whisper-base	0.054	0.108	0.231	1.019
openai/whisper-tiny	0.045	0.124	0.208	0.838