J

Ja Cascaded S2t Translation

japanese-asrによって開発
これはカスケード方式に基づく日本語音声から任意のターゲット言語テキストへの翻訳パイプラインで、自動音声認識(ASR)とテキスト翻訳の2つの部分で構成されています。
ダウンロード数 60
リリース時間 : 9/25/2024

モデル概要

このパイプラインは kotoba-tech/kotoba-whisper-v2.0 を使用して日本語音声認識(日本語音声 -> 日本語テキスト)を行い、facebook/nllb-200-3.3B を使用してテキスト翻訳を行います。入力は日本語音声でなければならず、翻訳はNLLBが学習した任意の言語に可能です。

モデル特徴

高精度
日本語音声から英語テキストへの翻訳タスクにおいて、OpenAI Whisperモデルと比較して単語誤り率(WER)が低い。
多言語サポート
日本語音声をNLLBモデルが学習した任意のターゲット言語に翻訳可能。
モジュール設計
カスケード方式を採用しており、ASRや翻訳モジュールを柔軟に交換可能。
効率的な推論
長い音声でも高速な推論速度を維持。

モデル能力

日本語音声認識
多言語テキスト翻訳
音声処理

使用事例

音声翻訳
日本語会議議事録翻訳
日本語会議録音をリアルタイムで英語や他の言語テキストに翻訳。
CoVoST2データセットで64.3 WERを達成
日本語教育
日本語学習者が日本語音声を母国語テキストに変換するのを支援。
多言語コンテンツ作成
ポッドキャスト多言語字幕生成
日本語ポッドキャストコンテンツを自動的に複数言語の字幕に翻訳。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase