Ja Cascaded S2t Translation
これはカスケード方式に基づく日本語音声から任意のターゲット言語テキストへの翻訳パイプラインで、自動音声認識(ASR)とテキスト翻訳の2つの部分で構成されています。
ダウンロード数 60
リリース時間 : 9/25/2024
モデル概要
このパイプラインは kotoba-tech/kotoba-whisper-v2.0 を使用して日本語音声認識(日本語音声 -> 日本語テキスト)を行い、facebook/nllb-200-3.3B を使用してテキスト翻訳を行います。入力は日本語音声でなければならず、翻訳はNLLBが学習した任意の言語に可能です。
モデル特徴
高精度
日本語音声から英語テキストへの翻訳タスクにおいて、OpenAI Whisperモデルと比較して単語誤り率(WER)が低い。
多言語サポート
日本語音声をNLLBモデルが学習した任意のターゲット言語に翻訳可能。
モジュール設計
カスケード方式を採用しており、ASRや翻訳モジュールを柔軟に交換可能。
効率的な推論
長い音声でも高速な推論速度を維持。
モデル能力
日本語音声認識
多言語テキスト翻訳
音声処理
使用事例
音声翻訳
日本語会議議事録翻訳
日本語会議録音をリアルタイムで英語や他の言語テキストに翻訳。
CoVoST2データセットで64.3 WERを達成
日本語教育
日本語学習者が日本語音声を母国語テキストに変換するのを支援。
多言語コンテンツ作成
ポッドキャスト多言語字幕生成
日本語ポッドキャストコンテンツを自動的に複数言語の字幕に翻訳。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98