O

Owsm Ctc V3.2 Ft 1B

espnetによって開発
OWSM-CTCは階層型マルチタスク自己条件付きCTCに基づくエンコーダ専用音声基礎モデルで、多言語音声認識、音声翻訳、言語識別をサポートします。
ダウンロード数 110
リリース時間 : 9/24/2024

モデル概要

このモデルは180k時間の公開音声データでトレーニングされ、多言語音声認識、任意から任意への音声翻訳、言語識別をサポートし、オープンWhisperスタイル音声モデル(OWSM)プロジェクトの一部です。

モデル特徴

マルチタスクサポート
音声認識、音声翻訳、言語識別の3つのタスクを同時にサポート
大規模トレーニング
180k時間の公開音声データに基づくトレーニング
効率的な推論
バッチ推論と長時間音声処理能力を提供
CTC強制アライメント
ctc-segmentationを使用した音声とテキストのアライメントをサポート

モデル能力

多言語音声認識
任意から任意への音声翻訳
言語識別
長時間音声処理
バッチ推論

使用事例

音声文字起こし
会議議事録自動文字起こし
会議録音を自動的に文字記録に変換
複数言語の正確な文字起こしをサポート
音声翻訳
リアルタイム音声翻訳
ある言語の音声を別の言語のテキストにリアルタイム翻訳
任意の言語間の翻訳をサポート
音声分析
言語識別
音声で使用されている言語を識別
複数言語を識別可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase