O

Owsm Ctc V3.1 1B

espnetによって開発
OWSM-CTCは、階層型マルチタスク自己条件付きCTCに基づく純粋なエンコーダー音声基盤モデルで、多言語音声認識、音声翻訳、言語識別をサポートします。
ダウンロード数 116
リリース時間 : 2/23/2024

モデル概要

このモデルは180k時間の公開音声データでトレーニングされ、オープンWhisperスタイル音声モデル(OWSM)プロジェクトの設計に従い、多言語音声認識、任意から任意への音声翻訳、言語識別をサポートします。

モデル特徴

マルチタスク学習
音声認識、音声翻訳、言語識別の3つのタスクをサポート
大規模トレーニング
180k時間の公開音声データでトレーニング
効率的な推論
バッチ推論と長音声処理能力を提供
CTC強制アライメント
ctc-segmentationを使用した効率的なタイムスタンプアライメントをサポート

モデル能力

多言語音声認識
任意から任意への音声翻訳
言語識別
バッチ音声処理
長音声分割処理
CTCタイムスタンプアライメント

使用事例

音声テキスト化
会議議事録の転記
会議録音を文字記録に変換
高精度な転記テキスト
音声翻訳
リアルタイム音声翻訳
ある言語の音声を別の言語のテキストにリアルタイムで翻訳
スムーズな異言語コミュニケーション
音声分析
言語識別
音声中の言語タイプを識別
正確な言語分類
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase