O

Owsm Ctc V3.1 1B

Developed by espnet
OWSM-CTCは、階層型マルチタスク自己条件付きCTCに基づく純粋なエンコーダー音声基盤モデルで、多言語音声認識、音声翻訳、言語識別をサポートします。
Downloads 116
Release Time : 2/23/2024

Model Overview

このモデルは180k時間の公開音声データでトレーニングされ、オープンWhisperスタイル音声モデル(OWSM)プロジェクトの設計に従い、多言語音声認識、任意から任意への音声翻訳、言語識別をサポートします。

Model Features

マルチタスク学習
音声認識、音声翻訳、言語識別の3つのタスクをサポート
大規模トレーニング
180k時間の公開音声データでトレーニング
効率的な推論
バッチ推論と長音声処理能力を提供
CTC強制アライメント
ctc-segmentationを使用した効率的なタイムスタンプアライメントをサポート

Model Capabilities

多言語音声認識
任意から任意への音声翻訳
言語識別
バッチ音声処理
長音声分割処理
CTCタイムスタンプアライメント

Use Cases

音声テキスト化
会議議事録の転記
会議録音を文字記録に変換
高精度な転記テキスト
音声翻訳
リアルタイム音声翻訳
ある言語の音声を別の言語のテキストにリアルタイムで翻訳
スムーズな異言語コミュニケーション
音声分析
言語識別
音声中の言語タイプを識別
正確な言語分類
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase