O

Owls 4B 180K

espnetによって開発
OWLSはWhisperスタイルのモデルスイートで、研究者が音声モデルのスケーリング特性を理解するのを助けることを目的としており、多言語音声認識と翻訳をサポートします。
ダウンロード数 40
リリース時間 : 2/14/2025

モデル概要

OWLSモデルはESPnetを使用して開発され、多言語音声認識、音声翻訳、発話レベルアライメント、長文転写、言語識別をサポートします。

モデル特徴

多言語サポート
複数の言語の音声認識と翻訳タスクをサポートします。
大規模トレーニング
最大360K時間の公開音声データでトレーニングされています。
多様なタスクサポート
音声認識、音声翻訳、発話レベルアライメント、長文転写、言語識別など、さまざまなタスクをサポートします。
オープンソースツールキット
ESPnetを使用して開発されており、完全にオープンソースで、研究者が使用および拡張しやすくなっています。

モデル能力

音声認識
音声翻訳
発話レベルアライメント
長文転写
言語識別

使用事例

音声処理
多言語音声認識
複数の言語の音声をテキストに変換します。
クロスランゲージ音声翻訳
ある言語の音声を別の言語のテキストに翻訳します。
音声分析
発話レベルアライメント
音声内の発話境界と時間アライメントを分析します。
言語識別
音声内の言語タイプを識別します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase