O

Owsm V3.1 Ebf

espnetによって開発
OWSMはオープンソースのWhisperスタイル音声モデルで、公開データとESPnetツールキットを使用して開発され、多言語音声認識や翻訳などのタスクをサポートします。
ダウンロード数 291
リリース時間 : 12/22/2023

モデル概要

OWSMは公開可能なデータとオープンソースツールキットを活用して完全にオープンな音声基礎モデルを開発することを目的としており、音声認識、任意の言語間の音声翻訳、文レベルのアライメント、長文の書き起こし、言語識別など様々なタスクをサポートします。

モデル特徴

オープンソース音声基礎モデル
完全に公開データとオープンソースツールキットに基づいて開発されており、透明性と再現性を確保しています。
改良された音声エンコーダ
先進的なE-Branchformerエンコーダを採用し、前バージョンと比較して性能が大幅に向上しています。
マルチタスクサポート
単一モデルで音声認識、翻訳、アライメント、長文書き起こし、言語識別など様々なタスクをサポートします。
大規模トレーニングデータ
18万時間の公開音声データに基づいてトレーニングされ、様々な言語とシナリオをカバーしています。

モデル能力

音声認識
クロスランゲージ音声翻訳
文レベルアライメント
長文書き起こし
言語識別

使用事例

音声テキスト変換
多言語音声認識
複数言語の音声を対応する言語のテキストに変換します
高品質な多言語書き起こしをサポート
音声翻訳
ある言語の音声を直接別の言語のテキストに翻訳します
クロスランゲージのリアルタイム翻訳を実現
音声分析
言語識別
音声中の言語タイプを自動識別します
複数言語を正確に識別
音声アライメント
音声とテキストを時間的にアライメントします
正確な音声-テキストアライメント情報を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase