owl_4B_180Kオープンソース音声モデル - 多言語認識と翻訳をサポートし、音声研究を支援

ホーム

Owls 4B 180K

espnetによって開発

OWLSはWhisperスタイルのモデルスイートで、研究者が音声モデルのスケーリング特性を理解するのを助けることを目的としており、多言語音声認識と翻訳をサポートします。

音声認識その他#多言語音声認識 #任意言語翻訳 #大規模事前学習

ダウンロード数 40

リリース時間 : 2/14/2025

モデル概要

OWLSモデルはESPnetを使用して開発され、多言語音声認識、音声翻訳、発話レベルアライメント、長文転写、言語識別をサポートします。

モデル特徴

多言語サポート

複数の言語の音声認識と翻訳タスクをサポートします。

大規模トレーニング

最大360K時間の公開音声データでトレーニングされています。

多様なタスクサポート

音声認識、音声翻訳、発話レベルアライメント、長文転写、言語識別など、さまざまなタスクをサポートします。

オープンソースツールキット

ESPnetを使用して開発されており、完全にオープンソースで、研究者が使用および拡張しやすくなっています。

モデル能力

音声認識

音声翻訳

発話レベルアライメント

長文転写

言語識別

使用事例

音声処理

多言語音声認識

複数の言語の音声をテキストに変換します。

クロスランゲージ音声翻訳

ある言語の音声を別の言語のテキストに翻訳します。

音声分析

発話レベルアライメント

音声内の発話境界と時間アライメントを分析します。

言語識別

音声内の言語タイプを識別します。

🚀 OWLS: Open Whisper-style Large-scale neural model Suite

OWLSは、音声モデルのスケーリング特性を研究するために設計された、Whisperスタイルのモデル群です。OWLSモデルのパラメータ数は0.25Bから18Bまでで、最大360K時間のデータで学習されています。

OWLSモデルはESPnetを使用して開発されており、多言語の音声認識と翻訳をサポートしています。

このモデルはOWSMプロジェクトの一部で、公開データとオープンソースツールキットを使用して完全にオープンな音声基礎モデルを開発することを目的としています。

論文

🚀 クイックスタート

このリポジトリ内のモデルは合計46.6億個のパラメータを持ち、18万時間の公開音声データで学習されています。具体的には、以下の音声テキスト変換タスクをサポートしています。

音声認識
任意言語間の音声翻訳
発話レベルのアラインメント
長文の文字起こし
言語識別

✨ 主な機能

OWLSモデルは、音声モデルのスケーリング特性を研究するために設計されています。パラメータ数が0.25Bから18Bまでのモデルがあり、最大360K時間のデータで学習されています。また、多言語の音声認識と翻訳をサポートしています。

📦 インストール

このモデルを使用するには、espnetをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install espnet

💻 使用例

基本的な使用法

# make sure espnet is installed: pip install espnet
from espnet2.bin.s2t_inference import Speech2Text

model = Speech2Text.from_pretrained(
  "espnet/owls_4B_180K"
)

speech, rate = soundfile.read("speech.wav")
speech = librosa.resample(speech, orig_sr=rate, target_sr=16000) # make sure 16k sampling rate
text, *_ = model(speech)[0]

📚 ドキュメント

OWLSモデル一覧

モデル名	チェックポイント	学習アーティファクト
OWLS 0.25B 180K	https://huggingface.co/espnet/owls_025B_180K	TBA
OWLS 0.50B 180K	https://huggingface.co/espnet/owls_05B_180K	https://huggingface.co/espnet/owls_05B_180K_intermediates/tree/main
OWLS 1B 11K	TBA	TBA
OWLS 1B 22K	TBA	TBA
OWLS 1B 45K	TBA	TBA
OWLS 1B 90K	TBA	TBA
OWLS 1B 180K	https://huggingface.co/espnet/owls_1B_180K	TBA
OWLS 2B 180K	https://huggingface.co/espnet/owls_2B_180K	TBA
OWLS 4B 180K	https://huggingface.co/espnet/owls_4B_180K	https://huggingface.co/espnet/owls_4B_180K_intermediates
OWLS 9B 180K	https://huggingface.co/espnet/owls_9B_180K	https://huggingface.co/espnet/owls_9B_180K_intermediates
OWLS 18B 180K	https://huggingface.co/espnet/owls_18B_180K	TBA
OWLS 18B 360K	https://huggingface.co/espnet/owls_18B_360K	TBA

引用

@article{chen2025owls,
  title={OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models},
  author={Chen, William and Tian, Jinchuan and Peng, Yifan and Yan, Brian and Yang, Chao-Han Huck and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2502.10373},
  year={2025}
}