izanami - wav2vec2 - largeオープンソース日本語モデル - 放送音声データに基づく音声処理の支援

ホーム

Izanami Wav2vec2 Large

imprtによって開発

大規模な日本のテレビ放送音声データを用いて事前学習された日本語wav2vec2.0 Largeモデル

音声認識

PyTorch

日本語オープンソースライセンス:その他 #日本語音声特徴抽出 #大規模事前学習 #テレビ放送音声

ダウンロード数 89

リリース時間 : 3/7/2025

モデル概要

これは62,215時間の日本のテレビ放送音声データを用いて事前学習された日本語音声特徴抽出モデルで、wav2vec2.0 Largeアーキテクチャを採用しています

モデル特徴

大規模事前学習データ

62,215時間の日本のテレビ放送音声データを使用して事前学習を行いました

日本語最適化

日本語の音声特徴に特化して最適化されています

wav2vec2.0アーキテクチャ

先進的なwav2vec2.0 Largeアーキテクチャを採用しています

モデル能力

音声特徴抽出

日本語音声処理

使用事例

音声処理

日本語音声特徴抽出

日本語音声から高品質な特徴表現を抽出します

🚀 `imprt/izanami-wav2vec2-large`

このモデルは、大規模な日本語のテレビ放送音声データから音声活動検出によって抽出された62215時間の音声を使用して事前学習された日本語のwav2vec2.0 Largeモデルです。
このモデルは、公式リポジトリのコードを使用して学習されました。

🚀 クイックスタート

このモデルをダウンロードする前に、LICENSE.md を必ず読んでください。

ゲート付きフォーム情報

Country: 国名を入力してください。
Affiliation: 所属を入力してください。
I agree ALL the statements in LICENSE md: ライセンスのすべての記述に同意する場合はチェックを入れてください。

ゲート付きボタン

Acknowledge license: ライセンスを承認するにはこのボタンをクリックしてください。

✨ 主な機能

このモデルは、音声特徴抽出 (feature-extraction) のパイプラインに適用できます。
モデルには wav2vec2 と speech のタグが付けられています。

📦 インストール

このモデルを使用するには、transformers と soundfile ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers soundfile

💻 使用例

基本的な使用法

import soundfile as sf
from transformers import AutoFeatureExtractor
model = "imprt/izanami-wav2vec2-large"
feature_extractor = AutoFeatureExtractor.from_pretrained(model)
audio_file="/path/to/16k_audio_file"
audio_input, sr = sf.read(audio_file)
feature_extractor(audio_input, sampling_rate=sr)

📚 ドキュメント

参考文献

@inproceedings{NEURIPS2020_92d1e1eb,
    author = {Baevski, Alexei and Zhou, Yuhao and Mohamed, Abdelrahman and Auli, Michael},
    booktitle = {Advances in Neural Information Processing Systems},
    editor = {H. Larochelle and M. Ranzato and R. Hadsell and M.F. Balcan and H. Lin},
    pages = {12449--12460},
    publisher = {Curran Associates, Inc.},
    title = {wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations},
    url = {https://proceedings.neurips.cc/paper_files/paper/2020/file/92d1e1eb1cd6f9fba3227870bb6d7f07-Paper.pdf},
    volume = {33},
    year = {2020}
}