オープンソースのkushinada - hubert - baseモデルを提供し、無料でデプロイして日本語の音声特徴抽出に利用できます！

ホーム

Kushinada Hubert Base

imprtによって開発

62,215時間の日本のテレビ放送音声データに基づいて事前学習された日本語音声特徴抽出モデル

音声認識

PyTorch

日本語オープンソースライセンス:Apache-2.0 #日本語音声特徴抽出 #大規模事前学習 #テレビ放送音声

ダウンロード数 1,922

リリース時間 : 3/7/2025

モデル概要

これは日本語音声に特化して設計されたHuBERT基本モデルで、大規模な日本のテレビ放送音声データを用いて事前学習されており、音声特徴抽出タスクに適しています。

モデル特徴

大規模事前学習データ

62,215時間の日本のテレビ放送音声データを使用して事前学習されており、モデルが日本語音声を深く理解できるようになっています

専門的な音声特徴抽出

HuBERTアーキテクチャに基づいて最適化されており、日本語音声の高度な特徴表現を抽出するために特別に設計されています

テレビ放送分野への適応

訓練データはテレビ放送から取得されており、正式な話し言葉や放送音声に適応性があります

モデル能力

日本語音声特徴抽出

音声活動検出

音声表現学習

使用事例

音声処理

音声認識前処理

日本語音声認識システムのフロントエンド特徴抽出モジュールとして使用

音声内容分析

テレビ放送内容の音声特徴を分析するために使用

🚀 `imprt/kushinada-hubert-base`

このモデルは、大規模な日本語のテレビ放送音声データから音声活動検出によって抽出された62215時間の音声を使用して事前学習された日本語のHuBERT Baseモデルです。
このモデルは、公式リポジトリのコードを使用して学習されました。

🚀 クイックスタート

このモデルをダウンロードする前に、Apache License, Version 2.0をお読みください。

必要事項

項目	詳細
モデルタイプ	特徴抽出
学習データ	大規模な日本語のテレビ放送音声データから音声活動検出によって抽出された62215時間の音声

ゲート付き情報

国: 国名を入力してください。
所属: 所属機関などを入力してください。
同意事項: Apache License, Version 2のすべての記述に同意する場合はチェックを入れてください。

ライセンス承認

ライセンスに同意する場合は、「Acknowledge license」ボタンをクリックしてください。

💻 使用例

基本的な使用法

import soundfile as sf
from transformers import AutoFeatureExtractor
model = "imprt/kushinada-hubert-base"
feature_extractor = AutoFeatureExtractor.from_pretrained(model)
audio_file="/path/to/16k_audio_file"
audio_input, sr = sf.read(audio_file)
feature_extractor(audio_input, sampling_rate=sr)

📚 ドキュメント

参考文献

@article{journals/corr/abs-2106-07447,
  added-at = {2021-06-16T00:00:00.000+0200},
  author = {Hsu, Wei-Ning and Bolte, Benjamin and Tsai, Yao-Hung Hubert and Lakhotia, Kushal and Salakhutdinov, Ruslan and Mohamed, Abdelrahman},
  biburl = {https://www.bibsonomy.org/bibtex/2435bd8c9ac37a4eab204ded15e9f8918/dblp},
  ee = {https://arxiv.org/abs/2106.07447},
  interhash = {c85407653eddc9c9256c261afe8d6954},
  intrahash = {435bd8c9ac37a4eab204ded15e9f8918},
  journal = {CoRR},
  keywords = {dblp},
  timestamp = {2024-04-08T22:55:35.000+0200},
  title = {HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units.},
  url = {http://dblp.uni-trier.de/db/journals/corr/corr2106.html#abs-2106-07447},
  volume = {abs/2106.07447},
  year = 2021
}