🚀 rinna/japanese-hubert-base
このモデルは、株式会社リンナによって学習された日本語のHuBERT Baseモデルです。音声認識や音声処理のタスクに役立ちます。
🚀 クイックスタート
このセクションでは、rinna/japanese-hubert-base
モデルの基本的な使い方を説明します。
import soundfile as sf
from transformers import AutoFeatureExtractor, AutoModel
model_name = "rinna/japanese-hubert-base"
feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
model.eval()
raw_speech_16kHz, sr = sf.read(audio_file)
inputs = feature_extractor(
raw_speech_16kHz,
return_tensors="pt",
sampling_rate=sr,
)
outputs = model(**inputs)
print(f"Input: {inputs.input_values.size()}")
print(f"Output: {outputs.last_hidden_state.size()}")
fairseqのチェックポイントファイルはこちらから取得できます。
✨ 主な機能
モデル概要
このモデルのアーキテクチャは、元のHuBERT Baseモデルと同じで、12個のトランスフォーマー層と12個のアテンションヘッドを持っています。モデルは公式リポジトリのコードを使用して学習され、詳細な学習設定は同じリポジトリと元の論文に記載されています。
学習
このモデルは、約19,000時間の日本語音声コーパスReazonSpeech v1を使用して学習されました。
貢献者
リリース日
2023年4月28日
📚 ドキュメント
引用方法
このモデルを引用する場合は、以下のBibTeXを使用してください。
@misc{rinna-japanese-hubert-base,
title = {rinna/japanese-hubert-base},
author = {Hono, Yukiya and Mitsui, Kentaro and Sawada, Kei},
url = {https://huggingface.co/rinna/japanese-hubert-base}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
参考文献
@article{hsu2021hubert,
author = {Hsu, Wei-Ning and Bolte, Benjamin and Tsai, Yao-Hung Hubert and Lakhotia, Kushal and Salakhutdinov, Ruslan and Mohamed, Abdelrahman},
journal = {IEEE/ACM Transactions on Audio, Speech, and Language Processing},
title = {HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units},
year = {2021},
volume = {29},
pages = {3451-3460},
doi = {10.1109/TASLP.2021.3122291}
}
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。