AV-HuBERT-MuAViCマルチリンガルオープンソース視聴覚音声認識モデル

ホーム

AV HuBERT MuAViC Multilingual

nguyenvulebinhによって開発

MuAViCデータセットを用いて学習された視聴覚音声認識モデルで、音声と視覚のモーダルを組み合わせることで、雑音環境下での認識性能を向上させます。

音声生成テキスト

Transformers

#マルチモーダル音声認識 #視聴覚融合 #多言語対応

ダウンロード数 165

リリース時間 : 3/6/2025

モデル概要

AV-HuBERTは、視聴覚音声認識に用いられる自己教師付きモデルで、音声と視覚の2つのモーダルを利用して強力な音声認識能力を実現し、特に雑音環境下で優れた性能を発揮します。

モデル特徴

マルチモーダル融合

音声と視覚（唇の動き）の情報を同時に利用して音声認識を行います。

多言語対応

英語、フランス語、ロシア語など9種類の言語の認識をサポートします。

雑音耐性

雑音環境下でも高い認識精度を維持します。

事前学習モデル

MuAViCデータセットで微調整された事前学習モデルを提供します。

モデル能力

視聴覚音声認識

多言語音声文字起こし

雑音環境下の音声処理

使用事例

音声認識

会議記録

雑音の多い会議環境で発言内容を正確に記録します。

視覚情報を組み合わせることで認識精度を向上させます。

動画字幕生成

動画内容に自動的に字幕を生成します。

唇の動きの情報を利用して文字起こしの品質を向上させます。

支援技術

聴覚支援

聴覚障害者が音声内容を理解するのを支援します。

視覚情報で音声情報を補完します。

🚀 HuggingfaceによるMuAViCデータセットでのAV - HuBERTの実装

このリポジトリには、MuAViC（Multilingual Audio - Visual Corpus）データセットで訓練およびテストされた、AV - HuBERT（Audio - Visual Hidden Unit BERT）モデルのHuggingface実装が含まれています。AV - HuBERTは、オーディオとビジュアルの両方のモダリティを活用して、特にノイズの多い環境でも堅牢な性能を発揮する、オーディオビジュアル音声認識用の自己教師付きモデルです。

このリポジトリの主な特徴は以下の通りです。

事前学習済みモデル：MuAViCデータセットでファインチューニングされた事前学習済みAV - HuBERTモデルにアクセスできます。事前学習済みモデルはMuAViCリポジトリからエクスポートされています。
推論スクリプト：Huggingfaceのインターフェースを使用して簡単にパイプラインを構築できます。
データ前処理スクリプト：フレームレートの正規化、唇とオーディオの抽出などが含まれます。

🚀 クイックスタート

💻 使用例

基本的な使用法

git clone https://github.com/nguyenvulebinh/AV-HuBERT-S2S.git
cd AV-HuBERT-S2S
conda create -n avhuberts2s python=3.9
conda activate avhuberts2s
pip install -r requirements.txt
python run_example.py

from src.model.avhubert2text import AV2TextForConditionalGeneration
from src.dataset.load_data import load_feature
from transformers import Speech2TextTokenizer
import torch

if __name__ == "__main__":
    # Choose language to run example
    AVAILABEL_LANGUAGES = ["ar", "de", "el", "en", "es", "fr", "it", "pt", "ru", "multilingual"]
    language = "ru"
    assert language in AVAILABEL_LANGUAGES, f"Language {language} is not available, please choose one of {AVAILABEL_LANGUAGES}"
    
    
    # Load model and tokenizer
    model_name_or_path = f"nguyenvulebinh/AV-HuBERT-MuAViC-{language}"
    model = AV2TextForConditionalGeneration.from_pretrained(model_name_or_path, cache_dir='./model-bin')
    tokenizer = Speech2TextTokenizer.from_pretrained(model_name_or_path, cache_dir='./model-bin')
    
    model = model.cuda().eval()
    
    # Load example video and audio
    video_example = f"./example/video_processed/{language}_lip_movement.mp4"
    audio_example = f"./example/video_processed/{language}_audio.wav"
    if not os.path.exists(video_example) or not os.path.exists(audio_example):
        print(f"WARNING: Example video and audio for {language} is not available english will be used instead")
        video_example = f"./example/video_processed/en_lip_movement.mp4"
        audio_example = f"./example/video_processed/en_audio.wav"
    
    # Load and process example
    sample = load_feature(
        video_example,
        audio_example
    )
    
    audio_feats = sample['audio_source'].cuda()
    video_feats = sample['video_source'].cuda()
    attention_mask = torch.BoolTensor(audio_feats.size(0), audio_feats.size(-1)).fill_(False).cuda()
    
    # Generate text
    output = model.generate(
        audio_feats,
        attention_mask=attention_mask,
        video=video_feats,
        max_length=1024,
    )

    print(tokenizer.batch_decode(output, skip_special_tokens=True))

データ前処理スクリプト

mkdir model-bin
cd model-bin
wget https://huggingface.co/nguyenvulebinh/AV-HuBERT/resolve/main/20words_mean_face.npy .
wget https://huggingface.co/nguyenvulebinh/AV-HuBERT/resolve/main/shape_predictor_68_face_landmarks.dat .

# raw video only support 4:3 ratio now
cp raw_video.mp4 ./example/ 

python src/dataset/video_to_audio_lips.py

事前学習済みAVSRモデル

言語	Huggingface
アラビア語	Checkpoint - AR
ドイツ語	Checkpoint - DE
ギリシャ語	Checkpoint - EL
英語	Checkpoint - EN
スペイン語	Checkpoint - ES
フランス語	Checkpoint - FR
イタリア語	Checkpoint - IT
ポルトガル語	Checkpoint - PT
ロシア語	Checkpoint - RU
多言語	Checkpoint - ar_de_el_es_fr_it_pt_ru

謝辞

AV - HuBERT：このリポジトリのコードベースの大部分は、元のAV - HuBERTの実装から適応されています。

MuAViCリポジトリ：このプロジェクトで使用される事前学習済みモデルを提供してくれたMuAViCデータセットとリポジトリの作成者に感謝します。

📄 ライセンス

CC - BY - NC 4.0

引用

@article{anwar2023muavic,
  title={MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation},
  author={Anwar, Mohamed and Shi, Bowen and Goswami, Vedanuj and Hsu, Wei-Ning and Pino, Juan and Wang, Changhan},
  journal={arXiv preprint arXiv:2303.00628},
  year={2023}
}