emova_speech_tokenizer_hfオープンソース音声分詞器 - 中国語と英語をサポートし、音声スタイルを柔軟にコントロール

ホーム

Emova Speech Tokenizer Hf

Emova-ollmによって開発

EMOVA音声トークナイザーは、中英両言語に対応した離散音声トークナイザーで、意味-音響デカップリング設計を採用し、柔軟な音声スタイル制御をサポートします。

テキスト生成オーディオ

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #バイリンガル音声トークナイゼーション #意味-音響デカップリング #音声スタイル制御

ダウンロード数 895

リリース時間 : 12/23/2024

モデル概要

このモデルは離散音声トークナイザーで、音声からユニット(S2U)へのトークナイザーとユニットから音声(U2S)へのデコーダーを含み、視覚、言語、音声モダリティ間のシームレスな全モダリティアラインメントを実現し、話者、感情、ピッチを含む柔軟な音声スタイル制御をサポートします。

モデル特徴

意味-音響デカップリング設計

入力音声の意味内容と音響スタイルを分離し、前者のみを使用して音声トークンを生成し、LLMの高次元意味埋め込み空間とのシームレスなアラインメントを実現

バイリンガルトークナイゼーションサポート

同じ音声コードブックを使用して中国語と英語の音声をトークン化することをサポート

柔軟な音声スタイル制御

24種類の音声スタイル制御をサポート(2種類の話者×3種類のピッチ×4種類の感情の組み合わせ)

離散音声トークナイゼーション

有限スカラー量子化器(FSQ)を使用して音声を離散音声ユニットに変換し、後続処理を容易にする

モデル能力

音声からユニット(S2U)

ユニットから音声(U2S)

音声スタイル制御

中英音声処理

使用事例

音声合成

感情的音声合成

入力テキストと指定された感情パラメータに基づいて特定の感情を持つ音声を生成

怒り、喜び、中立、悲しみの4種類の感情を持つ音声を生成可能

多様式音声合成

生成される音声の話者、ピッチ、話速などのスタイルを制御

24種類の異なるスタイル組み合わせの音声出力をサポート

音声処理

音声特徴抽出

音声信号を離散音声ユニット表現に変換

抽出された音素とピッチ情報は後続の音声処理タスクに使用可能

🚀 EMOVA Speech Tokenizer HF

このリポジトリは、EMOVA シリーズのモデルを訓練するために使用される公式の音声トークナイザーを含んでいます。意味論的 - 音響的な分離設計により、視覚、言語、音声のモダリティ間のシームレスなオムニモーダルアライメントを容易にするだけでなく、話者、感情、ピッチなどの柔軟な音声スタイル制御も可能にします。

🤗 HuggingFace | 📄 論文 | 🌐 プロジェクトページ | 💻 Github | 💻 EMOVA-Github

✨ 主な機能

モデルの概要

このリポジトリには、EMOVA シリーズのモデルを訓練するために使用される公式の音声トークナイザーが含まれています。意味論的 - 音響的な分離設計により、視覚、言語、音声のモダリティ間のシームレスなオムニモーダルアライメントを容易にするだけでなく、話者、感情、ピッチなどの柔軟な音声スタイル制御も可能にします。主な利点を以下にまとめます。

離散音声トークナイザー：SPIRALベースの 音声からユニットへの (S2U) トークナイザーを含み、入力音声の音韻と音調の情報を捕捉し、これを 有限スカラー量子化器 (FSQ) で離散的な音声ユニットに変換します。また、VITSベースの ユニットから音声への (U2S) デトークナイザーを使用して、音声ユニットから音声信号を再構築します。
意味論的 - 音響的分離：音声ユニットを大規模言語モデル (LLM) の高度に意味論的な埋め込み空間とシームレスにアラインさせるために、入力音声の 意味内容 と 音響スタイル を分離し、前者のみを使用して音声トークンを生成します。
両言語トークナイゼーション：EMOVA音声トークナイザーは、同じ音声コードブックを使用して、中国語 と英語の音声トークナイゼーションをサポートします。
柔軟な音声スタイル制御：意味論的 - 音響的分離により、EMOVA音声トークナイザーは 24種類の音声スタイル制御（つまり、2人の話者、3種類のピッチ、4種類の感情）をサポートします。詳細は使用方法を参照してください。

📦 インストール

このリポジトリをクローンし、condaを使用してEMOVA仮想環境を作成します。当社のコードは、NVIDIA A800/H20 GPU および Ascend 910B3 NPU サーバーで検証されています。他のデバイスでも利用可能かもしれません。

conda環境を初期化します。

git clone https://github.com/emova-ollm/EMOVA_speech_tokenizer.git
conda create -n emova python=3.10 -y
conda activate emova

必要なパッケージをインストールします（注意：GPUとNPUの指示は異なります）。

# 必要に応じてpipとsetuptoolsをアップグレードします
pip install -U pip setuptools

cd emova_speech_tokenizer
pip install -e . # NVIDIA GPU (例: A800 および H20) 用
pip install -e .[npu] # または Ascend NPU (例: 910B3) 用

💻 使用例

基本的な使用法

⚠️ 重要提示

これを行う前に、まずインストールを完了することを忘れないでください！

EMOVA音声トークナイザーは、🤗 HuggingFace transformers APIを使用して簡単にデプロイできます！

import random
from transformers import AutoModel
import torch

### Ascend NPUを使用する場合はコメントを外してください
# import torch_npu
# from torch_npu.contrib import transfer_to_npu

# 事前学習済みモデルをロードします
model = AutoModel.from_pretrained("Emova-ollm/emova_speech_tokenizer_hf", torch_dtype=torch.float32, trust_remote_code=True).eval().cuda()

# S2U
wav_file = "./examples/s2u/example.wav"
speech_unit = model.encode(wav_file)
print(speech_unit)

# U2S
emotion = random.choice(['angry', 'happy', 'neutral', 'sad'])
speed = random.choice(['normal', 'fast', 'slow'])
pitch = random.choice(['normal', 'high', 'low'])
gender = random.choice(['female', 'male'])
condition = f'gender-{gender}_emotion-{emotion}_speed-{speed}_pitch-{pitch}'

output_wav_file = f'./examples/u2s/{condition}_output.wav'
model.decode(speech_unit, condition=condition, output_wav_file=output_wav_file)

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で公開されています。

📚 引用

もし当社のモデル、コード、論文が役立った場合は、論文を引用し、スターを付けていただけると幸いです。

@article{chen2024emova,
  title={Emova: Empowering language models to see, hear and speak with vivid emotions},
  author={Chen, Kai and Gou, Yunhao and Huang, Runhui and Liu, Zhili and Tan, Daxin and Xu, Jing and Wang, Chunwei and Zhu, Yi and Zeng, Yihan and Yang, Kuo and others},
  journal={arXiv preprint arXiv:2409.18042},
  year={2024}
}