オープンソース quantized - dia - 1.6B - int8 テキスト読み上げモデル - リアルな会話や非言語表現を無料で生成

ホーム

Quantized Dia 1.6B Int8

RobAgreesによって開発

Diaは16億パラメータのオープンソーステキスト音声変換モデルで、高度にリアルな対話や非言語表現の生成をサポート

音声合成

Safetensors

複数言語対応オープンソースライセンス:Apache-2.0 #動的対話生成 #感情トーン制御 #非言語表現合成

ダウンロード数 69

リリース時間 : 4/28/2025

モデル概要

DiaはNari Labsが開発したテキスト音声変換モデルで、テキストから直接高度にリアルな対話を生成可能。音声入力による感情やトーンの制御をサポートし、笑い声や咳などの非言語表現も生成可能。

モデル特徴

動的int8量子化

動的量子化技術により軽量デプロイと高速推論を実現、推論速度約20%向上

複数話者対話生成

[S1]と[S2]タグを使用して複数キャラクターの対話を生成

非言語表現サポート

笑い声、咳、咳払いなどの非言語表現を生成可能

音声クローン機能

サンプルコードによる音声クローンをサポート

モデル能力

テキスト音声変換

複数話者対話生成

非言語表現生成

音声クローン

使用事例

対話システム

仮想アシスタント

仮想アシスタントのための自然な対話音声を生成

高度にリアルな対話効果を生成

ゲームNPC

ゲームキャラクターのための動的音声対話を生成

複数キャラクターの相互作用と感情表現をサポート

コンテンツ制作

音声コンテンツ制作

ポッドキャスト、オーディオブックなどの対話コンテンツを生成

非言語表現を含む自然な対話を生成可能

🚀 Quantized Dia 1.6B (INT8)

これはnari - labs/Dia - 1.6Bの動的int8量子化バージョンです。軽量なデプロイと高速な推論のために動的量子化を使用しています。

元のモデル: float16、約6.4GB
量子化されたモデル: int8 dynamic、約6.4GB、推論速度が約20%向上

🚀 クイックスタート

これにより、操作できるGradio UIが開きます。

git clone --branch int8-dia https://github.com/RobertAgee/dia.git
cd dia && uv run app.py

または、uvが事前にインストールされていない場合は:

git clone --branch int8-dia https://github.com/RobertAgee/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

このモデルはRobertAgeeと[RobAgrees](https://huggingface.co/RobAgreesによってアップロードされました。

Google ColabでPyTorchの動的量子化を使用して自動的に量子化されました。

オリジナルのReadme:

DiaはNari Labsによって作成された16億パラメータのテキスト・トゥ・スピーチモデルです。PytorchModelHubMixin統合を使用してハブに公開されています。

Diaはトランスクリプトから高度にリアルな対話を直接生成します。音声を条件として出力を制御することができ、感情やトーンの制御が可能です。また、笑い声や咳払いなどの非言語的なコミュニケーションも生成できます。

研究を加速するために、事前学習されたモデルのチェックポイントと推論コードを提供しています。モデルの重みはHugging Faceにホストされています。現時点では英語の生成のみをサポートしています。

デモページも用意しており、当社のモデルをElevenLabs StudioやSesame CSM - 1Bと比較することができます。

(更新) ZeroGPU Spaceが稼働しています！こちらで今すぐ試してみてください。HFチームのサポートに感謝します。
コミュニティサポートや新機能へのアクセスを得るには、Discordサーバーに参加してください。
より大規模なバージョンのDiaで遊んでみましょう。面白い会話を生成し、コンテンツをリミックスして、友人と共有しましょう。早期アクセスのためにウェイトリストに登録してください。

🚀 クイックスタート

これにより、操作できるGradio UIが開きます。

git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py

または、uvが事前にインストールされていない場合は:

git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py

なお、このモデルは特定の音声でファインチューニングされていないため、モデルを実行するたびに異なる音声が出力されます。音声プロンプトを追加するか（すぐにガイドが公開されます - 現時点ではGradioの2番目の例で試してみてください）、シードを固定することで話者の一貫性を保つことができます。

✨ 主な機能

[S1]と[S2]タグを使用して対話を生成
(laughs)、(coughs)などの非言語的な表現を生成
- 以下の非言語的タグは認識されますが、予期しない出力につながる可能性があります。
- (laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)
音声クローニング。詳細はexample/voice_clone.pyを参照してください。
- Hugging Faceのスペースでは、クローニングしたい音声をアップロードし、スクリプトの前にトランスクリプトを配置することができます。トランスクリプトが必要な形式に従っていることを確認してください。モデルはスクリプトの内容のみを出力します。

💻 使用例

基本的な使用法

import soundfile as sf

from dia.model import Dia

model = Dia.from_pretrained("nari-labs/Dia-1.6B")

text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."

output = model.generate(text)

sf.write("simple.mp3", output, 44100)

pypiパッケージと動作するCLIツールは近日公開予定です。

🔧 技術詳細

ハードウェアと推論速度

DiaはGPU（pytorch 2.0+、CUDA 12.6）でのみテストされています。CPUサポートは近日追加予定です。初回実行時はDescript Audio Codecもダウンロードする必要があるため、時間がかかります。

エンタープライズGPUでは、Diaはリアルタイムで音声を生成できます。古いGPUでは推論時間が遅くなります。参考までに、A4000 GPUでは、Diaはおよそ40トークン/秒（86トークンが1秒の音声に相当）を生成します。 torch.compileを使用すると、対応するGPUで速度が向上します。

Diaのフルバージョンを実行するには、約10GBのVRAMが必要です。将来的に量子化バージョンを追加する予定です。

ハードウェアが利用できない場合、またはより大規模なバージョンのモデルで遊んでみたい場合は、こちらのウェイトリストに登録してください。