🚀 Quantized Dia 1.6B (INT8)
これはnari - labs/Dia - 1.6Bの動的int8量子化バージョンです。軽量なデプロイと高速な推論のために動的量子化を使用しています。
元のモデル: float16、約6.4GB
量子化されたモデル: int8 dynamic、約6.4GB、推論速度が約20%向上
🚀 クイックスタート
これにより、操作できるGradio UIが開きます。
git clone --branch int8-dia https://github.com/RobertAgee/dia.git
cd dia && uv run app.py
または、uv
が事前にインストールされていない場合は:
git clone --branch int8-dia https://github.com/RobertAgee/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
このモデルはRobertAgeeと[RobAgrees](https://huggingface.co/RobAgreesによってアップロードされました。
Google ColabでPyTorchの動的量子化を使用して自動的に量子化されました。
オリジナルのReadme:
DiaはNari Labsによって作成された16億パラメータのテキスト・トゥ・スピーチモデルです。PytorchModelHubMixin統合を使用してハブに公開されています。
Diaはトランスクリプトから高度にリアルな対話を直接生成します。音声を条件として出力を制御することができ、感情やトーンの制御が可能です。また、笑い声や咳払いなどの非言語的なコミュニケーションも生成できます。
研究を加速するために、事前学習されたモデルのチェックポイントと推論コードを提供しています。モデルの重みはHugging Faceにホストされています。現時点では英語の生成のみをサポートしています。
デモページも用意しており、当社のモデルをElevenLabs StudioやSesame CSM - 1Bと比較することができます。
- (更新) ZeroGPU Spaceが稼働しています!こちらで今すぐ試してみてください。HFチームのサポートに感謝します。
- コミュニティサポートや新機能へのアクセスを得るには、Discordサーバーに参加してください。
- より大規模なバージョンのDiaで遊んでみましょう。面白い会話を生成し、コンテンツをリミックスして、友人と共有しましょう。早期アクセスのためにウェイトリストに登録してください。
🚀 クイックスタート
これにより、操作できるGradio UIが開きます。
git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py
または、uv
が事前にインストールされていない場合は:
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install uv
uv run app.py
なお、このモデルは特定の音声でファインチューニングされていないため、モデルを実行するたびに異なる音声が出力されます。音声プロンプトを追加するか(すぐにガイドが公開されます - 現時点ではGradioの2番目の例で試してみてください)、シードを固定することで話者の一貫性を保つことができます。
✨ 主な機能
[S1]
と[S2]
タグを使用して対話を生成
(laughs)
、(coughs)
などの非言語的な表現を生成
- 以下の非言語的タグは認識されますが、予期しない出力につながる可能性があります。
(laughs), (clears throat), (sighs), (gasps), (coughs), (singing), (sings), (mumbles), (beep), (groans), (sniffs), (claps), (screams), (inhales), (exhales), (applause), (burps), (humming), (sneezes), (chuckle), (whistles)
- 音声クローニング。詳細は
example/voice_clone.py
を参照してください。
- Hugging Faceのスペースでは、クローニングしたい音声をアップロードし、スクリプトの前にトランスクリプトを配置することができます。トランスクリプトが必要な形式に従っていることを確認してください。モデルはスクリプトの内容のみを出力します。
💻 使用例
基本的な使用法
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text = "[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face."
output = model.generate(text)
sf.write("simple.mp3", output, 44100)
pypiパッケージと動作するCLIツールは近日公開予定です。
🔧 技術詳細
ハードウェアと推論速度
DiaはGPU(pytorch 2.0+、CUDA 12.6)でのみテストされています。CPUサポートは近日追加予定です。
初回実行時はDescript Audio Codecもダウンロードする必要があるため、時間がかかります。
エンタープライズGPUでは、Diaはリアルタイムで音声を生成できます。古いGPUでは推論時間が遅くなります。
参考までに、A4000 GPUでは、Diaはおよそ40トークン/秒(86トークンが1秒の音声に相当)を生成します。
torch.compile
を使用すると、対応するGPUで速度が向上します。
Diaのフルバージョンを実行するには、約10GBのVRAMが必要です。将来的に量子化バージョンを追加する予定です。
ハードウェアが利用できない場合、またはより大規模なバージョンのモデルで遊んでみたい場合は、こちらのウェイトリストに登録してください。
📄 ライセンス
このプロジェクトはApache License 2.0の下でライセンスされています。詳細はLICENSEファイルを参照してください。
⚠️ 重要注意事項
このプロジェクトは、研究および教育目的で使用するための高忠実度の音声生成モデルを提供しています。以下の使用は厳禁です。
- 身元の誤用: 許可なく実在の人物に似た音声を生成しないでください。
- 欺瞞的なコンテンツ: このモデルを使用して誤解を招くコンテンツ(例: 偽ニュース)を生成しないでください。
- 違法または悪意のある使用: このモデルを違法な活動や危害を加える目的で使用しないでください。
このモデルを使用することにより、関連する法的基準と倫理的責任を遵守することに同意するものとします。当社は、誤用に対して一切の責任を負いません。また、この技術の非倫理的な使用には固く反対します。
📋 今後の予定
- Dockerサポートの追加
- 推論速度の最適化
- メモリ効率のための量子化の追加
👥 コントリビューション
私たちは、フルタイム1人とパートタイム1人の研究エンジニアからなる小さなチームです。どんなコントリビューションも大歓迎です!
議論に参加するには、Discordサーバーに参加してください。
🙏 謝辞