🚀 VoxPolska GGUF: 次世代ポーランド語音声生成
VoxPolska GGUFは、高度な技術を用いた次世代のポーランド語音声生成モデルです。自然なポーランド語の音声を生成し、様々な用途に対応します。
✨ 主な機能
- 文脈認識型音声: ポーランド語のニュアンスとトーンを捉えた音声を生成します。
- リアルな音声出力: 自然な抑揚を持つ流暢で表現力豊かな音声を生成し、様々なユースケースに最適です。
- 高度な音声合成技術: ポーランド語に特化した人間に近い音声出力を生成する能力を備えています。
- GGUF向け最適化: GGUF実装に特化して微調整されており、高速かつ効率的な推論が可能です。
- 最先端の深層学習技術: 最新の深層学習技術を利用し、様々なアプリケーションで最適なパフォーマンスを発揮します。
🔧 技術詳細
プロパティ |
詳細 |
ベースモデル |
Orpheus TTS |
LoRA (低ランク適応) |
パフォーマンスと効率を向上させるための微調整が適用されています。 |
サンプルレート |
24 kHzのオーディオ出力で、高品質な音質を保証します。 |
学習データ |
24000以上のポーランド語の文字起こしと音声のペアで学習されており、自然な音声生成を保証します。 |
量子化 |
パフォーマンスとメモリ効率のバランスを取るため、16ビット量子化が適用されています。 |
オーディオデコード |
高品質なオーディオ生成のためのカスタムレイヤーごとの処理が行われます。 |
繰り返しペナルティ |
繰り返しのフレーズを避け、音声の自然性を向上させるために1.1に設定されています。 |
勾配チェックポイント |
制約のある環境での効率的なメモリ使用と高速な推論のために有効になっています。 |
💻 使用例
基本的な使用法
LM Studioを使用する場合
コンピュータにPython 3.8以上がインストールされている必要があります。
手順
- LM Studioをインストールして起動します。
- GGUFファイルをダウンロードします。
- 4ビット版をダウンロードします。
- 5ビット版をダウンロードします。
- 8ビット版をダウンロードします。
- LM Studioから直接モデルを読み込む場合は、
salihfurkaan/voxpolska-v1-gguf
と入力し、好みのバージョンを選択します。
- GGUFファイルを読み込みます。
- LM Studioから直接モデルを読み込んだ場合はこの手順をスキップします。そうでない場合は、以下の手順に従います。
- "My Models"をクリックします。モデルディレクトリが表示されます。そのパスに移動します。
- "models"フォルダ内に、"salihfurkaan"という名前の新しいフォルダを作成し、そのフォルダに移動します。
- "salihfurkaan"内に、"VoxPolska-V1-GGUF"という名前の新しいフォルダを作成します。
- "VoxPolska-V1-GGUF"内に、GGUFファイルを配置します。
- ローカルサーバーを起動します。
- LM Studioのサイドバーで"Developer"をクリックします。
- CTRL + Lを押してモデルを読み込みます。
- CTRL + Rを押してローカルサーバーを起動します。
- orpheus-tts-localリポジトリをクローンし、依存関係をインストールします。
git clone https://github.com/isaiahbjork/orpheus-tts-local.git
cd orpheus-tts-local
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
- orpheus-tts-localフォルダ内のファイルにHuggingfaceトークンを記入し、ファイルを保存します。
- モデルを実行します。
orpheus-tts-localフォルダ内のoutput.wav
にアクセスできます。
利用可能なフラグ
--text
: 音声に変換するテキスト (必須)
--voice
: 使用する音声 (デフォルトは "tara")
--output
: 出力するWAVファイルのパス (デフォルト: 自動生成されたファイル名)
--temperature
: 生成の温度 (デフォルト: 0.6)
--top_p
: トップpサンプリングパラメータ (デフォルト: 0.9)
--repetition_penalty
: 繰り返しペナルティ (デフォルト: 1.1)
--backend
: バックエンドを指定 (デフォルト: "lmstudio"、"ollama"もサポート)
Llama.cppを使用する場合
コンピュータにCMakeがインストールされている必要があります。
- llama.cppをインストールします。
- 以下のコマンドを使用してllama.cppをインストールし、ビルドします。
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build
cmake --build build --config Release
- GGUFファイルをダウンロードします。
- サーバーを起動します。
- orpheus-tts-localリポジトリをクローンし、依存関係をインストールします。
git clone https://github.com/isaiahbjork/orpheus-tts-local.git
cd orpheus-tts-local
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
- orpheus-tts-localフォルダ内のファイルにHuggingfaceトークンを記入し、ファイルを保存します。
- モデルを実行します。
orpheus-tts-localフォルダ内のoutput.wav
にアクセスできます。
📖 連絡先とサポート
質問、提案、フィードバックについては、HuggingFaceでissueを開いてください。また、以下のリンクからも連絡できます。
LinkedIn
🚫 モデルの誤用
このモデルを、許可なくなりすまし、誤情報や欺瞞行為(偽ニュースや詐欺電話など)、または違法もしくは有害な活動に使用しないでください。このモデルを使用することで、すべての適用される法律と倫理ガイドラインに従うことに同意するものとします。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
📚 引用
@misc{
title={salihfurkaan/VoxPolska-V1-GGUF},
author={Salih Furkan Erik},
year={2025},
url={https://huggingface.co/salihfurkaan/VoxPolska-GGUF/}
}