VoxPolska-V1-GGUF オープンソースポーランド語音声生成モデル

ホーム

Voxpolska V1 GGUF

salihfurkaanによって開発

次世代ポーランド語音声生成モデル、自然で流暢なポーランド語音声の生成に特化

音声合成その他オープンソースライセンス:Apache-2.0 #ポーランド語音声合成 #高忠実度TTS #GGUF最適化

ダウンロード数 130

リリース時間 : 5/6/2025

モデル概要

VoxPolska GGUFはポーランド語に最適化された音声生成モデルで、高忠実度で表現力豊かな音声出力を生成し、様々なアプリケーションシーンに適用可能です。

モデル特徴

文脈認識音声

生成された音声はポーランド語の微妙なニュアンスとイントネーションを捉える

リアルな音声出力

流暢で表現力豊かな音声を生成し、自然なイントネーションを持つ

GGUF最適化

GGUF実装のために特別にファインチューニングされ、迅速で効率的な推論を提供

高忠実度音質

24 kHzオーディオ出力、高品質な音声生成を保証

モデル能力

ポーランド語音声合成

高忠実度オーディオ生成

自然なイントネーション制御

使用事例

音声アシスタント

ポーランド語音声アシスタント

ポーランド語ユーザーに自然な音声インタラクション体験を提供

流暢で自然なポーランド語音声応答を生成

オーディオブック

ポーランド語オーディオブック制作

ポーランド語テキストを自然な音声に変換

表現力豊かな朗読音声を生成

🚀 VoxPolska GGUF: 次世代ポーランド語音声生成

VoxPolska GGUFは、高度な技術を用いた次世代のポーランド語音声生成モデルです。自然なポーランド語の音声を生成し、様々な用途に対応します。

✨ 主な機能

文脈認識型音声: ポーランド語のニュアンスとトーンを捉えた音声を生成します。
リアルな音声出力: 自然な抑揚を持つ流暢で表現力豊かな音声を生成し、様々なユースケースに最適です。
高度な音声合成技術: ポーランド語に特化した人間に近い音声出力を生成する能力を備えています。
GGUF向け最適化: GGUF実装に特化して微調整されており、高速かつ効率的な推論が可能です。
最先端の深層学習技術: 最新の深層学習技術を利用し、様々なアプリケーションで最適なパフォーマンスを発揮します。

🔧 技術詳細

プロパティ	詳細
ベースモデル	Orpheus TTS
LoRA (低ランク適応)	パフォーマンスと効率を向上させるための微調整が適用されています。
サンプルレート	24 kHzのオーディオ出力で、高品質な音質を保証します。
学習データ	24000以上のポーランド語の文字起こしと音声のペアで学習されており、自然な音声生成を保証します。
量子化	パフォーマンスとメモリ効率のバランスを取るため、16ビット量子化が適用されています。
オーディオデコード	高品質なオーディオ生成のためのカスタムレイヤーごとの処理が行われます。
繰り返しペナルティ	繰り返しのフレーズを避け、音声の自然性を向上させるために1.1に設定されています。
勾配チェックポイント	制約のある環境での効率的なメモリ使用と高速な推論のために有効になっています。

💻 使用例

基本的な使用法

LM Studioを使用する場合

コンピュータにPython 3.8以上がインストールされている必要があります。

手順

LM Studioをインストールして起動します。
GGUFファイルをダウンロードします。
- 4ビット版をダウンロードします。
- 5ビット版をダウンロードします。
- 8ビット版をダウンロードします。
- LM Studioから直接モデルを読み込む場合は、salihfurkaan/voxpolska-v1-ggufと入力し、好みのバージョンを選択します。
GGUFファイルを読み込みます。
- LM Studioから直接モデルを読み込んだ場合はこの手順をスキップします。そうでない場合は、以下の手順に従います。
- "My Models"をクリックします。モデルディレクトリが表示されます。そのパスに移動します。
- "models"フォルダ内に、"salihfurkaan"という名前の新しいフォルダを作成し、そのフォルダに移動します。
- "salihfurkaan"内に、"VoxPolska-V1-GGUF"という名前の新しいフォルダを作成します。
- "VoxPolska-V1-GGUF"内に、GGUFファイルを配置します。
ローカルサーバーを起動します。
- LM Studioのサイドバーで"Developer"をクリックします。
- CTRL + Lを押してモデルを読み込みます。
- CTRL + Rを押してローカルサーバーを起動します。

orpheus-tts-localリポジトリをクローンし、依存関係をインストールします。

git clone https://github.com/isaiahbjork/orpheus-tts-local.git
cd orpheus-tts-local
python3 -m venv venv
source venv/bin/activate  # Windowsの場合は: venv\Scripts\activate
pip install -r requirements.txt

orpheus-tts-localフォルダ内のファイルにHuggingfaceトークンを記入し、ファイルを保存します。
- Pythonファイルに以下のコードを追加し、ファイルを保存します。
```
import os
os.environ["HF_TOKEN"] = "ここにあなたのHuggingfaceトークンを入力"
```
- トークンはここから取得できます。

モデルを実行します。

以下のbashコマンドを実行します。

python gguf_orpheus.py --text "ここにあなたのポーランド語のテキストを入力" --output output.wav

orpheus-tts-localフォルダ内のoutput.wavにアクセスできます。

利用可能なフラグ

--text: 音声に変換するテキスト (必須)
--voice: 使用する音声 (デフォルトは "tara")
--output: 出力するWAVファイルのパス (デフォルト: 自動生成されたファイル名)
--temperature: 生成の温度 (デフォルト: 0.6)
--top_p: トップpサンプリングパラメータ (デフォルト: 0.9)
--repetition_penalty: 繰り返しペナルティ (デフォルト: 1.1)
--backend: バックエンドを指定 (デフォルト: "lmstudio"、"ollama"もサポート)

Llama.cppを使用する場合

コンピュータにCMakeがインストールされている必要があります。

llama.cppをインストールします。

以下のコマンドを使用してllama.cppをインストールし、ビルドします。

  git clone https://github.com/ggerganov/llama.cpp
  cd llama.cpp
  cmake -B build
  cmake --build build --config Release

GGUFファイルをダウンロードします。
- 4ビット版をダウンロードします。
- 5ビット版をダウンロードします。
- 8ビット版をダウンロードします。
サーバーを起動します。
- 以下のコマンドを使用します。
```
./llama-server -m path/to/gguf/file --port 8080
```

orpheus-tts-localリポジトリをクローンし、依存関係をインストールします。

git clone https://github.com/isaiahbjork/orpheus-tts-local.git
cd orpheus-tts-local
python3 -m venv venv
source venv/bin/activate  # Windowsの場合は: venv\Scripts\activate
pip install -r requirements.txt

orpheus-tts-localフォルダ内のファイルにHuggingfaceトークンを記入し、ファイルを保存します。
- Pythonファイルに以下のコードを追加し、ファイルを保存します。
```
import os
os.environ["HF_TOKEN"] = "ここにあなたのHuggingfaceトークンを入力"
```
- トークンはここから取得できます。

モデルを実行します。

以下のbashコマンドを実行します。

python gguf_orpheus.py --text "ここにあなたのポーランド語のテキストを入力" --output output.wav

orpheus-tts-localフォルダ内のoutput.wavにアクセスできます。

📖 連絡先とサポート

質問、提案、フィードバックについては、HuggingFaceでissueを開いてください。また、以下のリンクからも連絡できます。 LinkedIn

🚫 モデルの誤用

このモデルを、許可なくなりすまし、誤情報や欺瞞行為（偽ニュースや詐欺電話など）、または違法もしくは有害な活動に使用しないでください。このモデルを使用することで、すべての適用される法律と倫理ガイドラインに従うことに同意するものとします。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

📚 引用

@misc{
  title={salihfurkaan/VoxPolska-V1-GGUF},
  author={Salih Furkan Erik},
  year={2025},
  url={https://huggingface.co/salihfurkaan/VoxPolska-GGUF/}
}