Dans-PersonalityEngine-V1.3.0-24bオープンソース多機能モデル - 多言語および専門分野のタスクをサポート

ホーム

Dans PersonalityEngine V1.3.0 24b GGUF

Mungertによって開発

Dans-PersonalityEngine-V1.3.0-24bは、50以上の専門データセットで微調整された多機能モデルシリーズで、多言語と専門分野のタスクをサポートします。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #超低ビット量子化 #多言語ロールプレイング #専門分野適合

ダウンロード数 678

リリース時間 : 5/26/2025

モデル概要

このモデルは、クリエイティブなタスク（ロールプレイングや共同執筆など）と技術的な課題（コード生成、ツール使用、複雑な推論など）で優れた性能を発揮し、10言語をサポートし、複数の分野にわたる専門知識を強化しています。

モデル特徴

多言語サポート

英語、アラビア語、ドイツ語、フランス語、スペイン語など10言語をサポートします。

専門分野適合

化学、生物学、コード、気候などの複数の専門分野で良好な性能を発揮します。

超低ビット量子化

IQ - DynamicGate（1 - 2ビット）の超低ビット量子化方法を採用し、精度を維持しながらメモリ効率を向上させます。

モデル能力

テキスト生成

ロールプレイング

共同執筆

コード生成

ツール使用

複雑な推論

使用事例

クリエイティブタスク

ロールプレイング

ロールプレイングと対話生成に使用されます。

共同執筆

複数人による共同執筆とクリエイティブなテキスト生成をサポートします。

技術タスク

コード生成

コード断片または完全なプログラムを生成します。

複雑な推論

複雑な論理と推論の問題を解決します。

🚀 Dans-PersonalityEngine-V1.3.0-24b GGUFモデル

Dans-PersonalityEngine-V1.3.0-24b GGUFモデルは、多言語対応で、50以上の専門データセットでファインチューニングされた汎用モデルです。クリエイティブなタスクや技術的な課題に対応でき、多くの分野での専門知識を強化しています。

✨ 主な機能

多言語対応：英語、アラビア語、ドイツ語、フランス語、スペイン語、ヒンディー語、ポルトガル語、日本語、韓国語など10言語をサポート。
超低ビット量子化：IQ-DynamicGate（1 - 2ビット）を用いた量子化方法で、極端なメモリ効率を維持しながら精度を保つ。
多様なモデル形式：BF16、F16、Q4_K、Q6_K、Q8_0など、ハードウェア能力やメモリ制約に応じた選択が可能。

📦 インストール

READMEに具体的なインストール手順は記載されていないため、このセクションをスキップします。

💻 使用例

READMEに具体的なコード例は記載されていないため、このセクションをスキップします。

📚 詳細ドキュメント

モデル生成詳細

このモデルは、llama.cpp のコミット f5cd27b7 を使用して生成されました。

IQ-DynamicGateによる超低ビット量子化（1 - 2ビット）

最新の量子化方法では、超低ビットモデル（1 - 2ビット）に対して「精度適応型量子化」を導入しています。このアプローチは、層ごとの戦略を用いて、極端なメモリ効率を維持しながら精度を保持します。

ベンチマークの背景

すべてのテストは、Llama-3-8B-Instruct を使用して行われました。

標準のパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化に同じプロンプトセットを使用

方法

動的精度割り当て
- 最初/最後の25%の層 → IQ4_XS（選択された層）
- 中央の50% → IQ2_XXS/IQ3_S（効率を向上）
重要コンポーネントの保護
- 埋め込み/出力層はQ5_Kを使用
- 標準の1 - 2ビット量子化と比較して、エラー伝播を38%削減

量子化性能比較（Llama-3-8B）

量子化	標準PPL	DynamicGate PPL	ΔPPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

キー

PPL = パープレキシティ（低いほど良い）
ΔPPL = 標準からDynamicGateへのパーセンテージ変化
速度 = 推論時間（CPU avx2、2048トークンコンテキスト）
サイズの違いは混合量子化のオーバーヘッドを反映

主な改善点

IQ1_M は、パープレキシティを43.9%削減（27.46 → 15.41）
IQ2_S は、0.2GBの追加でパープレキシティを36.9%削減
IQ1_S は、1ビット量子化でありながら39.7%の精度向上を維持

トレードオフ

すべてのバリアントは、わずかなサイズの増加（0.1 - 0.3GB）があります。
推論速度は比較的近い（5%未満の差）

これらのモデルを使用する場合

GPU VRAMにモデルを収める場合
メモリ制約のあるデプロイメント
CPUおよびエッジデバイスで、1 - 2ビットのエラーが許容できる場合
超低ビット量子化の研究

適切なモデル形式の選択

正しいモデル形式の選択は、ハードウェア能力とメモリ制約に依存します。

BF16（Brain Float 16） - BF16アクセラレーションが利用可能な場合に使用

高速な計算を目的とした16ビット浮動小数点数形式で、良好な精度を維持します。
FP32と同様のダイナミックレンジを提供しながら、低いメモリ使用量を実現します。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨（デバイスの仕様を確認）。
FP32と比較して、低いメモリフットプリントでの高性能推論に最適。

BF16を使用する場合

ハードウェアがネイティブのBF16サポートを持っている場合（例：新しいGPU、TPU）
メモリを節約しながら、より高い精度が必要な場合
モデルを別の形式に再量子化する予定の場合

BF16を避ける場合

ハードウェアがBF16をサポートしていない場合（FP32にフォールバックし、低速になる可能性がある）
BF16最適化を持たない古いデバイスとの互換性が必要な場合

F16（Float 16） - BF16よりも広くサポートされている

16ビット浮動小数点数形式で、高い精度を持ちながら、BF16よりも値の範囲が狭い。
ほとんどのFP16アクセラレーションをサポートするデバイスで動作します（多くのGPUや一部のCPUを含む）。
BF16よりもわずかに低い数値精度ですが、一般的に推論には十分です。

F16を使用する場合

ハードウェアがFP16をサポートしているが、BF16をサポートしていない場合
速度、メモリ使用量、精度のバランスが必要な場合
FP16計算に最適化されたGPUまたは他のデバイスで実行する場合

F16を避ける場合

デバイスがネイティブのFP16サポートを持っていない場合（予想よりも低速になる可能性がある）
メモリ制限がある場合

量子化モデル（Q4_K、Q6_K、Q8など） - CPUおよび低VRAM推論用

量子化は、モデルサイズとメモリ使用量を削減しながら、できるだけ精度を維持します。

低ビットモデル（Q4_K） - 最小限のメモリ使用量に最適で、精度が低い可能性があります。
高ビットモデル（Q6_K、Q8_0） - より高い精度を提供し、より多くのメモリを必要とします。

量子化モデルを使用する場合

CPUで推論を実行し、最適化されたモデルが必要な場合
デバイスのVRAMが少なく、全精度モデルをロードできない場合
合理的な精度を維持しながら、メモリフットプリントを削減したい場合

量子化モデルを避ける場合

最大限の精度が必要な場合（全精度モデルの方が適しています）
ハードウェアに十分なVRAMがあり、より高精度の形式（BF16/F16）が使用できる場合

超低ビット量子化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

これらのモデルは、極端なメモリ効率を目的として最適化されており、低電力デバイスまたは大規模デプロイメントでメモリが重要な制約となる場合に最適です。

IQ3_XS：超低ビット量子化（3ビット）で、極端なメモリ効率を実現します。
- 使用ケース：Q4_Kでも大きすぎる超低メモリデバイスに最適。
- トレードオフ：高ビット量子化と比較して精度が低い。
IQ3_S：最大のメモリ効率を実現する小さなブロックサイズ。
- 使用ケース：IQ3_XSが過度に制限的な低メモリデバイスに最適。
IQ3_M：IQ3_Sよりも高い精度を提供する中規模ブロックサイズ。
- 使用ケース：IQ3_Sが制限的すぎる低メモリデバイスに適しています。
Q4_K：ブロック単位の最適化により、より高い精度を実現する4ビット量子化。
- 使用ケース：Q6_Kでも大きすぎる低メモリデバイスに最適。
Q4_0：ARMデバイス用に最適化された純粋な4ビット量子化。
- 使用ケース：ARMベースのデバイスまたは低メモリ環境に最適。

モデル形式選択の概要表

モデル形式	精度	メモリ使用量	デバイス要件	最適な使用ケース
BF16	最高	高	BF16対応のGPU/CPU	低メモリでの高速推論
F16	高	高	FP16対応のデバイス	BF16が利用できない場合のGPU推論
Q4_K	中低	低	CPUまたは低VRAMデバイス	メモリ制約のある環境に最適
Q6_K	中	中程度	より多くのメモリを持つCPU	量子化されたままでより高い精度
Q8_0	高	中程度	十分なVRAMを持つCPUまたはGPU	量子化モデルの中で最高の精度
IQ3_XS	非常に低	非常に低	超低メモリデバイス	極端なメモリ効率と低い精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppはARMデバイス用に最適化できる

含まれるファイルと詳細

`Dans-PersonalityEngine-V1.3.0-24b-bf16.gguf`

モデルの重みがBF16で保存されています。
モデルを別の形式に再量子化する場合に使用します。
デバイスがBF16アクセラレーションをサポートしている場合に最適。

`Dans-PersonalityEngine-V1.3.0-24b-f16.gguf`

モデルの重みがF16で保存されています。
デバイスがFP16をサポートしている場合に使用します。特にBF16が利用できない場合に便利です。

`Dans-PersonalityEngine-V1.3.0-24b-bf16-q8_0.gguf`

出力/埋め込み層はBF16のままです。
他のすべての層はQ8_0に量子化されています。
デバイスがBF16をサポートし、量子化バージョンが必要な場合に使用します。

`Dans-PersonalityEngine-V1.3.0-24b-f16-q8_0.gguf`

出力/埋め込み層はF16のままです。
他のすべての層はQ8_0に量子化されています。

`Dans-PersonalityEngine-V1.3.0-24b-q4_k.gguf`

出力/埋め込み層はQ8_0に量子化されています。
他のすべての層はQ4_Kに量子化されています。
メモリが制限されたCPU推論に適しています。

`Dans-PersonalityEngine-V1.3.0-24b-q4_k_s.gguf`

最も小さいQ4_Kバリアントで、精度を犠牲にしてメモリ使用量を削減します。
非常に低メモリの設定に最適。

`Dans-PersonalityEngine-V1.3.0-24b-q6_k.gguf`

出力/埋め込み層はQ8_0に量子化されています。
他のすべての層はQ6_Kに量子化されています。

`Dans-PersonalityEngine-V1.3.0-24b-q8_0.gguf`

完全にQ8に量子化されたモデルで、より高い精度を提供します。
より多くのメモリを必要としますが、より高い精度を実現します。

`Dans-PersonalityEngine-V1.3.0-24b-iq3_xs.gguf`

IQ3_XS量子化で、極端なメモリ効率を実現します。
超低メモリデバイスに最適。

`Dans-PersonalityEngine-V1.3.0-24b-iq3_m.gguf`

IQ3_M量子化で、中規模のブロックサイズでより高い精度を提供します。
低メモリデバイスに適しています。

`Dans-PersonalityEngine-V1.3.0-24b-q4_0.gguf`

純粋なQ4_0量子化で、ARMデバイス用に最適化されています。
低メモリ環境に最適。
より高い精度が必要な場合はIQ4_NLを選択してください。

モデルが役に立った場合

このモデルが役に立った場合は、「いいね」をクリックしてください！
量子対応のセキュリティチェックを備えたAIパワードネットワークモニターアシスタントのテストに協力してください。無料ネットワークモニター

テスト方法

AIアシスタントのタイプを選択します。

TurboLLM (GPT-4o-mini)
HugLLM (Hugginfaceオープンソース)
TestLLM (実験的なCPUのみ)

テスト内容

AIネットワークモニタリングのための小規模オープンソースモデルの限界を追求しています。具体的には、

ライブネットワークサービスに対する関数呼び出し
以下のタスクを処理しながら、モデルをどれだけ小さくできるか
- 自動化されたNmapスキャン
- 量子対応チェック
- ネットワークモニタリングタスク

TestLLM - 現在の実験的モデル（2つのCPUスレッドでのllama.cpp）

ゼロコンフィギュレーションセットアップ
30秒のロード時間（低速な推論ですが、APIコストがかからない）
協力者を募集しています！ エッジデバイスAIに興味がある方は、一緒に協力しましょう！

他のアシスタント

TurboLLM - gpt-4o-mini を使用して、
- 無料ネットワークモニターエージェントで.NETコードを実行するカスタムコマンドプロセッサを作成
- リアルタイムのネットワーク診断とモニタリング
- セキュリティ監査
- ペネトレーションテスト（Nmap/Metasploit）
- ログインするか、AIアシスタントが統合された無料ネットワークモニターエージェントをダウンロードすることで、より多くのトークンを取得できます。

テストできるコマンドの例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
'"Create a cmd processor to .. (what ever you want)" 注：.NETコードを実行するには、無料ネットワークモニターエージェントをインストールする必要があります。これは非常に柔軟で強力な機能です。注意して使用してください！

モデルの詳細情報

Dans-PersonalityEngineは、50以上の専門データセットでファインチューニングされた汎用モデルシリーズです。クリエイティブなタスク（ロールプレイや共同執筆など）と技術的な課題（コード生成、ツール使用、複雑な推論など）の両方で優れた性能を発揮します。

V1.3.0では、10言語をサポートする多言語機能が導入され、複数の分野にわたるドメインエキスパート知識が強化されています。主言語は依然として英語であり、最高の性能が期待できます。

多言語サポート

Arabic  Chinese   English  French      German
Hindi   Japanese  Korean   Portuguese  Spanish

主要な詳細

BASE MODEL: mistralai/Mistral-Small-3.1-24B-Base-2503
LICENSE: apache-2.0
LANGUAGE: 10言語をサポートする多言語
CONTEXT LENGTH: 32768トークン、131072トークンではリコール率が低下

推奨設定

TEMPERATURE: 1.0
TOP_P: 0.9

プロンプト形式

モデルは、「DanChat-2」と呼ばれる以下の形式を使用します。

<|system|>system prompt<|endoftext|><|user|>Hi there!<|endoftext|><|assistant|>Hey, how can I help?<|endoftext|>

なぜChatMLではないのか

ChatMLはLLMの標準形式ですが、制限があります。DanChat-2は、各ロールに特別なトークンを使用することで、バイアスを減らし、モデルが異なるタスクにより容易に適応できるようにしています。

🔧 技術詳細

READMEに具体的な技術詳細が50文字以上記載されていないため、このセクションをスキップします。

📄 ライセンス

このモデルは、apache-2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご