🚀 CausalLM 14B-DPO-alpha - GGUF
このモデルは、自然言語処理におけるテキスト生成タスクに特化しており、多様なデータセットで訓練され、英語と中国語に対応しています。
🚀 クイックスタート
このリポジトリには、CausalLMの14B - DPO - alpha のGGUF形式のモデルファイルが含まれています。
✨ 主な機能
- 多言語対応: 英語と中国語でのテキスト生成が可能です。
- 多様なデータセットで訓練: 様々なデータセットを使用して訓練されているため、幅広いタスクに対応できます。
📦 インストール
READMEに具体的なインストール手順は記載されていません。
💻 使用例
基本的な使用法
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
📚 ドキュメント
モデルについて
このモデルは、CausalLMによって作成されたCausalLM 14B - DPO - alphaのGGUF形式のバージョンです。元のモデルはCausalLM 14B - DPO - alpha です。
GGUF形式について
GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。GGMLの代替となり、現在はllama.cppではGGMLはサポートされていません。
以下は、GGUFをサポートする既知のクライアントとライブラリの不完全なリストです。
- llama.cpp。GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
- text - generation - webui、最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートしています。
- KoboldCpp、完全な機能を備えたWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションをサポートしています。特にストーリーテリングに適しています。
- LM Studio、WindowsとmacOS (Silicon) 用の使いやすく強力なローカルGUIで、GPUアクセラレーションをサポートしています。
- LoLLMS Web UI、多くの興味深い独自の機能を備えた素晴らしいWeb UIで、簡単なモデル選択のための完全なモデルライブラリを含んでいます。
- Faraday.dev、WindowsとmacOS (SiliconとIntelの両方) 用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションをサポートしています。
- ctransformers、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。
- llama - cpp - python、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
- candle、パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。
プロンプトテンプレート
このモデルのプロンプトテンプレートはChatMLです。
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
ライセンス
元のモデルのライセンスは「wtfpl」と記載されていますが、「Meta Llama 2 License Terms」に従う必要があります。
元のモデルカード
詳細については、DPO訓練を行っていないバージョンを参照してください:CausalLM/14B。
モデル |
MT - Bench |
GPT - 4 |
8.99 |
GPT - 3.5 - Turbo |
7.94 |
|
|
Zephyr - 7b - β (過学習) |
7.34 |
Zephyr - 7b - α |
6.88 |
|
|
CausalLM/14B - DPO - α |
7.618868 |
CausalLM/7B - DPO - α |
7.038125 |
これはCausalLM/14B & 7B上で継続的に訓練されたバージョンではなく、以前の訓練ブランチで同時にDPO訓練を行った最適化バージョンであり、いくつかの詳細なパラメータが変更されている可能性があります。まだ完全なモデルをダウンロードする必要があります。
betaブランチはすぐにリリースされます。一部のタスクで不利になる可能性のある積極的なアプローチを採用して、人間の好みにより適合するように調整し、GPT - 3.5のベンチマークを満たすまたは上回ることを目指しています。お楽しみに。
免責事項: このモデルは、フィルタリングされていないインターネットデータで訓練されています。すべてのデータを審査する能力がないため、大量の不快な内容、ポルノグラフィー、暴力、および攻撃的な言葉が含まれている可能性があり、私たちはそれらを削除することができません。したがって、モデルの安全性を独自に確認し、出力のキーワードをフィルタリングする必要があります。計算リソースの制約により、現在はモデルの倫理と安全性のためにRLHFを実装することも、特定の質問に答えることを拒否するSFTサンプルでの訓練を行って制限的な微調整を行うこともできません。
データセット
このモデルは以下のデータセットを使用して訓練されています。
データセット |
JosephusCheung/GuanacoDataset |
Open - Orca/OpenOrca |
stingning/ultrachat |
meta - math/MetaMathQA |
liuhaotian/LLaVA - Instruct - 150K |
jondurbin/airoboros - 3.1 |
WizardLM/WizardLM_evol_instruct_V2_196k |
RyokoAI/ShareGPT52K |
RyokoAI/Fandom23K |
milashkaarshif/MoeGirlPedia_wikitext_raw_archive |
wikipedia |
wiki_lingua |
fnlp/moss - 003 - sft - data |
garage - bAInd/Open - Platypus |
LDJnr/Puffin |
openbmb/llava_zh |
BAAI/COIG |
TigerResearch/tigerbot - zhihu - zh - 10k |
liwu/MNBVC |
teknium/openhermes |
openbmb/UltraFeedback |
lmsys/lmsys - chat - 1m |
📄 ライセンス
元のモデルのライセンスは「wtfpl」と記載されていますが、「Meta Llama 2 License Terms」に従う必要があります。