CausalLM-14B-DPO-alpha-GGUFオープンソースモデル - 中国語と英語のテキスト生成をサポートし、より優れた效果を発揮！

Causallm 14B DPO Alpha GGUF

tastypearによって開発

14Bパラメータの因果言語モデルをベースに、DPO最適化トレーニングを経て、中英文テキスト生成タスクをサポート

大規模言語モデル複数言語対応#マルチターン対話最適化 #中英バイリンガル生成 #人間の嗜好への適合

ダウンロード数 2,238

リリース時間 : 11/25/2023

モデル概要

これは直接嗜好最適化(DPO)でトレーニングされた14Bパラメータの因果言語モデルで、テキスト生成タスク向けに設計されており、中英バイリンガル処理をサポートします。MT-Benchベンチマークテストで優れた性能を発揮し、GPT-3.5レベルに近い結果を示しています。

モデル特徴

DPO最適化トレーニング

直接嗜好最適化手法を採用し、モデル出力を人間の嗜好により適合させる

バイリンガルサポート

英語と中国語のテキスト生成タスクを同時にサポート

高性能

MT-Benchベンチマークテストで7.618868のスコアを獲得、GPT-3.5レベルに近い

GGUFフォーマットサポート

GGUFフォーマットモデルファイルを提供し、様々な推論クライアントやライブラリと互換性がある

モデル能力

テキスト生成

対話システム

質問応答システム

コンテンツ作成

使用事例

インテリジェント対話

チャットボット

中英バイリンガルチャットボットの構築

GPT-3.5レベルの対話体験

コンテンツ作成

記事生成

プロンプトに基づき中英文記事を生成

🚀 CausalLM 14B-DPO-alpha - GGUF

このモデルは、自然言語処理におけるテキスト生成タスクに特化しており、多様なデータセットで訓練され、英語と中国語に対応しています。

🚀 クイックスタート

このリポジトリには、CausalLMの14B - DPO - alpha のGGUF形式のモデルファイルが含まれています。

✨ 主な機能

多言語対応: 英語と中国語でのテキスト生成が可能です。
多様なデータセットで訓練: 様々なデータセットを使用して訓練されているため、幅広いタスクに対応できます。

📦 インストール

READMEに具体的なインストール手順は記載されていません。

💻 使用例

基本的な使用法

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📚 ドキュメント

モデルについて

このモデルは、CausalLMによって作成されたCausalLM 14B - DPO - alphaのGGUF形式のバージョンです。元のモデルはCausalLM 14B - DPO - alpha です。

GGUF形式について

GGUFは、2023年8月21日にllama.cppチームによって導入された新しい形式です。GGMLの代替となり、現在はllama.cppではGGMLはサポートされていません。

以下は、GGUFをサポートする既知のクライアントとライブラリの不完全なリストです。

llama.cpp。GGUFのソースプロジェクトで、CLIとサーバーオプションを提供します。
text - generation - webui、最も広く使用されているWeb UIで、多くの機能と強力な拡張機能を備えています。GPUアクセラレーションをサポートしています。
KoboldCpp、完全な機能を備えたWeb UIで、すべてのプラットフォームとGPUアーキテクチャでGPUアクセラレーションをサポートしています。特にストーリーテリングに適しています。
LM Studio、WindowsとmacOS (Silicon) 用の使いやすく強力なローカルGUIで、GPUアクセラレーションをサポートしています。
LoLLMS Web UI、多くの興味深い独自の機能を備えた素晴らしいWeb UIで、簡単なモデル選択のための完全なモデルライブラリを含んでいます。
Faraday.dev、WindowsとmacOS (SiliconとIntelの両方) 用の魅力的で使いやすいキャラクターベースのチャットGUIで、GPUアクセラレーションをサポートしています。
ctransformers、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAIサーバーを備えたPythonライブラリです。
llama - cpp - python、GPUアクセラレーション、LangChainサポート、およびOpenAI互換のAPIサーバーを備えたPythonライブラリです。
candle、パフォーマンスに重点を置いたRustのMLフレームワークで、GPUサポートと使いやすさを備えています。

プロンプトテンプレート

このモデルのプロンプトテンプレートはChatMLです。

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

ライセンス

元のモデルのライセンスは「wtfpl」と記載されていますが、「Meta Llama 2 License Terms」に従う必要があります。

元のモデルカード

詳細については、DPO訓練を行っていないバージョンを参照してください：CausalLM/14B。

モデル	MT - Bench
GPT - 4	8.99
GPT - 3.5 - Turbo	7.94

Zephyr - 7b - β (過学習)	7.34
Zephyr - 7b - α	6.88

CausalLM/14B - DPO - α	7.618868
CausalLM/7B - DPO - α	7.038125

これはCausalLM/14B & 7B上で継続的に訓練されたバージョンではなく、以前の訓練ブランチで同時にDPO訓練を行った最適化バージョンであり、いくつかの詳細なパラメータが変更されている可能性があります。まだ完全なモデルをダウンロードする必要があります。

betaブランチはすぐにリリースされます。一部のタスクで不利になる可能性のある積極的なアプローチを採用して、人間の好みにより適合するように調整し、GPT - 3.5のベンチマークを満たすまたは上回ることを目指しています。お楽しみに。

免責事項: このモデルは、フィルタリングされていないインターネットデータで訓練されています。すべてのデータを審査する能力がないため、大量の不快な内容、ポルノグラフィー、暴力、および攻撃的な言葉が含まれている可能性があり、私たちはそれらを削除することができません。したがって、モデルの安全性を独自に確認し、出力のキーワードをフィルタリングする必要があります。計算リソースの制約により、現在はモデルの倫理と安全性のためにRLHFを実装することも、特定の質問に答えることを拒否するSFTサンプルでの訓練を行って制限的な微調整を行うこともできません。

データセット

このモデルは以下のデータセットを使用して訓練されています。

データセット
JosephusCheung/GuanacoDataset
Open - Orca/OpenOrca
stingning/ultrachat
meta - math/MetaMathQA
liuhaotian/LLaVA - Instruct - 150K
jondurbin/airoboros - 3.1
WizardLM/WizardLM_evol_instruct_V2_196k
RyokoAI/ShareGPT52K
RyokoAI/Fandom23K
milashkaarshif/MoeGirlPedia_wikitext_raw_archive
wikipedia
wiki_lingua
fnlp/moss - 003 - sft - data
garage - bAInd/Open - Platypus
LDJnr/Puffin
openbmb/llava_zh
BAAI/COIG
TigerResearch/tigerbot - zhihu - zh - 10k
liwu/MNBVC
teknium/openhermes
openbmb/UltraFeedback
lmsys/lmsys - chat - 1m