🚀 OPENCHAT 3.5
OPENCHAT 3.5は強力なオープンソース言語モデルで、混合品質データを用いて性能を向上させ、コーディングや数学的推論などの多くの分野で優れた性能を発揮します。また、実験的な評価とフィードバック機能も備えています。
🚀 クイックスタート
このモデルを使用するには、インストールガイドに従ってOpenChatパッケージをインストールし、以下の表にあるサービスコマンドを実行して、OpenAI互換のOpenChat APIサーバーを使用することを強くおすすめします。このサーバーは、vLLMを使用して高スループットなデプロイが最適化されており、24GB RAMの消費者向けGPUで実行できます。テンソル並列を有効にするには、サービスコマンドの後に--tensor-parallel-size N
を追加します。
サーバーが起動すると、localhost:18888
でリクエストを待ち受け、OpenAI ChatCompletion API仕様と互換性があります。以下のサンプルリクエストを参照してください。また、OpenChat Web UIを使用すると、より使いやすいユーザー体験が得られます。
サーバーをオンラインサービスとしてデプロイする場合は、--api-keys sk-KEY1 sk-KEY2 ...
で許可するAPIキーを指定し、--disable-log-requests --disable-log-stats --log-file openchat.log
を使用してログをファイルに記録することができます。セキュリティ上の理由から、サーバーの前にHTTPSゲートウェイを使用することをおすすめします。
モデル |
サイズ |
コンテキスト |
重み |
サービスコマンド |
OpenChat 3.5 1210 |
7B |
8192 |
Huggingface |
python -m ochat.serving.openai_api_server --model openchat/openchat-3.5-1210 --engine-use-ray --worker-use-ray |
サンプルリクエスト(クリックして展開)
✨ デフォルトモード(GPT4 Correct):コーディング、チャット、一般的なタスクに最適
curl http://localhost:18888/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "openchat_3.5",
"messages": [{"role": "user", "content": "You are a large language model named OpenChat. Write a poem to describe yourself"}]
}'
🧮 数学的推論モード:数学問題の解決に特化
curl http://localhost:18888/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "openchat_3.5",
"condition": "Math Correct",
"messages": [{"role": "user", "content": "10.3 ‚àí 7988.8133 = "}]
}'
対話テンプレート
✨ デフォルトモード(GPT4 Correct):コーディング、チャット、一般的なタスクに最適
GPT4 Correct User: Hello<|end_of_turn|>GPT4 Correct Assistant: Hi<|end_of_turn|>GPT4 Correct User: How are you today?<|end_of_turn|>GPT4 Correct Assistant:
🧮 数学的推論モード:数学問題の解決に特化
Math Correct User: 10.3 ‚àí 7988.8133=<|end_of_turn|>Math Correct Assistant:
⚠️ 重要な注意事項
<|end_of_turn|>
を生成終了タグとして設定することを忘れないでください。
デフォルト(GPT4 Correct)テンプレートは、統合されたtokenizer.chat_template
としても使用できるため、手動でテンプレートを指定する必要はありません。
messages = [
{"role": "user", "content": "Hello"},
{"role": "assistant", "content": "Hi"},
{"role": "user", "content": "How are you today?"}
]
tokens = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
assert tokens == [1, 420, 6316, 28781, 3198, 3123, 1247, 28747, 22557, 32000, 420, 6316, 28781, 3198, 3123, 21631, 28747, 15359, 32000, 420, 6316, 28781, 3198, 3123, 1247, 28747, 1602, 460, 368, 3154, 28804, 32000, 420, 6316, 28781, 3198, 3123, 21631, 28747]
✨ 主な機能
(実験的)評価器/フィードバック機能
このバージョンでは、オープンソースモデルを評価器として発展させるために、評価器機能が追加されました。デフォルトモード(GPT4 Correct)
と以下のプロンプト(Prometheusと同じ)を使用して、応答を評価することができます。
###タスク説明:
与えられた命令(入力を含む場合もあります)、評価対象の応答、得点が5の参照解答、および評価基準を表す評点規則が与えられます。
1. 与えられた評点規則に従って、応答の品質を一般的な評価ではなく、詳細なフィードバックを記述します。
2. フィードバックを記述した後、1から5までの整数の得点を付けてください。評点規則を参照してください。
3. 出力形式は、「フィードバック: (基準に沿ったフィードバック) [結果] (1から5までの整数)」としてください。
4. 他の冒頭、末尾、説明内容は生成しないでください。
###評価対象の命令:
{orig_instruction}
###評価対象の応答:
{orig_response}
###参照解答(得点5):
{orig_reference_answer}
###評点規則:
[{orig_criteria}]
得点1: {orig_score1_description}
得点2: {orig_score2_description}
得点3: {orig_score3_description}
得点4: {orig_score4_description}
得点5: {orig_score5_description}
###フィードバック:
📊 ベンチマーク
モデル |
パラメータ数 |
平均点 |
MT-Bench |
HumanEval |
BBH MC |
AGIEval |
TruthfulQA |
MMLU |
GSM8K |
BBH CoT |
OpenChat-3.5-1210 |
7B |
63.8 |
7.76 |
68.9 |
49.5 |
48.0 |
61.8 |
65.3 |
77.3 |
61.8 |
OpenChat-3.5 |
7B |
61.6 |
7.81 |
55.5 |
47.6 |
47.4 |
59.1 |
64.3 |
77.3 |
63.5 |
ChatGPT (March)* |
? |
61.5 |
7.94 |
48.1 |
47.6 |
47.1 |
57.7 |
67.3 |
74.9 |
70.1 |
OpenHermes 2.5 |
7B |
59.3 |
7.54 |
48.2 |
49.4 |
46.5 |
57.5 |
63.8 |
73.5 |
59.9 |
OpenOrca Mistral |
7B |
52.7 |
6.86 |
38.4 |
49.4 |
42.9 |
45.9 |
59.3 |
59.1 |
58.1 |
Zephyr-β^ |
7B |
34.6 |
7.34 |
22.0 |
40.6 |
39.0 |
40.8 |
39.8 |
5.1 |
16.0 |
Mistral |
7B |
- |
6.84 |
30.5 |
39.0 |
38.0 |
- |
60.1 |
52.2 |
- |
評価詳細(クリックして展開)
*: ChatGPT (March)の結果は、[GPT-4技術レポート](https://arxiv.org/abs/2303.08774)、[思维链中心](https://github.com/FranxYao/chain-of-thought-hub)、および当社の評価から取得されています。ChatGPTは固定されたベースラインではなく、その性能は時間とともに急速に変化することに注意してください。
^: Zephyr-Œ≤は、少ないサンプルの思考過程指令に従うことができないことが多いです。これは、チャットデータのみを使用してアライメントされ、少ないサンプルデータで訓練されていないためです。
**: Mistralとオープンソースの最良結果は、命令微調整モデルの論文と公式リポジトリで報告された結果から取得されています。
すべてのモデルは、チャットモードで評価されています(例えば、対応する対話テンプレートが適用されています)。すべてのゼロサンプルベンチマークは、AGIEval論文とOrca論文と同じ設定に従っています。思考過程タスクは、思维链中心と同じ設定を使用し、HumanEvalはEvalPlusを使用して評価され、MT-benchはFastChatで実行されています。当社の結果を再現するには、当社のリポジトリの説明に従ってください。
HumanEval+
モデル |
サイズ |
HumanEval+合格率@1 |
ChatGPT (2023年12月12日) |
- |
64.6 |
WizardCoder-Python-34B-V1.0 |
34B |
64.6 |
OpenChat 3.5 (12月10日) |
7B |
63.4 |
OpenHermes 2.5 |
7B |
41.5 |
OpenChat-3.5-1210とGrokの比較
|
ライセンス |
パラメータ数 |
平均点 |
MMLU |
HumanEval |
数学 |
GSM8k |
OpenChat 3.5 1210 |
Apache-2.0 |
7B |
60.1 |
65.3 |
68.9 |
28.9 |
77.3 |
OpenChat 3.5 |
Apache-2.0 |
7B |
56.4 |
64.3 |
55.5 |
28.6 |
77.3 |
Grok-0 |
専有 |
33B |
44.5 |
65.7 |
39.7 |
15.7 |
56.8 |
Grok-1 |
専有 |
???B |
55.8 |
73 |
63.2 |
23.9 |
62.9 |
*: Grokの結果は、X.AIによって報告されています。
中国語評価
⚠️ 重要な注意事項
このモデルは、中国語に対して明示的に訓練されていません(0.1%未満のデータが中国語です)。
多段階多学科中国語評価セット(CEVAL)
モデル |
平均点 |
STEM |
社会科学 |
人文科学 |
その他 |
ChatGPT |
54.4 |
52.9 |
61.8 |
50.9 |
53.6 |
OpenChat |
47.29 |
45.22 |
52.49 |
48.52 |
45.08 |
中国語大規模多タスク言語理解(CMMLU,5-shot)
モデル |
STEM |
人文科学 |
社会科学 |
その他 |
中国固有 |
平均点 |
ChatGPT |
47.81 |
55.68 |
56.5 |
62.66 |
50.69 |
55.51 |
OpenChat |
38.7 |
45.99 |
48.32 |
50.23 |
43.27 |
45.85 |
📄 制限事項
基礎モデルの制限
OpenChatは高度な能力を持っていますが、基礎モデルに固有の制限の影響を受けることがあります。これらの制限は、以下の分野でのモデルの性能に影響を与える可能性があります。
- 複雑な推論
- 数学と算術タスク
- プログラミングとコーディングの課題
存在しない情報の生成(幻覚)
OpenChatは、存在しないまたは不正確な情報を生成することがあります。これは「幻覚」と呼ばれます。ユーザーはこの可能性を認識し、モデルから取得した重要な情報を検証する必要があります。
安全性
OpenChatは、有害な、憎悪的な、偏見のある応答を生成したり、安全でない質問に答えたりすることがあります。安全で適切な応答が必要なユースケースでは、追加のAIセキュリティ対策を適用することが重要です。
📄 ライセンス
当社のOpenChat 3.5のコードとモデルは、Apacheライセンス2.0に基づいて配布されています。
📚 データセット詳細
OpenChat 3.5は、C - RLFTを使用して、公開されている高品質の命令データセットで訓練され、カスタム処理フローが採用されています。以下は、注目すべきサブセットです。
📚 引用
@article{wang2023openchat,
title={OpenChat: Advancing Open-source Language Models with Mixed-Quality Data},
author={Wang, Guan and Cheng, Sijie and Zhan, Xianyuan and Li, Xiangang and Song, Sen and Liu, Yang},
journal={arXiv preprint arXiv:2309.11235},
year={2023}
}
📇 お問い合わせ
当社はあなたからの声を楽しみにしており、この素晴らしいプロジェクトでの協力を期待しています!
プロジェクト責任者:
- 王观 [imonenext at gmail dot com]
- Alpay Ariyak [aariyak at wpi dot edu]