🚀 Reflection Llama-3.1 70B
Reflection Llama-3.1 70Bはオープンソースの大規模言語モデル(LLM)で、Reflection-Tuningと呼ばれる新しい手法で学習されています。この手法により、モデルは推論の誤りを検出し、修正する能力を獲得しています。
モデルはGlaiveによって生成された合成データを使用して学習されました。もしあなたがモデルを学習させる場合は、Glaiveをおすすめします。
こちらでモデルを試すことができます。
✨ 主な機能
ベンチマーク
Llama 3.1 70B Instructから学習されたReflection Llama-3.1 70Bは、他のLlamaモデルと同じコードやパイプラインを使用してサンプリングすることができます。また、標準のLlama 3.1チャットテンプレート形式を使用しています(ただし、推論と反省を支援するためにいくつかの新しい特殊トークンを学習させています)。
サンプリング中、モデルは<thinking>
と</thinking>
タグ内に推論を出力し始め、推論に満足すると、<output>
と</output>
タグ内に最終的な回答を出力します。これらのタグはすべて特殊トークンで、モデルに学習されています。
これにより、モデルは内部の思考と推論を最終的な回答から分離することができ、ユーザー体験が向上します。
<thinking>
セクション内で、モデルは1つ以上の<reflection>
タグを出力することがあります。これは、モデルが推論の誤りを検出し、最終的な回答を提供する前に修正を試みることを示しています。
システムプロンプト
このモデルの学習に使用されたシステムプロンプトは次の通りです。
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.
Reflection Llama-3.1 70Bから最良の結果を得るためには、このシステムプロンプトを正確に使用することをおすすめします。また、このシステムプロンプトと独自のカスタム指示を組み合わせて、モデルの動作をカスタマイズすることもできます。
チャット形式
前述のように、このモデルは標準のLlama 3.1チャット形式を使用しています。以下に例を示します。
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.<|eot_id|><|start_header_id|>user<|end_header_id|>
what is 2+2?<|eot_id|><|start_header_id|>assistant<|end_header_id|>
パフォーマンスに関するヒント
- 最初は
temperature
を.7
、top_p
を.95
に設定することをおすすめします。
- 精度を上げるには、メッセージの末尾に
Think carefully.
を追加してください。
データセットとレポート
このモデルの学習に使用したデータセットと、学習方法を詳述した簡単なレポートは、来週に公開予定です。同時に、世界で最も性能の高いLLMになると期待されるReflection 405Bモデルも公開されます。
📄 ライセンス
属性 |
详情 |
ライセンス |
llama3.1 |
ベースモデル |
meta-llama/Meta-Llama-3.1-70B-Instruct |
パイプラインタグ |
text-generation |
ライブラリ名 |
transformers |
⚠️ 重要なお知らせ
このモデルを最初にアップロードした際に問題がありました。もし試して良い結果が得られなかった場合は、再度試してみてください。問題を修正したと思われます。
💡 謝辞
来週公開予定のレポートの草案をレビューしてくれたHyperWriteチームのJason KuperbergとJosh Bickettに感謝します。
💡 注意事項
現時点でモデルは多数のファイルに分割されていますが、近日中にまとめて、モデルのダウンロードと使用を容易にする予定です。