Reflection-Llama-3.1 - 70Bオープンソース大規模言語モデル - 自主的誤り訂正と最適化推論の方向

ホーム

Reflection Llama 3.1 70B

mattshumerによって開発

Reflection Llama-3.1 70B はオープンソースの大規模言語モデルで、'反省チューニング'技術を用いてトレーニングされ、自主的に推論エラーを検出し修正することができます。

大規模言語モデル

Transformers

#自己修正推論 #合成データによるトレーニング #思考の可視化出力

ダウンロード数 199

リリース時間 : 9/5/2024

モデル概要

Llama 3.1 70B Instructをベースにトレーニングされ、複雑な推論と反省能力を備え、特殊なマーカーで推論プロセスと最終回答を分離します。

モデル特徴

反省チューニング技術

自主的に推論エラーを検出し<reflection>マーカー内で修正可能

透明な推論プロセス

<thinking>と</thinking>マーカー間で完全な推論プロセスを出力

標準化された出力フォーマット

最終回答は<output>と</output>マーカー内に配置され、思考と出力を分離

高性能ベース

現在最も強力なオープンソースモデルLlama 3.1 70B Instructを基盤

モデル能力

複雑な論理推論

自己エラー検出

マルチターン対話

テキスト生成

指示追従

使用事例

インテリジェントアシスタント

高精度Q&Aシステム

反省メカニズムにより回答の正確性を確保

従来モデルに比べ推論エラーを減少

教育分野

問題解決プロセス表示

学習参考のため完全な思考経路を表示

AI推論プロセスの透明化

🚀 Reflection Llama-3.1 70B

Reflection Llama-3.1 70Bはオープンソースの大規模言語モデル（LLM）で、Reflection-Tuningと呼ばれる新しい手法で学習されています。この手法により、モデルは推論の誤りを検出し、修正する能力を獲得しています。

モデルはGlaiveによって生成された合成データを使用して学習されました。もしあなたがモデルを学習させる場合は、Glaiveをおすすめします。

こちらでモデルを試すことができます。

✨ 主な機能

ベンチマーク

Llama 3.1 70B Instructから学習されたReflection Llama-3.1 70Bは、他のLlamaモデルと同じコードやパイプラインを使用してサンプリングすることができます。また、標準のLlama 3.1チャットテンプレート形式を使用しています（ただし、推論と反省を支援するためにいくつかの新しい特殊トークンを学習させています）。

サンプリング中、モデルは<thinking>と</thinking>タグ内に推論を出力し始め、推論に満足すると、<output>と</output>タグ内に最終的な回答を出力します。これらのタグはすべて特殊トークンで、モデルに学習されています。

これにより、モデルは内部の思考と推論を最終的な回答から分離することができ、ユーザー体験が向上します。

<thinking>セクション内で、モデルは1つ以上の<reflection>タグを出力することがあります。これは、モデルが推論の誤りを検出し、最終的な回答を提供する前に修正を試みることを示しています。

システムプロンプト

このモデルの学習に使用されたシステムプロンプトは次の通りです。

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.

Reflection Llama-3.1 70Bから最良の結果を得るためには、このシステムプロンプトを正確に使用することをおすすめします。また、このシステムプロンプトと独自のカスタム指示を組み合わせて、モデルの動作をカスタマイズすることもできます。

チャット形式

前述のように、このモデルは標準のLlama 3.1チャット形式を使用しています。以下に例を示します。

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.<|eot_id|><|start_header_id|>user<|end_header_id|>

what is 2+2?<|eot_id|><|start_header_id|>assistant<|end_header_id|>