🚀 ReasoningCore‑3B-RE01
ReasoningCore‑3B は、EpitemeAIによって開発された多言語対応で推論能力が強化された大規模言語モデルです。このモデルは、大量の公開データで事前学習され、指令微調整を行っており、細かい推論、対話管理、検索、要約タスクで優れた性能を発揮し、一連の業界基準テストで、多くの現在のオープンソースおよび専用の対話モデルを上回ることが多いです。このモデルは、推論データセットを使用して微調整されています。
⚠️ 重要な注意事項
これは実験的なモデルです。
🚀 クイックスタート
ReasoningCore‑3Bは、人気のある機械学習フレームワークを使用して統合することができます。主に2つの方法が提供されています。
システムプロンプトの使用
SYSTEM_PROMPT = """
以下の形式で返信してください:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""
Transformersフレームワークの使用
4.43.0以上のバージョンのtransformersがインストールされていることを確認してください。
pip install --upgrade transformers
import torch
from transformers import pipeline
model_id = "EpistemeAI/ReasoningCore-3B-R01"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
print(pipe("The secret to effective reasoning is"))
数学問題の場合
システムプロンプトで "Please reason step by step, and put your final answer within \boxed{}" を使用してください。
✨ 主な機能
- 多言語対応:英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語が公式にサポートされています。事前学習ではより広範な言語がカバーされており、コミュニティのライセンスと許容使用ポリシーに基づいて、他の言語に対して微調整することができます。
- 推論能力の強化:専用の推論データセットで微調整されており、推論、対話管理、検索、要約タスクで優れた性能を発揮します。
- セキュリティ対策:組み込みのセキュリティガードレールがあり、高度なデータ選択と応答最適化技術により、敵対的な悪用を軽減しています。
📦 インストール
Transformersフレームワークを使用して統合する場合は、4.43.0以上のバージョンのtransformersがインストールされていることを確認してください。
pip install --upgrade transformers
📚 ドキュメント
モデル情報
プロパティ |
詳細 |
モデル開発者 |
EpitemeAI |
モデルアーキテクチャ |
ReasoningCore‑3Bは、最適化されたTransformerアーキテクチャに基づいて構築された自己回帰型言語モデルです。専用の推論パスを含み、グループロバスト偏好最適化(GRPO)、教師あり学習、人間フィードバックに基づく強化学習(RLHF)を使用して微調整されており、複雑なタスクで人間の明確性、正確性、安全性の期待に沿うように設計されています。 |
学習データ |
公開されているオンラインデータの新しい組み合わせ |
パラメータ数 |
30億 |
入力モード |
多言語テキスト |
出力モード |
多言語テキストとコード |
コンテキスト長 |
128k |
GQA |
はい |
共有埋め込み |
はい |
トークン数 |
最大9Tトークン |
知識截止日 |
2023年12月 |
サポート言語 |
英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語が公式にサポートされています。コミュニティのライセンスと許容使用ポリシーに基づいて、他の言語に対して微調整することができます。 |
モデル公開日 |
2024年9月25日 |
状態 |
オフラインデータセットを使用して学習された静的モデルです。将来のバージョンでは、推論能力とセキュリティ機能がさらに強化される可能性があります。 |
ライセンス |
使用は Llama 3.2 コミュニティライセンス(カスタム商用ライセンス契約)によって制限されています。 |
フィードバック |
問題や提案がある場合は、GitHubリポジトリのREADME を参照するか、リンクの説明に従ってください。 |
想定される用途
使用シーン
- 対話型AI:アシスタントのような対話
- 知識検索と要約:動的な情報抽出と要約
- モバイルAI執筆アシスタント:クエリの再構築と自然言語生成
- 一般的な自然言語生成:高度な推論能力が必要なアプリケーション
不適切な用途
- 適用される法律や貿易コンプライアンス規定に違反するデプロイ
- 許容使用ポリシーやライセンス条項に抵触するユースケース
- 明示的にサポートされていない言語でのデプロイ(追加のセキュリティとパフォーマンスの検証を行っていない場合)
責任とセキュリティ
責任あるデプロイ
- 方法:ReasoningCore‑3Bは基礎技術であり、組み込みのセキュリティガードレールを備えています。開発者は、特定のアプリケーションに応じて追加のセキュリティ対策を統合することが推奨されます。
- システムレベルのセキュリティ:このモデルは、より広範なシステムの一部としてデプロイされるように設計されており、そのシステムはセキュリティ対策(プロンプト保護、コード保護など)を実施して、敵対的な条件下でも出力が安全であることを保証します。
セキュリティ微調整とデータ戦略
- 目標:安全で有用な推論システムを構築するための信頼できるツールを提供し、高度なデータ選択と応答最適化技術により、敵対的な悪用を軽減すること。
- 方法:学習中に敵対的なプロンプトを組み込んで、モデルの拒否と応答の口調を改善します。人工的に作成されたデータと合成データを組み合わせ、教師あり学習、拒否サンプリング、偏好最適化を使用して反復的に微調整します。
評価とレッドチームテスト
- 大規模評価:専用の敵対的データセットを使用して、モデルの堅牢性を厳密にテストします。開発者は、特定のコンテキストでの評価を行う必要があります。
- レッドチームテスト:サイバーセキュリティ、敵対的機械学習、責任あるAIの分野の専門家が定期的にレッドチーム演習を行って、脆弱性を特定し、性能とセキュリティを向上させます。
主要なリスク軽減
- CBRNE:モデルは、化学、生物、放射性、核、爆発物質に関連する有害な活動を強化しないことが評価されています。
- 子供の安全:専門家による評価を行って、潜在的な子供の安全リスクを評価し、軽減しています。
- サイバー攻撃:モデルが自主的にサイバー攻撃行動を促進しないように対策が講じられています。
倫理的考慮事項と制限事項
- 核心価値観:ReasoningCore‑3Bは、開放性、包容性、有用性の価値観に基づいて構築されています。ユーザーの自律性を尊重し、自由な思考と表現を促進しながら、潜在的な危害を軽減することを目的としています。
- テストと制限事項:様々なシナリオで広範囲にテストされていますが、モデルは時折、不正確、偏見、不快な出力を生成する可能性があります。開発者は、必要に応じて追加のセキュリティテストを行い、追加のセキュリティ対策を統合する必要があります。
- 安全なデプロイのリソース:責任ある使用ガイド、信頼とセキュリティのリソース、入門ガイド
アップロードされたモデル
- 開発者:EpistemeAI
- ライセンス:apache-2.0
- 微調整ベースモデル:EpistemeAI/ReasoningCore-3B-0
このLlamaモデルは、UnslothとHuggingfaceのTRLライブラリを使用して2倍の速度で学習されています。

まとめ
ReasoningCore‑3B は、多言語対応で推論能力が強化された言語モデルにおいて大きな進歩を遂げています。深度のある推論、コンテキスト理解、安全で有用な対話が必要なタスクに最適化されており、商用および研究アプリケーションに強力なツールを提供します。開発者や研究者には、このモデルの機能を探索し、安全で革新的なAIシステムの構築に貢献することをお勧めします。
詳細情報、質問、フィードバックについては、episteme.ai@proton.meまでメールを送信してください。