🚀 ReasoningCore‑3B-RE01
ReasoningCore‑3B 是由 EpitemeAI 開發的多語言、推理能力增強的大語言模型。它在大量公開可用數據上進行了預訓練,並經過指令調優,在細緻推理、對話管理、檢索和總結任務中表現出色,在一系列行業基準測試中,往往優於許多當前的開源和專有對話模型。該模型使用推理數據集進行了微調。
⚠️ 重要提示
這是一個實驗性模型。
🚀 快速開始
ReasoningCore‑3B 可以使用流行的機器學習框架進行集成。主要提供了兩種方法:
使用系統提示
SYSTEM_PROMPT = """
以以下格式進行回覆:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""
使用 Transformers 框架
確保你已經安裝了 4.43.0 或更高版本的 transformers:
pip install --upgrade transformers
import torch
from transformers import pipeline
model_id = "EpistemeAI/ReasoningCore-3B-R01"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
print(pipe("The secret to effective reasoning is"))
對於數學問題
請在系統提示中使用 "Please reason step by step, and put your final answer within \boxed{}"
✨ 主要特性
- 多語言支持:官方支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。預訓練涵蓋了更廣泛的語言,並且可以根據社區許可和可接受使用政策對其他語言進行微調。
- 推理能力增強:經過專門的推理數據集微調,在推理、對話管理、檢索和總結任務中表現出色。
- 安全保障:內置安全護欄,並通過先進的數據選擇和響應優化技術減輕對抗性濫用。
📦 安裝指南
使用 Transformers 框架集成時,確保安裝 4.43.0 或更高版本的 transformers:
pip install --upgrade transformers
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型開發者 |
EpitemeAI |
模型架構 |
ReasoningCore‑3B 是基於優化的 Transformer 架構構建的自迴歸語言模型。它包含專門的推理路徑,並使用組魯棒偏好優化(GRPO)以及監督學習和基於人類反饋的強化學習(RLHF)進行了微調,以在複雜任務中符合人類對清晰度、準確性和安全性的期望。 |
訓練數據 |
公開可用的在線數據的新組合。 |
參數數量 |
30 億 |
輸入模態 |
多語言文本 |
輸出模態 |
多語言文本和代碼 |
上下文長度 |
128k |
GQA |
是 |
共享嵌入 |
是 |
令牌計數 |
最多 9T 令牌 |
知識截止日期 |
2023 年 12 月 |
支持的語言 |
官方支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。可根據社區許可和可接受使用政策對其他語言進行微調。 |
模型發佈日期 |
2024 年 9 月 25 日 |
狀態 |
基於離線數據集訓練的靜態模型。未來的迭代可能會進一步增強其推理能力和安全特性。 |
許可證 |
使用受 Llama 3.2 社區許可證(自定義商業許可協議)的約束。 |
反饋 |
如有問題或建議,請參考 GitHub 倉庫 README 或按照鏈接說明操作。 |
預期用途
使用場景
- 對話式 AI:類似助手的交互。
- 知識檢索與總結:動態提取和濃縮信息。
- 移動 AI 寫作助手:查詢重新表述和自然語言生成。
- 通用自然語言生成:任何受益於高級推理能力的應用。
不適用範圍
- 違反適用法律或貿易合規規定的部署。
- 與可接受使用政策或許可條款衝突的用例。
- 在未明確支持的語言中進行部署(除非進行了額外的安全和性能驗證)。
責任與安全
負責任的部署
- 方法:ReasoningCore‑3B 是一種基礎技術,包含內置的安全護欄。鼓勵開發者根據其特定應用集成額外的安全措施。
- 系統級安全:該模型設計為作為更廣泛系統的一部分進行部署,該系統實施安全措施(如提示防護、代碼防護),以確保即使在對抗性條件下輸出仍然安全。
安全微調與數據策略
- 目標:為構建安全且有用的推理系統提供可靠的工具;通過先進的數據選擇和響應優化技術減輕對抗性濫用。
- 方法:在訓練期間納入對抗性提示以改進模型的拒絕和響應語氣;將人工策劃的數據與合成數據相結合;使用監督學習、拒絕採樣和偏好優化進行迭代微調。
評估和紅隊測試
- 大規模評估:使用專門的對抗性數據集對模型的魯棒性進行嚴格測試。開發者應進行特定上下文的評估。
- 紅隊測試:網絡安全、對抗性機器學習和負責任 AI 領域的專家進行定期的紅隊演習,以識別漏洞並提高性能和安全性。
關鍵風險緩解
- CBRNE:對模型進行了評估,以確保它不會增強涉及化學、生物、放射性、核或爆炸材料的有害活動能力。
- 兒童安全:進行了專家評估,以評估和減輕潛在的兒童安全風險。
- 網絡攻擊:採取了措施確保模型不能自主促進網絡攻擊行動。
倫理考慮和侷限性
- 核心價值觀:ReasoningCore‑3B 基於開放、包容和有用的價值觀構建。它旨在尊重用戶自主權,促進自由思考和表達,同時減輕潛在危害。
- 測試和侷限性:儘管在各種場景下進行了廣泛測試,但模型偶爾可能會產生不準確、有偏見或令人反感的輸出。開發者必須根據需要進行額外的安全測試並集成更多的安全措施。
- 安全部署資源:負責任使用指南、信任與安全資源、入門指南
上傳的模型
- 開發者:EpistemeAI
- 許可證:apache-2.0
- 微調基礎模型:EpistemeAI/ReasoningCore-3B-0
這個 Llama 模型使用 Unsloth 和 Huggingface 的 TRL 庫進行了 2 倍加速訓練。

總結
ReasoningCore‑3B 在多語言、推理能力增強的語言模型方面取得了重大進展。它針對需要深度推理、上下文理解以及安全、有用交互的任務進行了優化,為商業和研究應用提供了強大的工具。我們邀請開發者和研究人員探索其功能,併為構建安全、創新的 AI 系統做出貢獻。
如需更多詳細信息、提問或反饋,請發送電子郵件至 episteme.ai@proton.me。