🚀 ReasoningCore‑3B-RE01
ReasoningCore‑3B 是由 EpitemeAI 开发的多语言、推理能力增强的大语言模型。它在大量公开可用数据上进行了预训练,并经过指令调优,在细致推理、对话管理、检索和总结任务中表现出色,在一系列行业基准测试中,往往优于许多当前的开源和专有对话模型。该模型使用推理数据集进行了微调。
⚠️ 重要提示
这是一个实验性模型。
🚀 快速开始
ReasoningCore‑3B 可以使用流行的机器学习框架进行集成。主要提供了两种方法:
使用系统提示
SYSTEM_PROMPT = """
以以下格式进行回复:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""
使用 Transformers 框架
确保你已经安装了 4.43.0 或更高版本的 transformers:
pip install --upgrade transformers
import torch
from transformers import pipeline
model_id = "EpistemeAI/ReasoningCore-3B-R01"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
print(pipe("The secret to effective reasoning is"))
对于数学问题
请在系统提示中使用 "Please reason step by step, and put your final answer within \boxed{}"
✨ 主要特性
- 多语言支持:官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。预训练涵盖了更广泛的语言,并且可以根据社区许可和可接受使用政策对其他语言进行微调。
- 推理能力增强:经过专门的推理数据集微调,在推理、对话管理、检索和总结任务中表现出色。
- 安全保障:内置安全护栏,并通过先进的数据选择和响应优化技术减轻对抗性滥用。
📦 安装指南
使用 Transformers 框架集成时,确保安装 4.43.0 或更高版本的 transformers:
pip install --upgrade transformers
📚 详细文档
模型信息
属性 |
详情 |
模型开发者 |
EpitemeAI |
模型架构 |
ReasoningCore‑3B 是基于优化的 Transformer 架构构建的自回归语言模型。它包含专门的推理路径,并使用组鲁棒偏好优化(GRPO)以及监督学习和基于人类反馈的强化学习(RLHF)进行了微调,以在复杂任务中符合人类对清晰度、准确性和安全性的期望。 |
训练数据 |
公开可用的在线数据的新组合。 |
参数数量 |
30 亿 |
输入模态 |
多语言文本 |
输出模态 |
多语言文本和代码 |
上下文长度 |
128k |
GQA |
是 |
共享嵌入 |
是 |
令牌计数 |
最多 9T 令牌 |
知识截止日期 |
2023 年 12 月 |
支持的语言 |
官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。可根据社区许可和可接受使用政策对其他语言进行微调。 |
模型发布日期 |
2024 年 9 月 25 日 |
状态 |
基于离线数据集训练的静态模型。未来的迭代可能会进一步增强其推理能力和安全特性。 |
许可证 |
使用受 Llama 3.2 社区许可证(自定义商业许可协议)的约束。 |
反馈 |
如有问题或建议,请参考 GitHub 仓库 README 或按照链接说明操作。 |
预期用途
使用场景
- 对话式 AI:类似助手的交互。
- 知识检索与总结:动态提取和浓缩信息。
- 移动 AI 写作助手:查询重新表述和自然语言生成。
- 通用自然语言生成:任何受益于高级推理能力的应用。
不适用范围
- 违反适用法律或贸易合规规定的部署。
- 与可接受使用政策或许可条款冲突的用例。
- 在未明确支持的语言中进行部署(除非进行了额外的安全和性能验证)。
责任与安全
负责任的部署
- 方法:ReasoningCore‑3B 是一种基础技术,包含内置的安全护栏。鼓励开发者根据其特定应用集成额外的安全措施。
- 系统级安全:该模型设计为作为更广泛系统的一部分进行部署,该系统实施安全措施(如提示防护、代码防护),以确保即使在对抗性条件下输出仍然安全。
安全微调与数据策略
- 目标:为构建安全且有用的推理系统提供可靠的工具;通过先进的数据选择和响应优化技术减轻对抗性滥用。
- 方法:在训练期间纳入对抗性提示以改进模型的拒绝和响应语气;将人工策划的数据与合成数据相结合;使用监督学习、拒绝采样和偏好优化进行迭代微调。
评估和红队测试
- 大规模评估:使用专门的对抗性数据集对模型的鲁棒性进行严格测试。开发者应进行特定上下文的评估。
- 红队测试:网络安全、对抗性机器学习和负责任 AI 领域的专家进行定期的红队演习,以识别漏洞并提高性能和安全性。
关键风险缓解
- CBRNE:对模型进行了评估,以确保它不会增强涉及化学、生物、放射性、核或爆炸材料的有害活动能力。
- 儿童安全:进行了专家评估,以评估和减轻潜在的儿童安全风险。
- 网络攻击:采取了措施确保模型不能自主促进网络攻击行动。
伦理考虑和局限性
- 核心价值观:ReasoningCore‑3B 基于开放、包容和有用的价值观构建。它旨在尊重用户自主权,促进自由思考和表达,同时减轻潜在危害。
- 测试和局限性:尽管在各种场景下进行了广泛测试,但模型偶尔可能会产生不准确、有偏见或令人反感的输出。开发者必须根据需要进行额外的安全测试并集成更多的安全措施。
- 安全部署资源:负责任使用指南、信任与安全资源、入门指南
上传的模型
- 开发者:EpistemeAI
- 许可证:apache-2.0
- 微调基础模型:EpistemeAI/ReasoningCore-3B-0
这个 Llama 模型使用 Unsloth 和 Huggingface 的 TRL 库进行了 2 倍加速训练。

总结
ReasoningCore‑3B 在多语言、推理能力增强的语言模型方面取得了重大进展。它针对需要深度推理、上下文理解以及安全、有用交互的任务进行了优化,为商业和研究应用提供了强大的工具。我们邀请开发者和研究人员探索其功能,并为构建安全、创新的 AI 系统做出贡献。
如需更多详细信息、提问或反馈,请发送电子邮件至 episteme.ai@proton.me。