🚀 DNA-R1
DNA-R1 是一款基于微软 Phi-4 专为韩语优化的专业推理模型。通过采用与 DeepSeek-R1 相同的大规模强化学习(RL)方法,显著提升了模型在韩语方面的推理能力。该模型展现出对韩语文本的深刻理解,在数学、编码和通用推理任务中均表现出卓越的推理能力。
🚀 快速开始
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
tokenizer = AutoTokenizer.from_pretrained('dnotitia/DNA-R1')
model = AutoModelForCausalLM.from_pretrained('dnotitia/DNA-R1', device_map='auto')
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
conversation = [
{"role": "user", "content": """
어려서부터 우리 집은 가난했었고
남들 다하는 외식 몇 번 한 적이 없었고
일터에 나가신 어머니 집에 없으면
언제나 혼자서 끓여 먹었던 라면
그러다 라면이 너무 지겨워서
맛있는 것 좀 먹자고 대들었었어
그러자 어머님이 마지못해 꺼내신
숨겨두신 비상금으로 시켜주신
짜장면 하나에 너무나 행복했었어
하지만 어머님은 왠지 드시질 않았어
어머님은 짜장면이 싫다고 하셨어
어머님은 짜장면이 싫다고 하셨어
야이야~야 그렇게 살아가고
그렇게 후회하고 눈물도 흘리고
야이야~야 그렇게 살아가고
너무나 아프고 하지만 다시 웃고
---
친구가 쓴 시인데, 여기서 친구의 어머니가 짜장면이 싫다고 하신 이유는?사랑or희생?"""},
]
inputs = tokenizer.apply_chat_template(conversation,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt").to(model.device)
_ = model.generate(**inputs, streamer=streamer)
✨ 主要特性
- 基于微软 Phi-4 模型,专为韩语推理进行优化。
- 通过大规模强化学习,显著提升韩语推理能力。
- 能够深刻理解韩语文本,在数学、编码和通用推理任务中表现出色。
- 具备自我验证、反思和生成长思维链(CoT)的能力。
📦 模型规格
属性 |
详情 |
开发方 |
Dnotitia Inc. |
支持语言 |
韩语、英语 |
模型发布日期 |
2025 年 3 月 6 日 |
参数数量 |
140 亿 |
许可证 |
CC BY-NC 4.0 |
🔧 技术细节
多阶段训练流程
为提升 Phi-4 在韩语推理方面的能力,我们采用了一套复杂的训练方法:
- 第一阶段:初始基础:使用从 DNA 1.0 8B Instruct 训练流程中复用的大规模韩语非推理数据集(76 万个示例)进行监督微调。
- 第二阶段:推理整合:利用专门的韩语推理数据集(30 万个示例),从 DeepSeek R1 中引入韩语推理模式。
- 第三阶段:高级优化:使用 GRPO 进行强化学习优化,结合韩语/英语推理数据集,以格式、准确性和语言一致性作为奖励。
这种系统的方法使 DNA-R1 能够针对复杂问题开发出精细的思维链(CoT)推理能力,从而在保持强大通用能力的同时,针对韩语推理进行了精细校准。
性能亮点
我们针对韩语的多阶段训练流程显著提升了 Phi-4 基础模型对韩语上下文的理解、推理深度和响应能力。该模型在以下方面表现出色:
- 生成细致入微的韩语思维链(CoT)。
- 进行严格的自我验证。
- 解决多步骤复杂问题。
- 在推理过程中保持文化和语言背景。
- 使用
<think>
和 <answer>
标签区分深度思考和简洁回答。
📊 评估结果
以下是我们在数学、编码、科学、韩语和通用性能基准测试中对 DNA-R1 模型的评估结果。尽管 DNA-R1 模型只有 140 亿参数,但在各种基准测试中,其性能优于许多更大规模的模型。
基准测试 |
任务 |
DNA-R1 (14B) |
DeepSeek-R1-Distill-Qwen-14B |
DeepSeek-R1-Distill-Qwen-32B |
EXAONE-3.5-32B-Instruct |
QwQ-32B-Preview |
gpt-4o-0513 |
o1-mini |
o1-preview |
GSM8K |
数学 |
92.49 |
88.63 |
82.64 |
91.9 |
82.41 |
- |
- |
- |
Math500 |
数学 |
89.4 |
88.2 |
87.4 |
75.8 |
92.2 |
75.8 |
85.6 |
81.4 |
AIME2024 |
数学 |
53.3 |
69.7 |
72.6 |
6.67 |
50.0 |
8.6 |
64.0 |
40 |
OlympiadBench (Math, EN) |
数学 |
59.94 |
56.82 |
55.34 |
38.58 |
62.17 |
- |
- |
59.2 |
GPQA-Diamond |
科学/推理 |
61.11 |
59.1 |
58.08 |
33.33 |
52.5 |
46.5 |
60 |
75.2 |
LiveCodeBench |
编码 |
50.58 |
59.88 |
61.65 |
19.8 |
59.12 |
50.48 |
72.75 |
59.14 |
KMMLU-direct |
韩语 |
59.9 |
50.5 |
58.62 |
50.72 |
62.96 |
- |
- |
- |
KMMLU-hard |
韩语 |
36.65 |
25.34 |
33.67 |
25.46 |
37.98 |
- |
- |
- |
KoBEST |
韩语 |
83.05 |
74.32 |
78.53 |
86.54 |
85.93 |
- |
- |
- |
MMLU-Pro |
通用 |
57.64 |
50.55 |
59.58 |
- |
46.82 |
- |
- |
- |
📄 许可证
本模型采用 CC BY-NC 4.0 许可证发布。如果您有任何问题或商业使用咨询,请 联系我们。
📚 引用
如果您在学术研究中使用或讨论此模型,请引用该项目以帮助推广:
@misc{dnar12025,
title={DNA R1},
author={Jungyup Lee and Jemin Kim and Sang Park and SeungJae Lee},
year={2025},
publisher={HuggingFace},
url={https://huggingface.co/dnotitia/DNA-R1}
}
⚠️ 重要提示
本模型可用于商业用途。如果您希望进行商业使用,请通过 联系我们 进行咨询。我们将通过简单的协商程序批准您的商业使用。