🚀 DNA-R1
DNA-R1 是一款基於微軟 Phi-4 專為韓語優化的專業推理模型。通過採用與 DeepSeek-R1 相同的大規模強化學習(RL)方法,顯著提升了模型在韓語方面的推理能力。該模型展現出對韓語文本的深刻理解,在數學、編碼和通用推理任務中均表現出卓越的推理能力。
🚀 快速開始
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
tokenizer = AutoTokenizer.from_pretrained('dnotitia/DNA-R1')
model = AutoModelForCausalLM.from_pretrained('dnotitia/DNA-R1', device_map='auto')
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
conversation = [
{"role": "user", "content": """
어려서부터 우리 집은 가난했었고
남들 다하는 외식 몇 번 한 적이 없었고
일터에 나가신 어머니 집에 없으면
언제나 혼자서 끓여 먹었던 라면
그러다 라면이 너무 지겨워서
맛있는 것 좀 먹자고 대들었었어
그러자 어머님이 마지못해 꺼내신
숨겨두신 비상금으로 시켜주신
짜장면 하나에 너무나 행복했었어
하지만 어머님은 왠지 드시질 않았어
어머님은 짜장면이 싫다고 하셨어
어머님은 짜장면이 싫다고 하셨어
야이야~야 그렇게 살아가고
그렇게 후회하고 눈물도 흘리고
야이야~야 그렇게 살아가고
너무나 아프고 하지만 다시 웃고
---
친구가 쓴 시인데, 여기서 친구의 어머니가 짜장면이 싫다고 하신 이유는?사랑or희생?"""},
]
inputs = tokenizer.apply_chat_template(conversation,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt").to(model.device)
_ = model.generate(**inputs, streamer=streamer)
✨ 主要特性
- 基於微軟 Phi-4 模型,專為韓語推理進行優化。
- 通過大規模強化學習,顯著提升韓語推理能力。
- 能夠深刻理解韓語文本,在數學、編碼和通用推理任務中表現出色。
- 具備自我驗證、反思和生成長思維鏈(CoT)的能力。
📦 模型規格
屬性 |
詳情 |
開發方 |
Dnotitia Inc. |
支持語言 |
韓語、英語 |
模型發佈日期 |
2025 年 3 月 6 日 |
參數數量 |
140 億 |
許可證 |
CC BY-NC 4.0 |
🔧 技術細節
多階段訓練流程
為提升 Phi-4 在韓語推理方面的能力,我們採用了一套複雜的訓練方法:
- 第一階段:初始基礎:使用從 DNA 1.0 8B Instruct 訓練流程中複用的大規模韓語非推理數據集(76 萬個示例)進行監督微調。
- 第二階段:推理整合:利用專門的韓語推理數據集(30 萬個示例),從 DeepSeek R1 中引入韓語推理模式。
- 第三階段:高級優化:使用 GRPO 進行強化學習優化,結合韓語/英語推理數據集,以格式、準確性和語言一致性作為獎勵。
這種系統的方法使 DNA-R1 能夠針對複雜問題開發出精細的思維鏈(CoT)推理能力,從而在保持強大通用能力的同時,針對韓語推理進行了精細校準。
性能亮點
我們針對韓語的多階段訓練流程顯著提升了 Phi-4 基礎模型對韓語上下文的理解、推理深度和響應能力。該模型在以下方面表現出色:
- 生成細緻入微的韓語思維鏈(CoT)。
- 進行嚴格的自我驗證。
- 解決多步驟複雜問題。
- 在推理過程中保持文化和語言背景。
- 使用
<think>
和 <answer>
標籤區分深度思考和簡潔回答。
📊 評估結果
以下是我們在數學、編碼、科學、韓語和通用性能基準測試中對 DNA-R1 模型的評估結果。儘管 DNA-R1 模型只有 140 億參數,但在各種基準測試中,其性能優於許多更大規模的模型。
基準測試 |
任務 |
DNA-R1 (14B) |
DeepSeek-R1-Distill-Qwen-14B |
DeepSeek-R1-Distill-Qwen-32B |
EXAONE-3.5-32B-Instruct |
QwQ-32B-Preview |
gpt-4o-0513 |
o1-mini |
o1-preview |
GSM8K |
數學 |
92.49 |
88.63 |
82.64 |
91.9 |
82.41 |
- |
- |
- |
Math500 |
數學 |
89.4 |
88.2 |
87.4 |
75.8 |
92.2 |
75.8 |
85.6 |
81.4 |
AIME2024 |
數學 |
53.3 |
69.7 |
72.6 |
6.67 |
50.0 |
8.6 |
64.0 |
40 |
OlympiadBench (Math, EN) |
數學 |
59.94 |
56.82 |
55.34 |
38.58 |
62.17 |
- |
- |
59.2 |
GPQA-Diamond |
科學/推理 |
61.11 |
59.1 |
58.08 |
33.33 |
52.5 |
46.5 |
60 |
75.2 |
LiveCodeBench |
編碼 |
50.58 |
59.88 |
61.65 |
19.8 |
59.12 |
50.48 |
72.75 |
59.14 |
KMMLU-direct |
韓語 |
59.9 |
50.5 |
58.62 |
50.72 |
62.96 |
- |
- |
- |
KMMLU-hard |
韓語 |
36.65 |
25.34 |
33.67 |
25.46 |
37.98 |
- |
- |
- |
KoBEST |
韓語 |
83.05 |
74.32 |
78.53 |
86.54 |
85.93 |
- |
- |
- |
MMLU-Pro |
通用 |
57.64 |
50.55 |
59.58 |
- |
46.82 |
- |
- |
- |
📄 許可證
本模型採用 CC BY-NC 4.0 許可證發佈。如果您有任何問題或商業使用諮詢,請 聯繫我們。
📚 引用
如果您在學術研究中使用或討論此模型,請引用該項目以幫助推廣:
@misc{dnar12025,
title={DNA R1},
author={Jungyup Lee and Jemin Kim and Sang Park and SeungJae Lee},
year={2025},
publisher={HuggingFace},
url={https://huggingface.co/dnotitia/DNA-R1}
}
⚠️ 重要提示
本模型可用於商業用途。如果您希望進行商業使用,請通過 聯繫我們 進行諮詢。我們將通過簡單的協商程序批准您的商業使用。