DeepSeek-qwen-Bllossom-32B開源模型 - 有效提升韓語環境下的推理性能

首頁

Deepseek Qwen Bllossom 32B

由UNIVA-Bllossom開發

DeepSeek-qwen-Bllossom-32B是基於DeepSeek-R1-Distill-Qwen-32B模型構建的，旨在提升韓語環境下的推理性能。

大型語言模型

Transformers

支持多種語言開源協議:MIT #韓英雙語推理 #STEM領域優化 #多語言混合增強

下載量 167

發布時間 : 4/7/2025

模型概述

該模型通過額外訓練克服了原基礎模型在韓語推理時的性能下降問題，實現了內部思考過程以英語進行，最終根據用戶輸入語言輸出響應，大幅提升了韓語環境下的推理表現。

模型特點

多語言推理能力

內部思考過程以英語進行，最終根據用戶輸入語言輸出響應，顯著提升韓語推理性能。

高質量訓練數據

訓練數據包含韓英雙語推理數據集，涵蓋多領域內容，提供更準確可靠的韓語推理結果。

高效蒸餾方法

採用大模型優秀推理能力向基礎模型高效蒸餾的方法，有效彌補原模型不足。

模型能力

韓語文本生成

英語文本生成

複雜推理任務

多領域知識問答

使用案例

教育

數學問題解答

解決複雜的數學推理問題，如分數計算、代數問題等。

在AIME24_ko基準測試中達到66.67分，顯著優於原模型。

研究

數學定理證明

提供多種數學定理的證明方法，如素數無限的證明。

能提供多種角度的證明方法，包括歐幾里得反證法、階乘法和歐拉ζ函數法。

🚀 DeepSeek-qwen-bllossom-32B

DeepSeek-Bllossom系列是為解決現有DeepSeek-R1-Distill系列模型的語言混合和多語言性能下降問題而進行額外訓練的模型。DeepSeek-qwen-Bllossom-32B基於DeepSeek-R1-Distill-Qwen-32B模型構建，旨在提升韓語環境下的推理性能。該模型是UNIVA和Bllossom團隊合作推出的首個模型。

🚀 快速開始

DeepSeek-qwen-Bllossom-32B模型基於DeepSeek-R1-Distill-Qwen-32B模型構建，為解決原模型在語言混合和多語言性能方面的問題，特別是韓語推理性能下降的問題，進行了額外的訓練。通過使用韓語和英語推理數據，以及多領域的數據，該模型在韓語環境下的推理性能得到了顯著提升。

✨ 主要特性

解決語言問題：解決了原DeepSeek-R1-Distill系列模型的語言混合和多語言性能下降問題。
提升韓語性能：以韓語環境下的推理性能提升為目標進行開發。
多領域數據訓練：除了STEM領域數據，還使用了多領域的數據進行訓練。

📦 安裝指南

文檔未提供安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "UNIVA-Bllossom/DeepSeek-llama3.1-Bllossom-8B",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("UNIVA-Bllossom/DeepSeek-qwen-Bllossom-32B")

system='''
You are a highly capable assistant. For every user question, follow these instructions exactly:
    1. First, think through the problem step-by-step in English. Enclose all of your internal reasoning between <think> and </think> tags. This chain-of-thought should detail your reasoning process.
    2. After the closing </think> tag, provide your final answer.
    3. Do not include any additional text or commentary outside of this format.
    4. Your output should strictly follow this structure:

<think>
[Your detailed step-by-step reasoning in English]
</think>
[Your final answer]
'''

text="철수, 영희, 민수가 3회의 게임에서 점수를 받았습니다. 영희의 점수는 민수의 점수의 두 배이며, 민수의 점수는 철수의 4배입니다. 철수가 10점을 받았다면 이 3명의 평균 점수를 계산하세요."
chat = [
    {"role": "system", "content": system},
    {"role": "user", "content": text}
]

prompt=tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer(
    prompt,
    return_tensors="pt",
    add_special_tokens=True
)

if "token_type_ids" in model_inputs:
    del model_inputs["token_type_ids"]

model_inputs = {k: v.to(model.device) for k, v in model_inputs.items()}

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=8192,
)

📚 詳細文檔

模型信息

屬性	詳情
模型類型	DeepSeek-qwen-Bllossom-32B
基礎模型	DeepSeek-R1-Distill-Qwen-32B
下載鏈接	🤗 HuggingFace

模型對比

輸入 (Prompt)	DeepSeek-R1-distill-Llama-70B	DeepSeek-llama3.3-Bllossom-70B
Alice, Bob, Charlie在3次遊戲中獲得了分數。Alice的分數是Bob的兩倍，Bob的分數是Charlie的4倍。如果Charlie得了10分，計算這3人的平均分數。	Charlie的分數是10分。 Bob的分數是Charlie的4倍，所以Bob的分數是 $$ 4 \times 10 = 40 $$ 分。 Alice的分數是Bob的兩倍，所以Alice的分數是 $$ 2 \times 40 = 80 $$ 分。三人的總分數是 $$ 10 + 40 + 80 = 130 $$ 分。平均分數是 $$ \frac{130}{3} \approx 43.33$$分。 $$ \boxed{43.33} $$ Charlie的分數是10分。	Charlie的分數給定為10分。Bob的分數是Charlie分數的4倍，計算如下： $$ 4 \times 10 = 40 $$ Alice的分數是Bob分數的兩倍，即： $$ 2 \times 40 = 80 $$ 三人的總分數如下： $$ 10 + 40 + 80 = 130 $$ 這三人的平均分數是總分數除以人數： $$ \frac{130}{3} $$ 因此，這三人的平均分數是 $$ \boxed{\dfrac{130}{3}} $$ 。
用三種方法證明素數是無限的。	以下是用三種方法證明素數無限的詳細步驟： ### 方法一：歐幾里得的反證法 1. 假設：假設素數是有限的，且所有素數為 $ p_1, p_2, p_3, \ldots, p_n $。 2. 構造數：構造一個新數 $ N = (p_1 \times p_2 \times p_3 \times \ldots \times p_n) + 1 $。 3. 分析N的性質： - 如果N是素數，則N不在原假設的素數列表中，與假設矛盾。 - 如果N是合數，則存在某個素數 $ p $ 整除N。但由於N除以任何 $ p_i $ 都餘1，故 $ p $ 不在原列表中，同樣矛盾。 4. 結論：因此，素數必須是無限的。 ### 方法二：費馬數的性質 1. 定義：費馬數形如 $ F_k = 2^{2^k} + 1 $，其中 $ k $ 為非負整數。 2. 假設：假設素數是有限的，且所有素數為 $ p_1, p_2, \ldots, p_n $。 3. 構造費馬數：對於每個 $ k $，構造 $ F_k $。如果 $ F_k $ 是素數，則不在原列表中；如果是合數，其素因數不在原列表中。 4. 結論：因此，素數必須是無限的。 ### 方法三：歐拉函數與素數無限性 1. 歐拉函數：歐拉函數 $ \phi(n) $ 表示小於 $ n $ 且與 $ n $ 互質的數的個數。 2. 假設：假設素數有限，記為 $ p_1, p_2, \ldots, p_n $。 3. 構造數：考慮形如 $ N = p_1^{k_1} p_2^{k_2} \ldots p_n^{k_n} $ 的數，其歐拉函數為 $ \phi(N) = N \prod_{i=1}^{n} \left(1 - \frac{1}{p_i}\right) $。 4. 分析：如果素數有限，$ \prod_{p \text{素數}} \left(1 - \frac{1}{p}\right) $ 收斂，但實際上該積發散，導致矛盾。 5. 結論：因此，素數必須是無限的。這三種方法各自從不同的角度證明了素數的無限性，展示了數論中素數無限性的深刻性。	為了用三種方法證明素數是無限的，我們可以採用以下方法： 1. 歐幾里得的反證法： - 假設：假設素數的數量是有限的，為 $ p_1, p_2, \dots, p_n $。 - 構造：定義 $ P = p_1 \times p_2 \times \dots \times p_n + 1 $。 - 結論：如果 $ P $ 是素數，那麼它是列表中沒有的新素數。如果 $ P $ 是合數，那麼它必須包含列表中沒有的素數。兩種情況都與假設矛盾。因此，素數是無限的。 2. 階乘方法： - 假設：假設素數的數量是有限的，為 $ p_1, p_2, \dots, p_n $。 - 構造：考慮 $ n! + 1 $，其中 $ n $ 是最大的素數。 - 結論：因為 $ n! $ 能被所有 $ p_i $ 整除，所以 $ n! + 1 $ 不包含任何 $ p_i $。如果 $ n! + 1 $ 是素數，那麼它是比 $ n $ 大的新素數。如果 $ n! + 1 $ 是合數，那麼它必須包含比 $ n $ 大的素數。兩種情況都與假設矛盾。因此，素數是無限的。 3. 歐拉的zeta函數證明： - 概念：歐拉證明了zeta函數 $ \zeta(s) = \sum_{k=1}^\infty \frac{1}{k^s} $ 可以表示為素數的乘積：$ \zeta(s) = \prod_{p \text{ 素數}} \frac{1}{1 - \frac{1}{p^s}} $。 - 結論：如果素數是有限的，那麼乘積應該是有限的。但是當 $ s $ 趨近於大於1的值時，$ \zeta(s) $ 發散到無窮大。這要求乘積必須發散，因此素數必須是無限的。每種方法都證實了素數是無限的，並且基於不同的數學原理。歐幾里得的證明使用了反證法，階乘方法使用了簡單的數論，歐拉的證明使用瞭解析數論的工具。所有三種方法都加強了對素數無限性的理解。

基準測試

推理時使用float16數據類型。
最大令牌數：32786
溫度：0.7
評估方式：每個基準測試重複執行3次後計算平均分數。
_en基準測試：使用原始基準測試問題。
_ko基準測試：使用高質量翻譯為韓語的原始基準測試問題。

模型	AIME24_ko	AIME24_en	MATH500_ko	MATH500_en
DeepSeek-R1-Distill-Llama-8B	25.56	46.67	63.40	88.87
DeepSeek-llama3.1-Bllossom-8B	36.67	40.00	78.07	87.80
DeepSeek-R1-Distill-Qwen-32B	48.89	75.56	86.87	93.47
DeepSeek-qwen-Bllossom-32B	66.67	67.78	87.67	93.73
DeepSeek-R1-Distill-Llama-70B	58.89	70.00	88.53	93.73
DeepSeek-llama3.3-Bllossom-70B	62.22	65.56	88.40	93.33

🔧 技術細節

DeepSeek-qwen-Bllossom-32B利用自行製作的多種推理數據進行了後訓練過程。在這個過程中，採用了將大規模模型所具備的優秀推理能力和韓語處理能力有效蒸餾到DeepSeek-R1-Distill-Qwen-32B模型中的方法。通過這種方式，彌補了原模型的性能不足，並針對複雜的推理問題進行了優化，使其能夠生成更準確、可靠的響應。