Deepseek Qwen Bllossom 32B
模型概述
該模型通過額外訓練克服了原基礎模型在韓語推理時的性能下降問題,實現了內部思考過程以英語進行,最終根據用戶輸入語言輸出響應,大幅提升了韓語環境下的推理表現。
模型特點
多語言推理能力
內部思考過程以英語進行,最終根據用戶輸入語言輸出響應,顯著提升韓語推理性能。
高質量訓練數據
訓練數據包含韓英雙語推理數據集,涵蓋多領域內容,提供更準確可靠的韓語推理結果。
高效蒸餾方法
採用大模型優秀推理能力向基礎模型高效蒸餾的方法,有效彌補原模型不足。
模型能力
韓語文本生成
英語文本生成
複雜推理任務
多領域知識問答
使用案例
教育
數學問題解答
解決複雜的數學推理問題,如分數計算、代數問題等。
在AIME24_ko基準測試中達到66.67分,顯著優於原模型。
研究
數學定理證明
提供多種數學定理的證明方法,如素數無限的證明。
能提供多種角度的證明方法,包括歐幾里得反證法、階乘法和歐拉ζ函數法。
🚀 DeepSeek-qwen-bllossom-32B
DeepSeek-Bllossom系列是為解決現有DeepSeek-R1-Distill系列模型的語言混合和多語言性能下降問題而進行額外訓練的模型。DeepSeek-qwen-Bllossom-32B基於DeepSeek-R1-Distill-Qwen-32B模型構建,旨在提升韓語環境下的推理性能。該模型是UNIVA和Bllossom團隊合作推出的首個模型。
🚀 快速開始
DeepSeek-qwen-Bllossom-32B模型基於DeepSeek-R1-Distill-Qwen-32B模型構建,為解決原模型在語言混合和多語言性能方面的問題,特別是韓語推理性能下降的問題,進行了額外的訓練。通過使用韓語和英語推理數據,以及多領域的數據,該模型在韓語環境下的推理性能得到了顯著提升。
✨ 主要特性
- 解決語言問題:解決了原DeepSeek-R1-Distill系列模型的語言混合和多語言性能下降問題。
- 提升韓語性能:以韓語環境下的推理性能提升為目標進行開發。
- 多領域數據訓練:除了STEM領域數據,還使用了多領域的數據進行訓練。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained(
"UNIVA-Bllossom/DeepSeek-llama3.1-Bllossom-8B",
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("UNIVA-Bllossom/DeepSeek-qwen-Bllossom-32B")
system='''
You are a highly capable assistant. For every user question, follow these instructions exactly:
1. First, think through the problem step-by-step in English. Enclose all of your internal reasoning between <think> and </think> tags. This chain-of-thought should detail your reasoning process.
2. After the closing </think> tag, provide your final answer.
3. Do not include any additional text or commentary outside of this format.
4. Your output should strictly follow this structure:
<think>
[Your detailed step-by-step reasoning in English]
</think>
[Your final answer]
'''
text="철수, 영희, 민수가 3회의 게임에서 점수를 받았습니다. 영희의 점수는 민수의 점수의 두 배이며, 민수의 점수는 철수의 4배입니다. 철수가 10점을 받았다면 이 3명의 평균 점수를 계산하세요."
chat = [
{"role": "system", "content": system},
{"role": "user", "content": text}
]
prompt=tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer(
prompt,
return_tensors="pt",
add_special_tokens=True
)
if "token_type_ids" in model_inputs:
del model_inputs["token_type_ids"]
model_inputs = {k: v.to(model.device) for k, v in model_inputs.items()}
generated_ids = model.generate(
**model_inputs,
max_new_tokens=8192,
)
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型類型 | DeepSeek-qwen-Bllossom-32B |
基礎模型 | DeepSeek-R1-Distill-Qwen-32B |
下載鏈接 | 🤗 HuggingFace |
模型對比
輸入 (Prompt) | DeepSeek-R1-distill-Llama-70B | DeepSeek-llama3.3-Bllossom-70B |
---|---|---|
Alice, Bob, Charlie在3次遊戲中獲得了分數。Alice的分數是Bob的兩倍,Bob的分數是Charlie的4倍。如果Charlie得了10分,計算這3人的平均分數。 | Charlie的分數是10分。 Bob的分數是Charlie的4倍,所以Bob的分數是 $$ 4 \times 10 = 40 $$ 分。 Alice的分數是Bob的兩倍,所以Alice的分數是 $$ 2 \times 40 = 80 $$ 分。 三人的總分數是 $$ 10 + 40 + 80 = 130 $$ 分。 平均分數是 $$ \frac{130}{3} \approx 43.33$$分。 $$ \boxed{43.33} $$ Charlie的分數是10分。 |
Charlie的分數給定為10分。Bob的分數是Charlie分數的4倍,計算如下: $$ 4 \times 10 = 40 $$ Alice的分數是Bob分數的兩倍,即: $$ 2 \times 40 = 80 $$ 三人的總分數如下: $$ 10 + 40 + 80 = 130 $$ 這三人的平均分數是總分數除以人數: $$ \frac{130}{3} $$ 因此,這三人的平均分數是 $$ \boxed{\dfrac{130}{3}} $$ 。 |
用三種方法證明素數是無限的。 | 以下是用三種方法證明素數無限的詳細步驟: ### 方法一:歐幾里得的反證法 1. 假設:假設素數是有限的,且所有素數為 $ p_1, p_2, p_3, \ldots, p_n $。 2. 構造數:構造一個新數 $ N = (p_1 \times p_2 \times p_3 \times \ldots \times p_n) + 1 $。 3. 分析N的性質: - 如果N是素數,則N不在原假設的素數列表中,與假設矛盾。 - 如果N是合數,則存在某個素數 $ p $ 整除N。但由於N除以任何 $ p_i $ 都餘1,故 $ p $ 不在原列表中,同樣矛盾。 4. 結論:因此,素數必須是無限的。 ### 方法二:費馬數的性質 1. 定義:費馬數形如 $ F_k = 2^{2^k} + 1 $,其中 $ k $ 為非負整數。 2. 假設:假設素數是有限的,且所有素數為 $ p_1, p_2, \ldots, p_n $。 3. 構造費馬數:對於每個 $ k $,構造 $ F_k $。如果 $ F_k $ 是素數,則不在原列表中;如果是合數,其素因數不在原列表中。 4. 結論:因此,素數必須是無限的。 ### 方法三:歐拉函數與素數無限性 1. 歐拉函數:歐拉函數 $ \phi(n) $ 表示小於 $ n $ 且與 $ n $ 互質的數的個數。 2. 假設:假設素數有限,記為 $ p_1, p_2, \ldots, p_n $。 3. 構造數:考慮形如 $ N = p_1^{k_1} p_2^{k_2} \ldots p_n^{k_n} $ 的數,其歐拉函數為 $ \phi(N) = N \prod_{i=1}^{n} \left(1 - \frac{1}{p_i}\right) $。 4. 分析:如果素數有限,$ \prod_{p \text{素數}} \left(1 - \frac{1}{p}\right) $ 收斂,但實際上該積發散,導致矛盾。 5. 結論:因此,素數必須是無限的。 這三種方法各自從不同的角度證明了素數的無限性,展示了數論中素數無限性的深刻性。 |
為了用三種方法證明素數是無限的,我們可以採用以下方法: 1. 歐幾里得的反證法: - 假設:假設素數的數量是有限的,為 $ p_1, p_2, \dots, p_n $。 - 構造:定義 $ P = p_1 \times p_2 \times \dots \times p_n + 1 $。 - 結論:如果 $ P $ 是素數,那麼它是列表中沒有的新素數。如果 $ P $ 是合數,那麼它必須包含列表中沒有的素數。兩種情況都與假設矛盾。因此,素數是無限的。 2. 階乘方法: - 假設:假設素數的數量是有限的,為 $ p_1, p_2, \dots, p_n $。 - 構造:考慮 $ n! + 1 $,其中 $ n $ 是最大的素數。 - 結論:因為 $ n! $ 能被所有 $ p_i $ 整除,所以 $ n! + 1 $ 不包含任何 $ p_i $。如果 $ n! + 1 $ 是素數,那麼它是比 $ n $ 大的新素數。如果 $ n! + 1 $ 是合數,那麼它必須包含比 $ n $ 大的素數。兩種情況都與假設矛盾。因此,素數是無限的。 3. 歐拉的zeta函數證明: - 概念:歐拉證明了zeta函數 $ \zeta(s) = \sum_{k=1}^\infty \frac{1}{k^s} $ 可以表示為素數的乘積:$ \zeta(s) = \prod_{p \text{ 素數}} \frac{1}{1 - \frac{1}{p^s}} $。 - 結論:如果素數是有限的,那麼乘積應該是有限的。但是當 $ s $ 趨近於大於1的值時,$ \zeta(s) $ 發散到無窮大。這要求乘積必須發散,因此素數必須是無限的。 每種方法都證實了素數是無限的,並且基於不同的數學原理。歐幾里得的證明使用了反證法,階乘方法使用了簡單的數論,歐拉的證明使用瞭解析數論的工具。所有三種方法都加強了對素數無限性的理解。 |
基準測試
- 推理時使用float16數據類型。
- 最大令牌數:32786
- 溫度:0.7
- 評估方式:每個基準測試重複執行3次後計算平均分數。
- _en基準測試:使用原始基準測試問題。
- _ko基準測試:使用高質量翻譯為韓語的原始基準測試問題。
模型 | AIME24_ko | AIME24_en | MATH500_ko | MATH500_en |
---|---|---|---|---|
DeepSeek-R1-Distill-Llama-8B | 25.56 | 46.67 | 63.40 | 88.87 |
DeepSeek-llama3.1-Bllossom-8B | 36.67 | 40.00 | 78.07 | 87.80 |
DeepSeek-R1-Distill-Qwen-32B | 48.89 | 75.56 | 86.87 | 93.47 |
DeepSeek-qwen-Bllossom-32B | 66.67 | 67.78 | 87.67 | 93.73 |
DeepSeek-R1-Distill-Llama-70B | 58.89 | 70.00 | 88.53 | 93.73 |
DeepSeek-llama3.3-Bllossom-70B | 62.22 | 65.56 | 88.40 | 93.33 |
🔧 技術細節
DeepSeek-qwen-Bllossom-32B利用自行製作的多種推理數據進行了後訓練過程。在這個過程中,採用了將大規模模型所具備的優秀推理能力和韓語處理能力有效蒸餾到DeepSeek-R1-Distill-Qwen-32B模型中的方法。通過這種方式,彌補了原模型的性能不足,並針對複雜的推理問題進行了優化,使其能夠生成更準確、可靠的響應。
📄 許可證
此代碼倉庫和模型權重遵循MIT許可證。DeepSeek-Bllossom系列支持商業使用,允許進行任何修改和衍生作品,包括但不限於為訓練其他大語言模型進行蒸餾。請注意:
- DeepSeek-R1-Distill-Qwen-32B 源自Qwen2.5 - 32B,最初遵循Apache 2.0許可證。
- DeepSeek-qwen-Bllossom-32B 源自DeepSeek-R1-Distill-Qwen-32B,最初遵循Apache 2.0許可證。
👥 貢獻者
📞 聯繫我們
如果您有任何問題,請提出問題或通過 frodobaggins@univa.co.kr 或 ktlim@seoultech.ac.kr 聯繫我們。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98