模型概述
模型特點
模型能力
使用案例
🚀 Breeze-7B-Base-v0.1-GGUF
本項目包含了聯發科研究院(MediaTek Research)的 Breeze-7B-Base-v0.1 模型的 GGUF 格式文件。GGUF 是一種新的模型格式,能讓模型在更多客戶端和庫中使用。Breeze-7B 模型專為繁體中文使用場景設計,在推理速度和性能表現上都有不錯的效果。
🚀 快速開始
安裝依賴
首先安裝直接依賴項:
pip install transformers torch accelerate
如果你想使用 flash-attention2 來加快推理速度,還需要安裝以下依賴項:
pip install packaging ninja
pip install flash-attn
加載模型
在 transformers
中加載模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained(
model="MediaTek-Research/Breeze-7B-Instruct-v0.1",
device_map="auto",
torch_dtype=torch.bfloat16,
use_flash_attn_2=True # 可選
)
查詢模板結構
查詢模板的結構遵循 Mistral-7B-Instruct 的格式,如下所示:
<s> SYS_PROMPT [INST] QUERY1 [/INST] RESPONSE1 [INST] QUERY2 [/INST]
其中,SYS_PROMPT
、QUERY1
、RESPONSE1
和 QUERY2
可以由用戶提供。
建議的默認系統提示
You are a helpful AI assistant built by MediaTek Research. The user you are helping speaks Traditional Chinese and comes from Taiwan.
✨ 主要特性
Breeze-7B-Base-v0.1
- 將詞彙表大小從 32k 擴展到 62k,以更好地支持繁體中文。
- 支持 8k 標記的上下文長度。
Breeze-7B-Instruct-v0.1
- 將詞彙表大小從 32k 擴展到 62k,以更好地支持繁體中文。
- 支持 8k 標記的上下文長度。
- 支持多輪對話(未對有害內容進行特殊處理)。
Breeze-7B-Instruct-64k-v0.1
- 將詞彙表大小從 32k 擴展到 62k,以更好地支持繁體中文。
- 支持 64k 標記的上下文長度,約相當於 88k 個繁體中文字符。
- 支持多輪對話(未對有害內容進行特殊處理)。
📚 詳細文檔
模型創建者
原始模型
關於 GGUF
GGUF 是 llama.cpp 團隊在 2023 年 8 月 21 日引入的一種新格式,它取代了不再被 llama.cpp 支持的 GGML 格式。以下是已知支持 GGUF 的客戶端和庫的不完全列表:
- llama.cpp:GGUF 的源項目,提供了命令行界面和服務器選項。
- text-generation-webui:最廣泛使用的 Web UI,具有許多功能和強大的擴展,支持 GPU 加速。
- KoboldCpp:功能齊全的 Web UI,支持所有平臺和 GPU 架構的 GPU 加速,特別適合講故事。
- GPT4All:一個免費開源的本地運行 GUI,支持 Windows、Linux 和 macOS,具備完整的 GPU 加速功能。
- LM Studio:一個易於使用且功能強大的本地 GUI,適用於 Windows 和 macOS(Silicon),支持 GPU 加速,截至 2023 年 11 月 27 日,Linux 版本處於測試階段。
- LoLLMS Web UI:一個很棒的 Web UI,具有許多有趣和獨特的功能,包括一個完整的模型庫,便於模型選擇。
- Faraday.dev:一個有吸引力且易於使用的基於角色的聊天 GUI,適用於 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- llama-cpp-python:一個支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服務器的 Python 庫。
- candle:一個專注於性能的 Rust ML 框架,包括 GPU 支持,且易於使用。
- ctransformers:一個支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服務器的 Python 庫。截至 2023 年 11 月 27 日,ctransformers 已有很長時間未更新,不支持許多最新的模型。
原始模型介紹
Breeze-7B 是一個基於 Mistral-7B 構建的語言模型家族,專門為繁體中文使用場景設計。
- Breeze-7B-Base:Breeze-7B 系列的基礎模型,如果你有大量的微調數據來針對特定用例進行微調,它是一個合適的選擇。
- Breeze-7B-Instruct:從 Breeze-7B-Base 基礎模型派生而來,可直接用於常見任務。
- Breeze-7B-Instruct-64k:是 Breeze-7B-Instruct 的一個略微修改版本,支持 64k 標記的上下文長度,可處理文檔級別的任務。
實用性表現
- Breeze-7B-Base:在原有詞彙表的基礎上增加了 30,000 個繁體中文標記。在其他條件相同的情況下,Breeze-7B 對繁體中文的推理速度是 Mistral-7B 和 Llama 7B 的兩倍。[詳見 推理性能。]
- Breeze-7B-Instruct:可直接用於常見任務,如問答、檢索式增強生成(RAG)、多輪聊天和摘要生成。
- Breeze-7B-Instruct-64k:能夠處理文檔級別的任務,而不僅僅是章節級別的任務。
性能表現
- Breeze-7B-Instruct:在繁體中文基準測試中表現出色,與同規模的開源模型(如 Taiwan-LLM-7B/13B-chat、QWen-7B-Chat 和 Yi-6B-Chat)相比具有優勢。[詳見 聊天模型性能。]
- Breeze-7B-Instruct:在 MMLU 和 MT-Bench 基準測試中與 Mistral-7B-Instruct-v0.1 表現相當。[詳見 聊天模型性能。]
項目成員
項目成員(按字母順序排列):Chan-Jan Hsu 許湛然、Chang-Le Liu 劉昶樂、Feng-Ting Liao 廖峰挺、Po-Chun Hsu 許博竣、Yi-Chang Chen 陳宜昌,以及導師 Da-Shan Shiu 許大山。
🔧 技術細節
模型詳情
模型名稱 | 微調來源 | 模型類型 | 支持語言 |
---|---|---|---|
Breeze-7B-Base-v0.1 | mistralai/Mistral-7B-v0.1 | 因果解碼器型變壓器語言模型 | 英語和繁體中文(zh-tw) |
Breeze-7B-Instruct-v0.1 | MediaTek-Research/Breeze-7B-Base-v0.1 | 因果解碼器型變壓器語言模型 | 英語和繁體中文(zh-tw) |
Breeze-7B-Instruct-64k-v0.1 | MediaTek-Research/Breeze-7B-Instruct-v0.1 | 因果解碼器型變壓器語言模型 | 英語和繁體中文(zh-tw) |
基礎模型性能
TMMLU+、DRCD 和 Table 的數據來源於 MediaTek-Research/TCEval-v2,該數據集派生自 TCEval-v1 和 ikala/tmmluplus。MMLU 的數據來源於 hails/mmlu_no_train。我們使用從 EleutherAI/lm-evaluation-harness 修改而來的代碼來評估 TMMLU+、DRCD、Table 和 MMLU。
模型 | 規模 | ↑ TMMLU+ (ACC) (繁體中文,知識,5 次提示) |
DRCD (EM) (繁體中文,推理,3 次提示) |
Table (ACC) (繁體中文,推理,5 次提示) |
MMLU (ACC) (英語,知識,5 次提示) |
---|---|---|---|---|---|
Yi-34B | 34B | 63.10 | 84.57 | 49.31 | 77.42 |
Qwen-14B | 14B | 51.30 | 16.95 * | 50.69 | 68.83 |
Yi-6B | 6B | 49.63 | 76.61 | 34.72 | 65.35 |
Qwen-7B | 7B | 42.84 | 0.0 * | 39.58 | 61.00 |
Breeze-7B-Base-v0.1 | 7B | 40.35 | 81.13 | 28.47 | 61.63 |
Mistral-7B-v0.1 | 7B | 36.93 | 79.27 | 27.78 | 64.89 |
注:* 少樣本學習無法有效地引導模型生成合適的答案。
聊天模型性能
TMMLU+、DRCD、Table 和 MT-Bench-tw 的數據來源於 MediaTek-Research/TCEval-v2,該數據集派生自 TCEval-v1 和 ikala/tmmluplus。MMLU 的數據來源於 hails/mmlu_no_train。MT-Bench 的數據來源於 lmsys/mt_bench_human_judgments。我們使用從 EleutherAI/lm-evaluation-harness 修改而來的代碼來評估 TMMLU+、DRCD、Table 和 MMLU。使用從 fastchat llm_judge(以 GPT4 作為評判)修改而來的代碼來評估 MT-Bench-tw 和 MT-Bench。
模型 | 規模 | ↑ MT-Bench-tw (Score) (繁體中文,聊天,0 次提示) |
TMMLU+ (ACC) (繁體中文,知識,0 次提示) |
TMMLU+ (ACC) (繁體中文,知識,5 次提示) |
DRCD (EM) (繁體中文,推理,3 次提示) |
Table (ACC) (繁體中文,推理,0 次提示) |
MT-Bench (Score) (英語,聊天,0 次提示) |
MMLU (ACC) (英語,知識,0 次提示) |
MMLU (ACC) (英語,知識,5 次提示) |
---|---|---|---|---|---|---|---|---|---|
gpt-3.5-turbo | - | 7.1 | 41.76 | - | - | - | 7.9 | 70.00 | - |
Yi-34B-Chat | 34B | 6.9 | 54.87 | - | - | 36.81 | 7.6 | 71.04 | - |
Qwen-14B-Chat | 14B | 6.4 | 48.41 | - | - | 41.67 | 7.2 | 64.91 | - |
Breeze-7B-Instruct-v0.1 | 7B | 5.7 | 41.61 | - | - | 45.83 | 7.1 | 63.26 | - |
Breeze-7B-Instruct-64k-v0.1 | 7B | 5.5 | 40.99 | - | - | 36.11 | 7.1 | 63.68 | - |
Qwen-7B-Chat | 7B | 5.4 | 40.02 | - | - | 33.33 | 6.2 | 55.94 | - |
Yi-6B-Chat | 6B | 5.0 | 44.79 | - | - | 25.69 | 6.0 | 59.45 | - |
Taiwan-LLM-13B-v2.0-chat | 13B | 5.0 | 29.47 | - | - | 23.61 | - * | 50.50 | - |
Taiwan-LLM-7B-v2.1-chat | 7B | 4.2 | 28.08 | - | - | 31.25 | - * | 42.72 | - |
注:* 臺灣 LLM 模型以繁體中文回答多輪問題(英語)。
MT-Bench-tw(0 次提示)分類得分
模型 | STEM | 提取 | 推理 | 數學 | 編碼 | 角色扮演 | 寫作 | 人文 | ↑ 平均分 |
---|---|---|---|---|---|---|---|---|---|
gpt-3.5-turbo | 7.8 | 6.1 | 5.1 | 6.4 | 6.2 | 8.7 | 7.4 | 9.3 | 7.1 |
Yi-34B-Chat | 9.0 | 4.8 | 5.7 | 4.0 | 4.7 | 8.5 | 8.7 | 9.8 | 6.9 |
Qwen-14B-Chat | 7.6 | 5.7 | 4.5 | 4.2 | 5.3 | 7.5 | 7.3 | 9.1 | 6.4 |
Breeze-7B-Instruct-v0.1 | 6.5 | 5.6 | 3.9 | 3.6 | 4.3 | 6.9 | 5.7 | 9.3 | 5.7 |
Breeze-7B-Instruct-64k-v0.1 | 6.1 | 5.3 | 3.7 | 2.9 | 4.2 | 7.0 | 6.7 | 8.3 | 5.5 |
Qwen-7B-Chat | 6.6 | 4.5 | 4.8 | 2.9 | 3.6 | 6.2 | 6.8 | 8.2 | 5.4 |
Yi-6B-Chat | 7.3 | 2.7 | 3.1 | 3.3 | 2.3 | 7.2 | 5.2 | 8.8 | 5.0 |
Taiwan-LLM-13B-v2.0-chat | 6.1 | 3.4 | 4.1 | 2.3 | 3.1 | 7.4 | 6.6 | 6.8 | 5.0 |
Taiwan-LLM-7B-v2.1-chat | 5.2 | 2.6 | 2.3 | 1.2 | 3.4 | 6.6 | 5.7 | 6.8 | 4.2 |
TMMLU+(0 次提示)分類準確率
模型 | STEM | 社會科學 | 人文 | 其他 | ↑ 平均分 |
---|---|---|---|---|---|
Yi-34B-Chat | 47.65 | 64.25 | 52.73 | 54.91 | 54.87 |
Qwen-14B-Chat | 43.83 | 55.00 | 48.55 | 46.22 | 48.41 |
Yi-6B-Chat | 37.80 | 51.74 | 45.36 | 44.25 | 44.79 |
gpt-3.5-turbo | 41.56 | 46.72 | 36.73 | 42.03 | 41.76 |
Breeze-7B-Instruct-v0.1 | 37.41 | 46.81 | 42.06 | 40.16 | 41.61 |
Breeze-7B-Instruct-64k-v0.1 | 37.88 | 46.35 | 40.31 | 39.40 | 40.99 |
Qwen-7B-Chat | 35.44 | 46.22 | 38.35 | 40.06 | 40.02 |
Taiwan-LLM-13B-v2.0-chat | 27.74 | 33.69 | 27.03 | 29.43 | 29.47 |
Taiwan-LLM-7B-v2.1-chat | 25.58 | 31.76 | 27.36 | 27.61 | 28.08 |
推理性能
在本次測試中,我們使用 這篇網絡文章 的前 700 個字符作為輸入,要求模型重新撰寫相同的文章。所有推理都在 2 塊 RTX A6000 GPU 上運行(使用 vllm
,張量並行大小為 2)。
模型 | ↓ 推理時間(秒) | 估計最大輸入長度(字符) |
---|---|---|
Yi-6B | 10.62 | 5.2k |
Breeze-7B-Instruct-v0.1 | 10.74 | 11.1k |
Breeze-7B-Instruct-64k-v0.1 | 10.74 | 88.8k |
Qwen-7B | 10.86 | 9.8k |
Qwen-14B | 18.89 | 9.8k |
Mistral-7B-v0.1 | 20.48 | 5.1k |
Taiwan-LLM-7B-v2.1-base | 26.26 | 2.2k |
Taiwan-LLM-13B-v2.0-base | 36.80 | 2.2k |
Yi-34B | 43.71 | 4.5k |
長上下文性能
待補充。
使用示例
待補充。
📄 許可證
本項目採用 Apache-2.0 許可證。



