🚀 Falcon-H1模型
Falcon-H1是一個基於混合架構的語言模型,結合了Transformer和Mamba架構,在多種任務中表現出色,為自然語言處理任務提供了高效且強大的解決方案。
🚀 快速開始
目前,要使用此模型,你可以依賴Hugging Face的transformers
、vLLM
或我們自定義的llama.cpp
庫的分支。
✨ 主要特性
- 先進架構:採用混合Transformer + Mamba架構。
- 多任務表現出色:在推理等多種任務中表現優異。
- 多庫支持:支持
transformers
、vLLM
和自定義的llama.cpp
庫。
📦 安裝指南
安裝transformers
確保安裝最新版本的transformers
,可從源代碼安裝:
pip install git+https://github.com/huggingface/transformers.git
安裝vLLM
pip install vllm
安裝llama.cpp
可安裝我們自定義的llama.cpp
庫的分支:https://github.com/tiiuae/llama.cpp-Falcon-H1 ,安裝指南與llama.cpp
相同。
💻 使用示例
基礎用法
使用transformers
運行H1模型
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "tiiuae/Falcon-H1-1B-Base"
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
使用vLLM
啟動服務器
vllm serve tiiuae/Falcon-H1-1B-Instruct --tensor-parallel-size 2 --data-parallel-size 1
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發方 |
https://www.tii.ae |
模型類型 |
因果解碼器 |
架構 |
混合Transformer + Mamba架構 |
語言 |
英語 |
許可證 |
Falcon-LLM License |
訓練詳情
有關此模型訓練協議的更多詳細信息,請參考Falcon-H1技術博客文章。
評估
Falcon-H1系列在各種任務中表現出色,包括推理任務。
任務 |
Falcon-H1-0.5B |
Qwen3-0.6B |
Qwen2.5-0.5B |
Gemma3-1B |
Llama3.2-1B |
Falcon3-1B |
通用 |
|
|
|
|
|
|
BBH |
40.22 |
36.07 |
32.62 |
30.26 |
30.72 |
35.24 |
MMLU |
55.04 |
52.64 |
47.61 |
26.33 |
32.39 |
45.14 |
ARC-C |
46.93 |
44.8 |
35.32 |
39.33 |
39.42 |
47.87 |
HellaSwag |
56.3 |
53.51 |
51.79 |
62.94 |
65.73 |
62.3 |
Winogrande |
59.43 |
60.54 |
56.83 |
62.59 |
62.75 |
61.17 |
數學 |
|
|
|
|
|
|
GSM8k |
60.2 |
50.04 |
34.8 |
2.2 |
7.05 |
34.95 |
MATH lvl5 |
15.18 |
9.29 |
4.23 |
1.21 |
0.98 |
3.4 |
科學 |
|
|
|
|
|
|
GPQA |
29.7 |
29.11 |
27.94 |
24.66 |
23.57 |
27.85 |
MMLU-Pro |
30.04 |
22.99 |
18.98 |
11.31 |
11.8 |
16.11 |
MMLU-stem |
57.12 |
50.11 |
43.74 |
27.59 |
30.19 |
40.06 |
代碼 |
|
|
|
|
|
|
HumanEval |
35.98 |
31.71 |
29.27 |
6.71 |
18.9 |
10.37 |
HumanEval+ |
31.1 |
27.44 |
25.0 |
5.49 |
16.46 |
9.15 |
MBPP |
52.12 |
51.06 |
40.74 |
12.7 |
35.98 |
12.43 |
MBPP+ |
43.39 |
42.33 |
34.66 |
9.52 |
29.89 |
9.52 |
你可以在我們的發佈博客文章中查看更詳細的基準測試。
有用鏈接
📄 許可證
本模型使用Falcon-LLM License,詳情請見許可證鏈接。
📚 引用
如果Falcon-H1系列模型對你的工作有幫助,請引用:
@misc{tiifalconh1,
title = {Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance},
url = {https://falcon-lm.github.io/blog/falcon-h1},
author = {Falcon-LLM Team},
month = {May},
year = {2025}
}