Falcon-H1-1.5B-Deep-Base开源语言模型 - 免费支持多语言任务处理

首页

Falcon H1 1.5B Deep Base

由 tiiuae 开发

Falcon-H1是由TII开发的高效混合架构语言模型，结合Transformer与Mamba架构，支持多语言任务

大型语言模型

Transformers

支持多种语言开源协议:其他 #混合架构推理 #多语言生成 #高效小模型

下载量 194

发布时间 : 5/1/2025

模型简介

因果仅解码器架构的混合Transformer+Mamba模型，专注于高效推理和多语言处理能力

模型特点

混合架构创新

结合Transformer的注意力机制与Mamba架构的高效序列建模能力

多语言支持

原生支持18种语言处理，包括东亚和阿拉伯语系

高效推理

在1B参数级别实现超越同类模型的推理效率

模型能力

多语言文本生成

复杂推理任务处理

编程代码生成

数学问题求解

科学知识问答

使用案例

教育

多语言学习助手

支持18种语言的互动式学习

在MMLU多语言理解基准中表现优异

研发

科研辅助

处理STEM领域复杂问题

在MMLU-Pro科学基准测试中达41.07分

🚀 Falcon-H1模型

Falcon-H1是一款由tiiuae开发的语言模型，采用混合Transformer与Mamba架构，支持英语及多语言。它在多种任务上表现出色，用户可通过Hugging Face transformers、vLLM或自定义的llama.cpp库使用该模型。

🚀 快速开始

目前，若要使用此模型，你可以借助Hugging Face的transformers、vLLM库，或者我们自定义的llama.cpp库的分支。

推理

确保安装transformers或vLLM的最新版本，必要时从源代码安装这些包：

pip install git+https://github.com/huggingface/transformers.git

更多关于从源代码构建vLLM的详细信息，请参考官方vLLM文档。

🤗 transformers

参考以下代码片段，使用🤗 transformers运行H1模型：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "tiiuae/Falcon-H1-1B-Base"

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.bfloat16,
  device_map="auto"
)

# Perform text generation

vLLM

对于vLLM，只需执行以下命令启动服务器：

# pip install vllm
vllm serve tiiuae/Falcon-H1-1B-Instruct --tensor-parallel-size 2 --data-parallel-size 1

`llama.cpp`

我们正在将架构直接集成到llama.cpp库中，在此期间，你可以安装我们的库分支并直接使用：https://github.com/tiiuae/llama.cpp-Falcon-H1，安装指南与llama.cpp相同。

✨ 主要特性

模型类型：因果解码器
架构：混合Transformer + Mamba架构
支持语言：英语、多语言
许可证：Falcon-LLM许可证

📦 安装指南

安装`transformers`

pip install git+https://github.com/huggingface/transformers.git

安装`vLLM`

参考官方vLLM文档从源代码构建。

📚 详细文档

模型详情

开发者：https://www.tii.ae
模型类型：因果解码器
架构：混合Transformer + Mamba架构
支持语言：英语、多语言
许可证：Falcon-LLM许可证

训练详情

有关此模型训练协议的更多详细信息，请参考Falcon-H1技术博客文章。

评估

Falcon-H1系列在各种任务上表现出色，包括推理任务。具体评估结果如下：

任务	Falcon-H1-1.5B-deep	Qwen3-1.7B	Qwen2.5-1.5B	Gemma3-1B	Llama3.2-1B	Falcon3-1B
通用任务
BBH	52.37	43.05	40.55	30.26	30.72	35.24
MMLU	66.29	62.46	61.13	26.33	32.39	45.14
ARC-C	55.89	55.72	54.27	39.33	39.42	47.87
HellaSwag	69.72	67.09	67.86	62.94	65.73	62.3
Winogrande	67.09	66.3	64.56	62.59	62.75	61.17
数学任务
GSM8k	68.69	70.74	63.0	2.2	7.05	34.95
MATH lvl5	24.77	16.39	8.84	1.21	0.98	3.4
科学任务
GPQA	32.8	29.45	28.36	24.66	23.57	27.85
MMLU-Pro	41.07	33.81	28.72	11.31	11.8	16.11
MMLU-stem	67.43	61.53	54.93	27.59	30.19	40.06
代码任务
HumanEval	52.44	67.68	35.37	6.71	18.9	10.37
HumanEval+	46.34	60.98	29.27	5.49	16.46	9.15
MBPP	70.9	67.72	60.05	12.7	35.98	12.43
MBPP+	60.32	58.99	49.47	9.52	29.89	9.52

更多详细评估信息可查看发布博客文章。

引用

如果Falcon-H1系列模型对你的工作有帮助，请引用：

@misc{tiifalconh1,
    title = {Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance},
    url = {https://falcon-lm.github.io/blog/falcon-h1},
    author = {Falcon-LLM Team},
    month = {May},
    year = {2025}
}