Falcon-E-1B-Instruct开源语言模型 - 低内存高性能够在边缘设备高效运行

首页

Falcon E 1B Instruct

由 tiiuae 开发

Falcon-E-1B-Instruct 是一个基于1.58比特架构的高效语言模型，专为边缘设备优化，具有低内存占用和高性能的特点。

大型语言模型

Transformers

开源协议:其他 #1.58比特量化 #边缘计算优化 #低内存推理

下载量 87

发布时间 : 4/16/2025

模型简介

该模型采用纯Transformer架构的因果解码器设计，支持英语语言处理，适用于指令跟随和文本生成任务。

模型特点

高效1.58比特架构

采用创新的1.58比特量化技术，显著降低模型内存占用

边缘设备优化

专为边缘计算场景设计，在资源受限环境下仍保持高性能

低内存占用

18亿参数模型仅需635MB内存，远低于传统模型

模型能力

文本生成

指令跟随

问答系统

内容创作

使用案例

智能助手

虚拟助手

构建资源高效的对话式AI助手

在IFEVAL基准测试中获得54.35分

边缘计算

移动端应用

在智能手机等移动设备上部署AI功能

内存占用仅为635MB

🚀 Falcon-E模型

Falcon-E是一系列强大、通用且可微调的1.58bit语言模型，可依赖Hugging Face transformers库或BitNet库使用，在多种评估指标上表现出色。

🚀 快速开始

要使用此模型，你可以依赖Hugging Face transformers库或BitNet库。根据你的目标用途，有多种方式与模型进行交互。对于每个Falcon-E系列模型，你有三种变体：BitNet模型、用于微调的预量化检查点和BitNet模型的bfloat16版本。

✨ 主要特性

模型类型：因果解码器，基础版本
架构：纯Transformer - 1.58bit版本
语言：英文
许可证：Falcon-LLM License

📦 安装指南

目前使用此模型，你可以依赖Hugging Face transformers库或BitNet库。

使用transformers库

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "tiiuae/Falcon-E-1B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.bfloat16,
).to("cuda")

# Perform text generation

使用BitNet库

git clone https://github.com/microsoft/BitNet && cd BitNet
pip install -r requirements.txt
python setup_env.py --hf-repo tiiuae/Falcon-E-1B-Instruct -q i2_s
python run_inference.py -m models/Falcon-E-1B-Instruct/ggml-model-i2_s.gguf -p "You are a helpful assistant" -cnv

💻 使用示例

基础用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "tiiuae/Falcon-E-1B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.bfloat16,
).to("cuda")

# Perform text generation

高级用法

使用经典`bfloat16`版本进行推理

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "tiiuae/Falcon-E-1B-Instruct"
revision = "bfloat16"

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.bfloat16,
  revision=revision,
).to("cuda")

# Perform text generation

模型微调

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer
+ from onebitllms import replace_linear_with_bitnet_linear, quantize_to_1bit

model_id = "tiiuae/Falcon-E-1B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id, revision="prequantized")
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
+    revision="prequantized"
)
+ model = replace_linear_with_bitnet_linear(model)

trainer = SFTTrainer(
    model,
    ...
)

trainer.train()

+ quantize_to_1bit(output_directory)

📚 详细文档

模型详情

属性	详情
开发方	https://www.tii.ae
模型类型	因果解码器，基础版本
架构	纯Transformer - 1.58bit版本
语言	英文
许可证	Falcon-LLM License

训练详情

有关此模型训练协议的更多详细信息，请参阅Falcon-E技术博客文章。

评估

以下表格展示了内部管道基准测试结果，评估结果是前Hugging Face排行榜v2任务的标准化分数。

1B规模及以下模型

模型	参数数量	内存占用	IFEVAL	Math-Hard	GPQA	MuSR	BBH	MMLU-Pro	平均值
Qwen-2.5-0.5B	0.5B	1GB	16.27	3.93	0.0	2.08	6.95	10.06	6.55
SmolLM2-360M	0.36B	720MB	21.15	1.21	0.0	7.73	5.54	1.88	6.25
Qwen-2.5-1.5B	1.5B	3.1GB	26.74	9.14	16.66	5.27	20.61	4.7	13.85
Llama-3.2-1B	1.24B	2.47GB	14.78	1.21	4.37	2.56	2.26	0	4.2
SmolLM2-1.7B	1.7B	3.4GB	24.4	2.64	9.3	4.6	12.64	3.91	9.58
Falcon-3-1B-Base	1.5B	3GB	24.28	3.32	11.34	9.71	6.76	3.91	9.89
Hymba-1.5B-Base	1.5B	3GB	22.95	1.36	7.69	5.18	10.25	0.78	8.04
Falcon-E-1B-Base	1.8B	635MB	32.9	10.97	2.8	3.65	12.28	17.82	13.40

3B规模模型

模型	参数数量	内存占用	IFEVAL	Math-Hard	GPQA	MuSR	BBH	MMLU-Pro	平均值
Falcon-3-3B-Base	3B	6.46GB	15.74	11.78	21.58	6.27	18.09	6.26	15.74
Qwen2.5-3B	3B	6.17GB	26.9	14.8	24.3	11.76	24.48	6.38	18.1
Falcon-E-3B-Base	3B	955MB	36.67	13.45	8.67	4.14	19.83	27.16	18.32

以下是指令微调模型的结果：

1B规模及以下模型

模型	参数数量	内存占用	IFEVAL	Math-Hard	GPQA	MuSR	BBH	MMLU-Pro	平均值
Qwen-2.5-0.5B-Instruct	500M	1GB	30.71	0	8.43	0.94	7.75	0	6.59
SmolLM2-360M-Instruct	360M	720MB	38.42	1.51	4.17	2.77	1.3	0.67	8.14
Qwen-2.5-1.5B-Instruct	1.5B	3.1GB	44.76	22.05	19.81	3.19	19.99	0.78	18.43
SmolLM2-1.7B	1.7B	3.4GB	53.68	5.82	10.92	4.1	11.71	0	15.02
Falcon-3-1B-Instruct	1.5B	3GB	55.57	6.34	12.96	10.56	9.32	2.24	16.16
Hymba-1.5B-Instruct	1.5B	3GB	60.09	2.72	4.59	1.05	11.56	5.515	14.19
Falcon-E-1B-Instruct	1.8B	635MB	54.35	9.12	16.5	2.51	19.42	9.64	18.59

3B规模模型

模型	参数数量	内存占用	IFEVAL	Math-Hard	GPQA	MuSR	BBH	MMLU-Pro	平均值
Falcon-3-3B-Instruct	3B	6.46GB	69.77	25	26.29	11.13	22.28	5.15	26.6
Qwen2.5-3B-Instruct	3B	6.17GB	64.75	36.78	25.8	7.57	25.05	3.02	27.16
Falcon-E-3B-Instruct	3B	955MB	60.97	15.3	23.59	2.12	26.45	7.45	22.64666667

有用链接

查看发布博客文章。
了解更多关于onebitllms库的信息。
如果你有任何问题或想与研究人员和开发人员交流，欢迎加入Discord服务器。

🔧 技术细节

有关此模型训练协议的更多详细信息，请参阅Falcon-E技术博客文章。

📄 许可证

本模型使用Falcon-LLM License，详情请见许可证链接。

📖 引用

如果Falcon-E系列模型对你的工作有帮助，请引用：

@misc{tiionebitllms,
    title = {Falcon-E, a series of powerful, universal and fine-tunable 1.58bit language models.},
    author = {Falcon-LLM Team},
    month = {April},
    url = {https://falcon-lm.github.io/blog/falcon-edge},
    year = {2025}
}