🚀 Falcon-H1
Falcon-H1は、TransformerとMambaアーキテクチャを融合した言語モデルで、多様なタスクで高い性能を発揮します。
🚀 クイックスタート
Falcon-H1モデルを使用するには、Hugging Faceのtransformers
、vLLM
、またはllama.cpp
ライブラリのカスタムフォークを利用できます。以下にそれぞれの使用方法を説明します。
✨ 主な機能
- 開発元: https://www.tii.ae
- モデルタイプ: 因果的デコーダー専用
- アーキテクチャ: ハイブリッドTransformer + Mambaアーキテクチャ
- 言語: 英語、多言語
- ライセンス: Falcon-LLM License
📦 インストール
transformers
のインストール
最新バージョンのtransformers
をインストールするには、以下のコマンドを実行します。
pip install git+https://github.com/huggingface/transformers.git
vLLM
のインストール
vLLM
をソースからビルドする詳細については、公式vLLMドキュメントを参照してください。
llama.cpp
のインストール
現在、アーキテクチャを直接llama.cpp
ライブラリに統合する作業を行っています。それまでは、カスタムフォークをインストールして直接使用できます。llama.cpp
と同じインストールガイドラインを使用してください。
💻 使用例
基本的な使用法
transformers
を使用した推論
以下のコードスニペットを参照して、transformers
を使用してH1モデルを実行します。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "tiiuae/Falcon-H1-1B-Base"
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
vLLM
を使用した推論
vLLM
の場合は、以下のコマンドを実行してサーバーを起動します。
# pip install vllm
vllm serve tiiuae/Falcon-H1-1B-Instruct --tensor-parallel-size 2 --data-parallel-size 1
📚 ドキュメント
トレーニングの詳細
このモデルのトレーニングプロトコルの詳細については、Falcon-H1技術ブログ記事を参照してください。
評価
Falcon-H1シリーズは、推論タスクを含む様々なタスクで非常に良好な性能を発揮します。以下は、Falcon-H1-34Bと他のモデルの比較表です。
タスク |
Falcon-H1-34B |
Qwen3-32B |
Qwen2.5-72B |
Qwen2.5-32B |
Gemma3-27B |
Llama3.3-70B |
Llama4-scout |
一般 |
|
|
|
|
|
|
|
BBH |
70.68 |
62.47 |
72.52 |
68.72 |
67.28 |
69.15 |
64.9 |
ARC-C |
61.01 |
48.98 |
46.59 |
44.54 |
54.52 |
63.65 |
56.14 |
TruthfulQA |
65.27 |
58.58 |
69.8 |
70.28 |
64.26 |
66.15 |
62.74 |
HellaSwag |
81.94 |
68.89 |
68.79 |
73.95 |
57.25 |
70.24 |
65.03 |
MMLU |
84.05 |
80.89 |
84.42 |
82.8 |
78.01 |
82.08 |
80.4 |
数学 |
|
|
|
|
|
|
|
GSM8k |
83.62 |
88.78 |
82.26 |
78.47 |
90.37 |
93.71 |
90.37 |
MATH-500 |
83.8 |
82.0 |
83.6 |
82.2 |
90.0 |
70.6 |
83.2 |
AMC-23 |
69.38 |
67.34 |
67.34 |
68.75 |
77.81 |
39.38 |
69.06 |
AIME-24 |
23.75 |
27.71 |
17.29 |
17.92 |
27.5 |
12.92 |
27.92 |
AIME-25 |
16.67 |
19.79 |
15.21 |
11.46 |
22.71 |
1.25 |
8.96 |
科学 |
|
|
|
|
|
|
|
GPQA |
41.53 |
30.2 |
37.67 |
34.31 |
36.49 |
31.99 |
31.8 |
GPQA_Diamond |
49.66 |
49.49 |
44.95 |
40.74 |
47.47 |
42.09 |
51.18 |
MMLU-Pro |
58.73 |
54.68 |
56.35 |
56.63 |
47.81 |
53.29 |
55.58 |
MMLU-stem |
83.57 |
81.64 |
82.59 |
82.37 |
73.55 |
74.88 |
75.2 |
コード |
|
|
|
|
|
|
|
HumanEval |
87.2 |
90.85 |
87.2 |
90.24 |
86.59 |
83.53 |
85.4 |
HumanEval+ |
81.71 |
85.37 |
80.49 |
82.32 |
78.05 |
79.87 |
78.7 |
MBPP |
83.86 |
86.24 |
89.68 |
87.83 |
88.36 |
88.09 |
81.5 |
MBPP+ |
71.43 |
71.96 |
75.4 |
74.07 |
74.07 |
73.81 |
64.8 |
LiveCodeBench |
49.71 |
45.01 |
54.6 |
49.12 |
39.53 |
40.31 |
40.12 |
CRUXEval |
73.07 |
78.45 |
75.63 |
73.5 |
74.82 |
69.53 |
68.32 |
命令追従 |
|
|
|
|
|
|
|
IFEval |
89.37 |
86.97 |
86.35 |
81.79 |
83.19 |
89.94 |
86.32 |
Alpaca-Eval |
48.32 |
64.21 |
49.29 |
39.26 |
56.16 |
38.27 |
36.26 |
MTBench |
9.2 |
9.05 |
9.16 |
9.09 |
8.75 |
8.98 |
8.98 |
LiveBench |
46.26 |
63.05 |
54.03 |
52.92 |
55.41 |
53.11 |
54.21 |
詳細なベンチマークについては、リリースブログ記事を確認できます。
有用なリンク
📄 ライセンス
このモデルは、Falcon-LLM Licenseの下で提供されています。
🔧 技術詳細
Falcon-H1の技術的な詳細については、Falcon-H1技術ブログ記事を参照してください。
📄 引用
Falcon-H1モデルファミリーがあなたの研究に役立った場合は、以下のように引用してください。
@misc{tiifalconh1,
title = {Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance},
url = {https://falcon-lm.github.io/blog/falcon-h1},
author = {Falcon-LLM Team},
month = {May},
year = {2025}
}