🚀 LFM2-700M
LFM2は、Liquid AIによって開発された次世代のハイブリッドモデルで、エッジAIとデバイス上でのデプロイメントに特化しています。品質、速度、メモリ効率の面で新しい基準を設定しています。
350M、700M、1.2Bのパラメータを持つ3つの事後学習済みチェックポイントの重みを公開しています。これらは、AI搭載のエッジアプリケーションを作成するために以下の主要な機能を提供します。
- 高速な学習と推論 – LFM2は、前世代と比較して3倍速の学習を実現します。また、CPU上でQwen3と比較して2倍速のデコードとプリフィル速度を実現します。
- 最高の性能 – LFM2は、知識、数学、命令追従、多言語能力など、複数のベンチマークカテゴリで同規模のモデルを上回っています。
- 新しいアーキテクチャ – LFM2は、乗算ゲートと短い畳み込みを持つ新しいハイブリッドLiquidモデルです。
- 柔軟なデプロイメント – LFM2は、CPU、GPU、NPUハードウェア上で効率的に動作し、スマートフォン、ノートパソコン、または車両での柔軟なデプロイメントが可能です。
LFM2に関する詳細情報は、ブログ記事を参照してください。
🚀 クイックスタート
モデルの実行
LFM2は、transformersとllama.cppで実行できます。vLLMのサポートも間もなく提供されます。
1. Transformers
LFM2を実行するには、ソースからHugging Faceのtransformers
(v4.54.0.dev0)をインストールする必要があります。次のコマンドで更新またはインストールできます。
pip install "transformers @ git+https://github.com/huggingface/transformers.git@main"
以下は、Pythonでtransformersを使用して回答を生成する例です。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "LiquidAI/LFM2-700M"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype="bfloat16",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
prompt = "What is C. elegans?"
input_ids = tokenizer.apply_chat_template(
[{"role": "user", "content": prompt}],
add_generation_prompt=True,
return_tensors="pt",
tokenize=True,
).to(model.device)
output = model.generate(
input_ids,
do_sample=True,
temperature=0.3,
min_p=0.15,
repetition_penalty=1.05,
max_new_tokens=512,
)
print(tokenizer.decode(output[0], skip_special_tokens=False))
このColabノートブックを使用して、モデルを直接実行してテストすることができます。
2. Llama.cpp
GGUFチェックポイントを使用して、llama.cppでLFM2を実行することができます。詳細情報は、モデルカードを参照してください。
モデルの微調整
パフォーマンスを最大化するために、LFM2モデルをあなたのユースケースに合わせて微調整することをお勧めします。
ノートブック |
説明 |
リンク |
SFT (Axolotl) |
AxolotlでLoRAアダプターを使用した教師付き微調整(SFT)ノートブック。 |
 |
SFT (TRL) |
TRLでLoRAアダプターを使用した教師付き微調整(SFT)ノートブック。 |
 |
DPO (TRL) |
TRLで直接嗜好最適化(DPO)を使用した嗜好アライメント。 |
 |
✨ 主な機能
- 高速な学習と推論:前世代と比較して3倍速の学習を実現し、CPU上でQwen3と比較して2倍速のデコードとプリフィル速度を実現します。
- 最高の性能:知識、数学、命令追従、多言語能力など、複数のベンチマークカテゴリで同規模のモデルを上回っています。
- 新しいアーキテクチャ:乗算ゲートと短い畳み込みを持つ新しいハイブリッドLiquidモデルです。
- 柔軟なデプロイメント:CPU、GPU、NPUハードウェア上で効率的に動作し、スマートフォン、ノートパソコン、または車両での柔軟なデプロイメントが可能です。
📦 インストール
LFM2を実行するには、ソースからHugging Faceのtransformers
(v4.54.0.dev0)をインストールする必要があります。次のコマンドで更新またはインストールできます。
pip install "transformers @ git+https://github.com/huggingface/transformers.git@main"
📚 ドキュメント
モデルの詳細
モデルのサイズが小さいため、狭いユースケースでLFM2モデルを微調整することをお勧めします。これにより、パフォーマンスを最大化することができます。
これらのモデルは、エージェントタスク、データ抽出、RAG、創造的な文章作成、マルチターン会話に特に適しています。ただし、知識が豊富なタスクやプログラミングスキルが必要なタスクには使用しないことをお勧めします。
プロパティ |
詳細 |
パラメータ |
742,489,344 |
レイヤー |
16 (10 conv + 6 attn) |
コンテキスト長 |
32,768トークン |
語彙サイズ |
65,536 |
精度 |
bfloat16 |
学習予算 |
10兆トークン |
ライセンス |
LFM Open License v1.0 |
サポートされる言語:英語、アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語。
生成パラメータ:以下のパラメータをお勧めします。
temperature=0.3
min_p=0.15
repetition_penalty=1.05
チャットテンプレート:LFM2は、次のようなChatMLのようなチャットテンプレートを使用します。
<|startoftext|><|im_start|>system
You are a helpful assistant trained by Liquid AI.<|im_end|>
<|im_start|>user
What is C. elegans?<|im_end|>
<|im_start|>assistant
It's a tiny nematode that lives in temperate soil environments.<|im_end|>
Hugging Face transformersの専用の.apply_chat_template()
関数を使用して適用することができます。
ツールの使用:主に4つのステップで構成されています。
- 関数定義:LFM2は、JSON関数定義を入力として受け取ります(
<|tool_list_start|>
と<|tool_list_end|>
の特殊トークンの間のJSONオブジェクト)。通常はシステムプロンプトに含まれます。
- 関数呼び出し:LFM2は、Python風の関数呼び出しを書きます(
<|tool_call_start|>
と<|tool_call_end|>
の特殊トークンの間のPythonリスト)。これは、アシスタントの回答として返されます。
- 関数実行:関数呼び出しが実行され、結果が返されます(
<|tool_response_start|>
と<|tool_response_end|>
の特殊トークンの間の文字列)。これは、「ツール」ロールとして返されます。
- 最終回答:LFM2は、関数呼び出しの結果を解釈し、元のユーザープロンプトに対する回答を平文で返します。
以下は、ツールを使用した会話の簡単な例です。
<|startoftext|><|im_start|>system
List of tools: <|tool_list_start|>[{"name": "get_candidate_status", "description": "Retrieves the current status of a candidate in the recruitment process", "parameters": {"type": "object", "properties": {"candidate_id": {"type": "string", "description": "Unique identifier for the candidate"}}, "required": ["candidate_id"]}}]<|tool_list_end|><|im_end|>
<|im_start|>user
What is the current status of candidate ID 12345?<|im_end|>
<|im_start|>assistant
<|tool_call_start|>[get_candidate_status(candidate_id="12345")]<|tool_call_end|>Checking the current status of candidate ID 12345.<|im_end|>
<|im_start|>tool
<|tool_response_start|>{"candidate_id": "12345", "status": "Interview Scheduled", "position": "Clinical Research Associate", "date": "2023-11-20"}<|tool_response_end|><|im_end|>
<|im_start|>assistant
The candidate with ID 12345 is currently in the "Interview Scheduled" stage for the position of Clinical Research Associate, with an interview date set for 2023-11-20.<|im_end|>
アーキテクチャ:乗算ゲートと短い畳み込みを持つハイブリッドモデル。10個のダブルゲート付き短距離LIV畳み込みブロックと6個のグループ化クエリアテンション(GQA)ブロックで構成されています。
事前学習データの混合:約75%の英語、20%の多言語、5%のコードデータ。ウェブとライセンス付き素材から収集されました。
学習アプローチ:
- LFM1-7Bを教師モデルとして使用した知識蒸留
- 50%の下流タスクと50%の一般ドメインでの大規模なSFT
- 長さ正規化と半オンラインデータセットを使用したカスタムDPO
- 反復的なモデルマージ
🔧 技術詳細
パフォーマンス
LFM2は、さまざまな評価カテゴリで同規模のモデルを上回っています。
1. 自動ベンチマーク

モデル |
MMLU |
GPQA |
IFEval |
IFBench |
GSM8K |
MGSM |
MMMLU |
LFM2-350M |
43.43 |
27.46 |
65.12 |
16.41 |
30.1 |
29.52 |
37.99 |
LFM2-700M |
49.9 |
28.48 |
72.23 |
20.56 |
46.4 |
45.36 |
43.28 |
LFM2-1.2B |
55.23 |
31.47 |
74.89 |
20.7 |
58.3 |
55.04 |
46.73 |
Qwen3-0.6B |
44.93 |
22.14 |
64.24 |
19.75 |
36.47 |
41.28 |
30.84 |
Qwen3-1.7B |
59.11 |
27.72 |
73.98 |
21.27 |
51.4 |
66.56 |
46.51 |
Llama-3.2-1B-Instruct |
46.6 |
28.84 |
52.39 |
16.86 |
35.71 |
29.12 |
38.15 |
gemma-3-1b-it |
40.08 |
21.07 |
62.9 |
17.72 |
59.59 |
43.6 |
34.43 |
2. LLM-as-a-Judge

3. 推論
ExecuTorchでのCPU上のスループット比較

Llama.cppでのCPU上のスループット比較

📄 ライセンス
このモデルは、LFM Open License v1.0の下で提供されています。
📬 お問い合わせ
エッジデプロイメントを含むカスタムソリューションに興味がある場合は、営業チームまでお問い合わせください。