モデル概要
モデル特徴
モデル能力
使用事例
🚀 LFM2-1.2B
LFM2は、Liquid AIによって開発された次世代のハイブリッドモデルで、エッジAIとデバイス上でのデプロイメントに特化しています。このモデルは、品質、速度、メモリ効率の面で新たな基準を設定しています。
私たちは、350M、700M、1.2Bのパラメータを持つ3つの事後学習チェックポイントの重みを公開しています。これらは、AIを搭載したエッジアプリケーションを作成するために、以下の主要な機能を提供します。
- 高速な学習と推論 – LFM2は、前世代と比較して3倍速の学習を実現します。また、CPU上でのデコードとプリフィル速度がQwen3と比較して2倍速です。
- 最高の性能 – LFM2は、知識、数学、命令追従、多言語能力など、複数のベンチマークカテゴリで同規模のモデルを上回っています。
- 新しいアーキテクチャ – LFM2は、乗算ゲートと短い畳み込みを備えた新しいハイブリッドLiquidモデルです。
- 柔軟なデプロイメント – LFM2は、CPU、GPU、NPUのハードウェアで効率的に動作し、スマートフォン、ラップトップ、車両などで柔軟にデプロイできます。
LFM2に関する詳細情報は、ブログ記事で確認できます。
🚀 クイックスタート
モデルの実行
LFM2を実行するには、Hugging Faceのtransformers
をソースからインストールする必要があります(v4.54.0.dev0)。以下のコマンドで更新またはインストールできます。
pip install "transformers @ git+https://github.com/huggingface/transformers.git@main"
以下は、Pythonでtransformers
を使用して回答を生成する例です。
from transformers import AutoModelForCausalLM, AutoTokenizer
# モデルとトークナイザーをロード
model_id = "LiquidAI/LFM2-1.2B"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype="bfloat16",
trust_remote_code=True,
# attn_implementation="flash_attention_2" <- 互換性のあるGPUではコメントを外す
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
# 回答を生成
prompt = "What is C. elegans?"
input_ids = tokenizer.apply_chat_template(
[{"role": "user", "content": prompt}],
add_generation_prompt=True,
return_tensors="pt",
tokenize=True,
).to(model.device)
output = model.generate(
input_ids,
do_sample=True,
temperature=0.3,
min_p=0.15,
repetition_penalty=1.05,
max_new_tokens=512,
)
print(tokenizer.decode(output[0], skip_special_tokens=False))
# <|startoftext|><|im_start|>user
# What is C. elegans?<|im_end|>
# <|im_start|>assistant
# C. elegans, also known as Caenorhabditis elegans, is a small, free-living
# nematode worm (roundworm) that belongs to the phylum Nematoda.
このColabノートブックを使用して、モデルを直接実行してテストできます。
モデルの微調整
パフォーマンスを最大化するために、LFM2モデルを特定のユースケースに合わせて微調整することをおすすめします。
ノートブック | 説明 | リンク |
---|---|---|
SFT + LoRA | TRLでLoRAアダプターを使用した教師付き微調整(SFT)ノートブック。 | ![]() |
DPO | TRLで直接嗜好最適化(DPO)を使用した嗜好アライメント。 | ![]() |
✨ 主な機能
- 高速な学習と推論:前世代と比較して3倍速の学習を実現し、CPU上でのデコードとプリフィル速度がQwen3と比較して2倍速です。
- 最高の性能:知識、数学、命令追従、多言語能力など、複数のベンチマークカテゴリで同規模のモデルを上回っています。
- 新しいアーキテクチャ:乗算ゲートと短い畳み込みを備えた新しいハイブリッドLiquidモデルです。
- 柔軟なデプロイメント:CPU、GPU、NPUのハードウェアで効率的に動作し、スマートフォン、ラップトップ、車両などで柔軟にデプロイできます。
📦 インストール
LFM2を実行するには、Hugging Faceのtransformers
をソースからインストールする必要があります(v4.54.0.dev0)。以下のコマンドで更新またはインストールできます。
pip install "transformers @ git+https://github.com/huggingface/transformers.git@main"
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
# モデルとトークナイザーをロード
model_id = "LiquidAI/LFM2-1.2B"
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype="bfloat16",
trust_remote_code=True,
# attn_implementation="flash_attention_2" <- 互換性のあるGPUではコメントを外す
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
# 回答を生成
prompt = "What is C. elegans?"
input_ids = tokenizer.apply_chat_template(
[{"role": "user", "content": prompt}],
add_generation_prompt=True,
return_tensors="pt",
tokenize=True,
).to(model.device)
output = model.generate(
input_ids,
do_sample=True,
temperature=0.3,
min_p=0.15,
repetition_penalty=1.05,
max_new_tokens=512,
)
print(tokenizer.decode(output[0], skip_special_tokens=False))
# <|startoftext|><|im_start|>user
# What is C. elegans?<|im_end|>
# <|im_start|>assistant
# C. elegans, also known as Caenorhabditis elegans, is a small, free-living
# nematode worm (roundworm) that belongs to the phylum Nematoda.
📚 ドキュメント
モデルの詳細
サイズが小さいため、LFM2モデルを狭いユースケースで微調整することをおすすめします。これにより、パフォーマンスを最大化できます。
これらのモデルは、エージェントタスク、データ抽出、RAG、創造的な文章作成、マルチターン会話などに特に適しています。ただし、知識が豊富なタスクやプログラミングスキルを必要とするタスクには適していません。
属性 | 詳情 |
---|---|
パラメータ | 1,170,340,608 |
レイヤー | 16 (10 conv + 6 attn) |
コンテキスト長 | 32,768トークン |
語彙サイズ | 65,536 |
精度 | bfloat16 |
学習予算 | 10兆トークン |
ライセンス | LFM Open License v1.0 |
サポート言語:英語、アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語。
生成パラメータ:以下のパラメータをおすすめします。
temperature=0.3
min_p=0.15
repetition_penalty=1.05
チャットテンプレート:LFM2は、次のようなChatMLに似たチャットテンプレートを使用しています。
<|startoftext|><|im_start|>system
You are a helpful assistant trained by Liquid AI.<|im_end|>
<|im_start|>user
What is C. elegans?<|im_end|>
<|im_start|>assistant
It's a tiny nematode that lives in temperate soil environments.<|im_end|>
これは、Hugging Faceのtransformers
の専用の.apply_chat_template()
関数を使用して適用できます。
ツールの使用:主に4つのステップで構成されています。
- 関数定義:LFM2は、JSON関数定義を入力として受け取ります(
<|tool_list_start|>
と<|tool_list_end|>
の特殊トークン間のJSONオブジェクト)。通常はシステムプロンプトに含まれます。 - 関数呼び出し:LFM2は、Pythonのような関数呼び出しを書きます(
<|tool_call_start|>
と<|tool_call_end|>
の特殊トークン間のPythonリスト)。これは、アシスタントの回答として出力されます。 - 関数実行:関数呼び出しが実行され、結果が返されます(
<|tool_response_start|>
と<|tool_response_end|>
の特殊トークン間の文字列)。これは、「ツール」ロールとして返されます。 - 最終回答:LFM2は、関数呼び出しの結果を解釈し、元のユーザープロンプトに対する回答を平文で返します。
以下は、ツールを使用した会話の簡単な例です。
<|startoftext|><|im_start|>system
List of tools: <|tool_list_start|>[{"name": "get_candidate_status", "description": "Retrieves the current status of a candidate in the recruitment process", "parameters": {"type": "object", "properties": {"candidate_id": {"type": "string", "description": "Unique identifier for the candidate"}}, "required": ["candidate_id"]}}]<|tool_list_end|><|im_end|>
<|im_start|>user
What is the current status of candidate ID 12345?<|im_end|>
<|im_start|>assistant
<|tool_call_start|>[get_candidate_status(candidate_id="12345")]<|tool_call_end|>Checking the current status of candidate ID 12345.<|im_end|>
<|im_start|>tool
<|tool_response_start|>{"candidate_id": "12345", "status": "Interview Scheduled", "position": "Clinical Research Associate", "date": "2023-11-20"}<|tool_response_end|><|im_end|>
<|im_start|>assistant
The candidate with ID 12345 is currently in the "Interview Scheduled" stage for the position of Clinical Research Associate, with an interview date set for 2023-11-20.<|im_end|>
アーキテクチャ:乗算ゲートと短い畳み込みを備えたハイブリッドモデル:10個のダブルゲート短距離LIV畳み込みブロックと6個のグループ化クエリアテンション(GQA)ブロック。
事前学習データの混合:約75%の英語、20%の多言語、および5%のコードデータ。これらはウェブとライセンス付きの資料から収集されました。
学習アプローチ:
- LFM1-7Bを教師モデルとして使用した知識蒸留
- 50%の下流タスクと50%の一般ドメインでの大規模なSFT
- 長さ正規化と半オンラインデータセットを使用したカスタムDPO
- 反復的なモデルマージ
性能
LFM2は、さまざまな評価カテゴリで同規模のモデルを上回っています。
1. 自動ベンチマーク
モデル | MMLU | GPQA | IFEval | IFBench | GSM8K | MGSM | MMMLU |
---|---|---|---|---|---|---|---|
LFM2-350M | 43.43 | 27.46 | 65.12 | 16.41 | 30.1 | 29.52 | 37.99 |
LFM2-700M | 49.9 | 28.48 | 72.23 | 20.56 | 46.4 | 45.36 | 43.28 |
LFM2-1.2B | 55.23 | 31.47 | 74.89 | 20.7 | 58.3 | 55.04 | 46.73 |
Qwen3-0.6B | 44.93 | 22.14 | 64.24 | 19.75 | 36.47 | 41.28 | 30.84 |
Qwen3-1.7B | 59.11 | 27.72 | 73.98 | 21.27 | 51.4 | 66.56 | 46.51 |
Llama-3.2-1B-Instruct | 46.6 | 28.84 | 52.39 | 16.86 | 35.71 | 29.12 | 38.15 |
gemma-3-1b-it | 40.08 | 21.07 | 62.9 | 17.72 | 59.59 | 43.6 | 34.43 |
2. LLM-as-a-Judge
3. 推論
ExecuTorchでのCPUスループット比較
Llama.cppでのCPUスループット比較
🔧 技術詳細
- アーキテクチャ:乗算ゲートと短い畳み込みを備えたハイブリッドモデル。10個のダブルゲート短距離LIV畳み込みブロックと6個のグループ化クエリアテンション(GQA)ブロックを使用。
- 事前学習データ:約75%の英語、20%の多言語、および5%のコードデータ。ウェブとライセンス付きの資料から収集。
- 学習アプローチ:知識蒸留、大規模なSFT、カスタムDPO、反復的なモデルマージを使用。
📄 ライセンス
このモデルは、LFM Open License v1.0の下で提供されています。詳細については、LICENSEを参照してください。
その他の情報
⚠️ 重要提示
このモデルにはチャットテンプレートの修正が含まれています!
llama.cpp
を使用する場合は、--jinja
を使用してください。
Unsloth Dynamic 2.0は、優れた精度を達成し、他の主要な量子化手法を上回っています。

📬 お問い合わせ
エッジデプロイメントを伴うカスタムソリューションに興味がある場合は、営業チームまでお問い合わせください。



