LFM2-1.2B-GGUFオープンソースモデル - エッジとデバイス端でのデプロイに適し、品質、速度、効率を兼ね備える

ホーム

LFM2 1.2B GGUF

unslothによって開発

LFM2はLiquid AIによって開発された次世代の混合モデルで、エッジAIとデバイス端末デプロイ向けに設計され、品質、速度、メモリ効率の面で新しい基準を確立しました。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:その他 #エッジAI最適化 #多言語混合モデル #効率的な推論

ダウンロード数 246

リリース時間 : 7/11/2025

モデル概要

LFM2は、乗算ゲートと短畳み込みを持つ新しいタイプの混合Liquidモデルで、エッジデバイスのデプロイに適しており、高速なトレーニングと推論をサポートします。

モデル特徴

高速なトレーニングと推論

トレーニング速度は前世代より3倍速く、CPU上でのデコードと事前埋め込み速度はQwen3より2倍速いです。

卓越した性能

知識、数学、命令遵守、多言語能力などのベンチマークテストで、同等規模のモデルを上回っています。

柔軟なデプロイ

CPU、GPU、NPUのハードウェアで効率的に動作し、スマートフォン、ノートパソコン、車両などのデバイスに適しています。

新しいアーキテクチャ

乗算ゲートと短畳み込みを持つ混合Liquidモデルアーキテクチャを採用しています。

モデル能力

テキスト生成

多言語処理

命令遵守

ツール呼び出し

数学的推論

使用事例

エッジAIアプリケーション

デバイス端末対話アシスタント

スマートフォンまたはノートパソコンに効率的な対話アシスタントをデプロイします。

複数回の対話とツール呼び出しをサポートします。

データ抽出

テキストから構造化データを抽出します。

エッジデバイス上のデータ抽出タスクを効率的に処理します。

創作的な文章作成

コンテンツ生成

創造的なテキストコンテンツを生成します。

複数の言語とスタイルのテキスト生成をサポートします。

🚀 LFM2-1.2B

LFM2は、Liquid AIによって開発された次世代のハイブリッドモデルで、エッジAIとデバイス上でのデプロイメントに特化しています。このモデルは、品質、速度、メモリ効率の面で新たな基準を設定しています。

私たちは、350M、700M、1.2Bのパラメータを持つ3つの事後学習チェックポイントの重みを公開しています。これらは、AIを搭載したエッジアプリケーションを作成するために、以下の主要な機能を提供します。

高速な学習と推論 – LFM2は、前世代と比較して3倍速の学習を実現します。また、CPU上でのデコードとプリフィル速度がQwen3と比較して2倍速です。
最高の性能 – LFM2は、知識、数学、命令追従、多言語能力など、複数のベンチマークカテゴリで同規模のモデルを上回っています。
新しいアーキテクチャ – LFM2は、乗算ゲートと短い畳み込みを備えた新しいハイブリッドLiquidモデルです。
柔軟なデプロイメント – LFM2は、CPU、GPU、NPUのハードウェアで効率的に動作し、スマートフォン、ラップトップ、車両などで柔軟にデプロイできます。

LFM2に関する詳細情報は、ブログ記事で確認できます。

🚀 クイックスタート

モデルの実行

LFM2を実行するには、Hugging Faceのtransformersをソースからインストールする必要があります（v4.54.0.dev0）。以下のコマンドで更新またはインストールできます。

pip install "transformers @ git+https://github.com/huggingface/transformers.git@main"

以下は、Pythonでtransformersを使用して回答を生成する例です。

from transformers import AutoModelForCausalLM, AutoTokenizer

# モデルとトークナイザーをロード
model_id = "LiquidAI/LFM2-1.2B"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="bfloat16",
    trust_remote_code=True,
#    attn_implementation="flash_attention_2" <- 互換性のあるGPUではコメントを外す
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

# 回答を生成
prompt = "What is C. elegans?"
input_ids = tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    add_generation_prompt=True,
    return_tensors="pt",
    tokenize=True,
).to(model.device)

output = model.generate(
    input_ids,
    do_sample=True,
    temperature=0.3,
    min_p=0.15,
    repetition_penalty=1.05,
    max_new_tokens=512,
)

print(tokenizer.decode(output[0], skip_special_tokens=False))

# <|startoftext|><|im_start|>user
# What is C. elegans?<|im_end|>
# <|im_start|>assistant
# C. elegans, also known as Caenorhabditis elegans, is a small, free-living
# nematode worm (roundworm) that belongs to the phylum Nematoda.

このColabノートブックを使用して、モデルを直接実行してテストできます。

モデルの微調整

パフォーマンスを最大化するために、LFM2モデルを特定のユースケースに合わせて微調整することをおすすめします。

ノートブック	説明	リンク
SFT + LoRA	TRLでLoRAアダプターを使用した教師付き微調整（SFT）ノートブック。
DPO	TRLで直接嗜好最適化（DPO）を使用した嗜好アライメント。

✨ 主な機能

高速な学習と推論：前世代と比較して3倍速の学習を実現し、CPU上でのデコードとプリフィル速度がQwen3と比較して2倍速です。
最高の性能：知識、数学、命令追従、多言語能力など、複数のベンチマークカテゴリで同規模のモデルを上回っています。
新しいアーキテクチャ：乗算ゲートと短い畳み込みを備えた新しいハイブリッドLiquidモデルです。
柔軟なデプロイメント：CPU、GPU、NPUのハードウェアで効率的に動作し、スマートフォン、ラップトップ、車両などで柔軟にデプロイできます。

📦 インストール

pip install "transformers @ git+https://github.com/huggingface/transformers.git@main"

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

# モデルとトークナイザーをロード
model_id = "LiquidAI/LFM2-1.2B"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="bfloat16",
    trust_remote_code=True,
#    attn_implementation="flash_attention_2" <- 互換性のあるGPUではコメントを外す
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

# 回答を生成
prompt = "What is C. elegans?"
input_ids = tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    add_generation_prompt=True,
    return_tensors="pt",
    tokenize=True,
).to(model.device)

output = model.generate(
    input_ids,
    do_sample=True,
    temperature=0.3,
    min_p=0.15,
    repetition_penalty=1.05,
    max_new_tokens=512,
)

print(tokenizer.decode(output[0], skip_special_tokens=False))

# <|startoftext|><|im_start|>user
# What is C. elegans?<|im_end|>
# <|im_start|>assistant
# C. elegans, also known as Caenorhabditis elegans, is a small, free-living
# nematode worm (roundworm) that belongs to the phylum Nematoda.

📚 ドキュメント

モデルの詳細

サイズが小さいため、LFM2モデルを狭いユースケースで微調整することをおすすめします。これにより、パフォーマンスを最大化できます。

これらのモデルは、エージェントタスク、データ抽出、RAG、創造的な文章作成、マルチターン会話などに特に適しています。ただし、知識が豊富なタスクやプログラミングスキルを必要とするタスクには適していません。

属性	詳情
パラメータ	1,170,340,608
レイヤー	16 (10 conv + 6 attn)
コンテキスト長	32,768トークン
語彙サイズ	65,536
精度	bfloat16
学習予算	10兆トークン
ライセンス	LFM Open License v1.0

サポート言語：英語、アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語。

生成パラメータ：以下のパラメータをおすすめします。

temperature=0.3
min_p=0.15
repetition_penalty=1.05

チャットテンプレート：LFM2は、次のようなChatMLに似たチャットテンプレートを使用しています。

<|startoftext|><|im_start|>system
You are a helpful assistant trained by Liquid AI.<|im_end|>
<|im_start|>user
What is C. elegans?<|im_end|>
<|im_start|>assistant
It's a tiny nematode that lives in temperate soil environments.<|im_end|>

これは、Hugging Faceのtransformersの専用の.apply_chat_template()関数を使用して適用できます。

ツールの使用：主に4つのステップで構成されています。

関数定義：LFM2は、JSON関数定義を入力として受け取ります（<|tool_list_start|>と<|tool_list_end|>の特殊トークン間のJSONオブジェクト）。通常はシステムプロンプトに含まれます。
関数呼び出し：LFM2は、Pythonのような関数呼び出しを書きます（<|tool_call_start|>と<|tool_call_end|>の特殊トークン間のPythonリスト）。これは、アシスタントの回答として出力されます。
関数実行：関数呼び出しが実行され、結果が返されます（<|tool_response_start|>と<|tool_response_end|>の特殊トークン間の文字列）。これは、「ツール」ロールとして返されます。
最終回答：LFM2は、関数呼び出しの結果を解釈し、元のユーザープロンプトに対する回答を平文で返します。

以下は、ツールを使用した会話の簡単な例です。

<|startoftext|><|im_start|>system
List of tools: <|tool_list_start|>[{"name": "get_candidate_status", "description": "Retrieves the current status of a candidate in the recruitment process", "parameters": {"type": "object", "properties": {"candidate_id": {"type": "string", "description": "Unique identifier for the candidate"}}, "required": ["candidate_id"]}}]<|tool_list_end|><|im_end|>
<|im_start|>user
What is the current status of candidate ID 12345?<|im_end|>
<|im_start|>assistant
<|tool_call_start|>[get_candidate_status(candidate_id="12345")]<|tool_call_end|>Checking the current status of candidate ID 12345.<|im_end|>
<|im_start|>tool
<|tool_response_start|>{"candidate_id": "12345", "status": "Interview Scheduled", "position": "Clinical Research Associate", "date": "2023-11-20"}<|tool_response_end|><|im_end|>
<|im_start|>assistant
The candidate with ID 12345 is currently in the "Interview Scheduled" stage for the position of Clinical Research Associate, with an interview date set for 2023-11-20.<|im_end|>

アーキテクチャ：乗算ゲートと短い畳み込みを備えたハイブリッドモデル：10個のダブルゲート短距離LIV畳み込みブロックと6個のグループ化クエリアテンション（GQA）ブロック。

事前学習データの混合：約75％の英語、20％の多言語、および5％のコードデータ。これらはウェブとライセンス付きの資料から収集されました。

学習アプローチ：

LFM1-7Bを教師モデルとして使用した知識蒸留
50％の下流タスクと50％の一般ドメインでの大規模なSFT
長さ正規化と半オンラインデータセットを使用したカスタムDPO
反復的なモデルマージ

性能

LFM2は、さまざまな評価カテゴリで同規模のモデルを上回っています。

1. 自動ベンチマーク

image/png

モデル	MMLU	GPQA	IFEval	IFBench	GSM8K	MGSM	MMMLU
LFM2-350M	43.43	27.46	65.12	16.41	30.1	29.52	37.99
LFM2-700M	49.9	28.48	72.23	20.56	46.4	45.36	43.28
LFM2-1.2B	55.23	31.47	74.89	20.7	58.3	55.04	46.73
Qwen3-0.6B	44.93	22.14	64.24	19.75	36.47	41.28	30.84
Qwen3-1.7B	59.11	27.72	73.98	21.27	51.4	66.56	46.51
Llama-3.2-1B-Instruct	46.6	28.84	52.39	16.86	35.71	29.12	38.15
gemma-3-1b-it	40.08	21.07	62.9	17.72	59.59	43.6	34.43

2. LLM-as-a-Judge

image/png

3. 推論

ExecuTorchでのCPUスループット比較

image/png

Llama.cppでのCPUスループット比較

image/png

🔧 技術詳細

アーキテクチャ：乗算ゲートと短い畳み込みを備えたハイブリッドモデル。10個のダブルゲート短距離LIV畳み込みブロックと6個のグループ化クエリアテンション（GQA）ブロックを使用。
事前学習データ：約75％の英語、20％の多言語、および5％のコードデータ。ウェブとライセンス付きの資料から収集。
学習アプローチ：知識蒸留、大規模なSFT、カスタムDPO、反復的なモデルマージを使用。