モデル概要
モデル特徴
モデル能力
使用事例
🚀 xLAM-2モデルファミリーへようこそ!
このリポジトリでは、Llama-xLAM-2-8b-fc-rモデルのGGUF形式を提供しています。元のモデルのリンクはこちら Llama-xLAM-2-8b-fc-r です。
Large Action Models (LAMs) は、ユーザーの意図を実行可能なアクションに変換することで意思決定を強化するために設計された高度な言語モデルです。AIエージェントの「頭脳」として、LAMsは特定の目標を達成するためにタスクを自律的に計画して実行し、多様なドメインのワークフローを自動化するのに非常に役立ちます。 このモデルのリリースは研究目的のみです。
新しいxLAM-2シリーズは、当社の最先端のデータ合成、処理、およびトレーニングパイプラインに基づいて構築されており、多ターン会話とツール使用において大きな飛躍を遂げています。模擬エージェント-人間の対話を通じて高品質のトレーニングデータを生成する独自のAPIGen-MTフレームワークを使用してトレーニングされています。当社のモデルは、BFCL および Ï„-bench ベンチマークで最先端の性能を達成し、GPT-4oやClaude 3.5などの最先端モデルを上回っています。特に、小規模なモデルでも多ターンシナリオで優れた能力を発揮し、試行間で非常に高い一貫性を維持しています。
また、チャットテンプレートとvLLM統合を改良し、高度なAIエージェントを簡単に構築できるようにしています。以前のxLAMモデルと比較して、xLAM-2は優れた性能を発揮し、アプリケーション全体でシームレスにデプロイできます。
関数呼び出し(BFCL v3、2025年4月2日現在)およびエージェント機能(Ï„-bench)に関する最先端のベースラインに対する、より大規模なxLAM-2-fc-rモデル(8B - 70B、APIGen-MTデータでトレーニング)の比較性能。
🚀 クイックスタート
このセクションでは、xLAM-2モデルファミリーの概要と、GGUF形式のモデルの利用方法を紹介します。
✨ 主な機能
- 多ターン会話とツール使用の向上:新しいxLAM-2シリーズは、多ターン会話とツール使用において大きな進歩を遂げています。
- 最先端のベンチマーク性能:BFCLとÏ„-benchベンチマークで優れた性能を発揮し、他の最先端モデルを上回っています。
- 簡単なエージェント構築:改良されたチャットテンプレートとvLLM統合により、高度なAIエージェントを簡単に構築できます。
📦 インストール
GGUFファイルのダウンロード方法
- Hugging Face CLIのインストール:
pip install huggingface-hub
- Hugging Faceへのログイン:
huggingface-cli login
- GGUFモデルのダウンロード:
huggingface-cli download Salesforce/Llama-xLAM-2-8b-fc-r-gguf Llama-xLAM-2-8b-fc-r-gguf --local-dir . --local-dir-use-symlinks False
💻 使用例
基本的な使用法
コマンドラインでの使用
- llama.cppフレームワークをソースからインストールします こちら
- 以下のように推論タスクを実行します。生成関連のパラメータの設定については、llama.cppドキュメント を参照してください。
llama-cli -m [PATH-TO-LOCAL-GGUF]
Pythonフレームワークでの使用
- llama-cpp-python をインストールします。
pip install llama-cpp-python
- 高レベルAPIを使用して推論を行います。
from llama_cpp import Llama
llm = Llama(
model_path="[PATH-TO-MODEL]"
)
output = llm.create_chat_completion(
messages = [
{
"role": "system",
"content": "You are a helpful assistant that can use tools. You are developed by Salesforce xLAM team."
},
{
"role": "user",
"content": "Extract Jason is 25 years old"
}
],
tools=[{
"type": "function",
"function": {
"name": "UserDetail",
"parameters": {
"type": "object",
"title": "UserDetail",
"properties": {
"name": {
"title": "Name",
"type": "string"
},
"age": {
"title": "Age",
"type": "integer"
}
},
"required": [ "name", "age" ]
}
}
}],
tool_choice={
"type": "function",
"function": {
"name": "UserDetail"
}
}
)
print(output['choices'][0]['message'])
高度な使用法
GGUFモデルは以下のプロンプトテンプレートを使用します。
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{TASK_INSTRUCTION}
You have access to a set of tools. When using tools, make calls in a single JSON array:
[{"name": "tool_call_name", "arguments": {"arg1": "value1", "arg2": "value2"}}, ... (additional parallel tool calls as needed)]
If no tool is suitable, state that explicitly. If the user's input lacks required parameters, ask for clarification. Do not interpret or respond until tool results are returned. Once they are available, process them or make additional calls if needed. For tasks that don't require tools, such as casual conversation or general advice, respond directly in plain text. The available tools are:
{AVAILABLE_TOOLS}
<|eot_id|><|start_header_id|>user<|end_header_id|>
{USER_QUERY}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
{ASSISTANT_QUERY}<|eot_id|><|start_header_id|>user<|end_header_id|>
{USER_QUERY}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
📚 ドキュメント
モデルシリーズ
xLAM シリーズは、一般的なタスクや関数呼び出しなど、多くの点で大幅に優れています。同じパラメータ数のモデルでも、元のモデルの機能を維持しながら、幅広いエージェントタスクやシナリオでファインチューニングされています。
モデル | 総パラメータ数 | コンテキスト長 | カテゴリ | モデルのダウンロード | GGUFファイルのダウンロード |
---|---|---|---|---|---|
Llama-xLAM-2-70b-fc-r | 70B | 128k | 多ターン会話、関数呼び出し | 🤖 リンク | NA |
Llama-xLAM-2-8b-fc-r | 8B | 128k | 多ターン会話、関数呼び出し | 🤖 リンク | 🤖 リンク |
xLAM-2-32b-fc-r | 32B | 32k (最大128k)* | 多ターン会話、関数呼び出し | 🤖 リンク | NA |
xLAM-2-3b-fc-r | 3B | 32k (最大128k)* | 多ターン会話、関数呼び出し | 🤖 リンク | 🤖 リンク |
xLAM-2-1b-fc-r | 1B | 32k (最大128k)* | 多ターン会話、関数呼び出し | 🤖 リンク | 🤖 リンク |
注: Qwen-2.5ベースのモデルのデフォルトのコンテキスト長は32kですが、YaRN (Yet Another Recursive Network) などの手法を使用して最大128kのコンテキスト長を実現することができます。詳細については、こちら を参照してください。
以前のxLAMシリーズも こちら で探索できます。
-fc
サフィックスは、モデルが関数呼び出しタスク用にファインチューニングされていることを示し、-r
サフィックスは研究用リリースを意味します。
✅ すべてのモデルは、vLLMおよびTransformersベースの推論フレームワークと完全に互換性があります。
ベンチマーク結果
Berkeley Function-Calling Leaderboard (BFCL v3)
[BFCLリーダーボード](https://gorilla.cs.berkeley.edu/leaderboard.html) での異なるモデルの性能比較。ランクは全体的な精度に基づいており、これは異なる評価カテゴリの加重平均です。「FC」は、関数呼び出しを抽出するためにカスタマイズされた「プロンプト」を使用するのとは対照的に、関数呼び出しモードを表します。
Ï„-benchベンチマーク
Ï„-benchベンチマークでの成功率(pass@1)は、少なくとも5回の試行で平均化されています。当社のxLAM-2-70b-fc-rモデルは、Ï„-benchで全体的な成功率56.2%を達成し、ベースのLlama 3.1 70B Instructモデル(38.2%)やDeepSeek v3(40.6%)などの他のオープンソースモデルを大きく上回っています。特に、当社の最高のモデルは、GPT-4o(52.9%)などの独自モデルさえも上回り、Claude 3.5 Sonnet (new)(60.1%)などの最近のモデルの性能に近づいています。
Pass^k曲線は、与えられたタスクに対して5回の独立した試行がすべて成功する確率を測定し、Ï„-retail(左)およびÏ„-airline(右)ドメインのすべてのタスクで平均化されています。値が高いほど、モデルの一貫性が高いことを示します。
倫理的な考慮事項
このリリースは、学術論文をサポートするための研究目的のみです。当社のモデル、データセット、およびコードは、すべての下流の目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、および公正性に関する潜在的な懸念事項を評価して対処することを強くお勧めします。ユーザーは、AIの一般的な制限事項を考慮し、適用可能な法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオの場合、ユースケースを選択する際にベストプラクティスを活用することをお勧めします。ユースケースに関するさらなるガイダンスについては、当社のAUPおよびAI AUPを参照してください。
モデルのライセンス
すべてのLlama関連モデルについては、対応するLlamaのライセンスと条件にも従ってください。Meta Llama 3は、Meta Llama 3 Community Licenseの下でライセンスされており、Copyright © Meta Platforms, Inc. All Rights Reserved.
📄 ライセンス
このモデルのリリースは、研究目的のみです。すべてのLlama関連モデルについては、対応するLlamaのライセンスと条件にも従ってください。Meta Llama 3は、Meta Llama 3 Community Licenseの下でライセンスされており、Copyright © Meta Platforms, Inc. All Rights Reserved.
🔧 技術詳細
このモデルは、模擬エージェント-人間の対話を通じて高品質のトレーニングデータを生成する独自のAPIGen-MTフレームワークを使用してトレーニングされています。これにより、多ターン会話とツール使用において高い性能を達成しています。
📚 引用
もしあなたの研究で当社のモデルやデータセットを使用した場合、以下の論文を引用してください。
@article{prabhakar2025apigenmt,
title={APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay},
author={Prabhakar, Akshara and Liu, Zuxin and Yao, Weiran and Zhang, Jianguo and Zhu, Ming and Wang, Shiyu and Liu, Zhiwei and Awalgaonkar, Tulika and Chen, Haolin and Hoang, Thai and Niebles, Juan Carlos and Heinecke, Shelby and Wang, Huan and Savarese, Silvio and Xiong, Caiming},
journal={arXiv preprint arXiv:2504.03601},
year={2025}
}
また、xLAMシリーズに関する他の素晴らしい研究も参照し、引用を検討してください。
@article{zhang2025actionstudio,
title={ActionStudio: A Lightweight Framework for Data and Training of Action Models},
author={Zhang, Jianguo and Hoang, Thai and Zhu, Ming and Liu, Zuxin and Wang, Shiyu and Awalgaonkar, Tulika and Prabhakar, Akshara and Chen, Haolin and Yao, Weiran and Liu, Zhiwei and others},
journal={arXiv preprint arXiv:2503.22673},
year={2025}
}
@article{zhang2024xlam,
title={xLAM: A Family of Large Action Models to Empower AI Agent Systems},
author={Zhang, Jianguo and Lan, Tian and Zhu, Ming and Liu, Zuxin and Hoang, Thai and Kokane, Shirley and Yao, Weiran and Tan, Juntao and Prabhakar, Akshara and Chen, Haolin and others},
journal={arXiv preprint arXiv:2409.03215},
year={2024}
}
@article{liu2024apigen,
title={Apigen: Automated pipeline for generating verifiable and diverse function-calling datasets},
author={Liu, Zuxin and Hoang, Thai and Zhang, Jianguo and Zhu, Ming and Lan, Tian and Tan, Juntao and Yao, Weiran and Liu, Zhiwei and Feng, Yihao and RN, Rithesh and others},
journal={Advances in Neural Information Processing Systems},
volume={37},
pages={54463--54482},
year={2024}
}
@article{zhang2024agentohana,
title={AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning},
author={Zhang, Jianguo and Lan, Tian and Murthy, Rithesh and Liu, Zhiwei and Yao, Weiran and Tan, Juntao and Hoang, Thai and Yang, Liangwei and Feng, Yihao and Liu, Zuxin and others},
journal={arXiv preprint arXiv:2402.15506},
year={2024}
}



