xLAM-2-3b-fc-rオープンソースアクションモデル - 無料でユーザーの意図を実行可能なアクションに変換し、ダイアログツールでの使用に最適

ホーム

Xlam 2 3b Fc R Gguf

Salesforceによって開発

xLAM-2-3b-fc-rはSalesforceが開発した3Bパラメータの大型行動モデルで、ユーザーの意図を実行可能な行動に変換することに特化しており、多輪対話とツールの使用において優れた性能を発揮します。

大規模言語モデル

Transformers

英語#多轮対話 #関数呼び出し #AIエージェント

ダウンロード数 472

リリース時間 : 3/28/2025

モデル概要

xLAM-2シリーズは、高度なデータ合成とトレーニングパイプラインに基づいて構築された大型行動モデル(LAMs)で、AIエージェントの「脳」として、タスクを自主的に計画し実行することができます。このモデルは、多輪対話とツールの使用能力を特別に最適化しています。

モデル特徴

高性能関数呼び出し

BFCLとÏ„ - benchベンチマークテストにおいて、GPT - 4oやClaude 3.5などの最先端モデルを上回っています。

多輪対話最適化

多輪対話シナリオでの性能を特別に最適化し、極めて高い一貫性を維持します。

ツール使用能力

様々なツールAPIを理解して使用し、複雑なタスクを自動化することができます。

統合容易性

チャットテンプレートとvLLMの統合を最適化し、AIエージェントシステムの構築を容易にします。

モデル能力

ユーザー意図理解

関数呼び出し

多輪対話処理

タスク計画と実行

ツールAPI呼び出し

使用事例

スマートアシスタント

個人情報抽出

ユーザー入力から構造化情報を抽出します。

例えば、「Jason is 25 years old」から名前と年齢を抽出します。

ワークフロー自動化

多段階タスク実行

多輪対話とツール呼び出しを通じて複雑なタスクを完了します。

🚀 xLAM-2モデルファミリー

大型行動モデル（LAMs）は、ユーザーの意図を実行可能な行動に変換し、意思決定能力を強化します。xLAM-2シリーズは、最先端のデータ合成、処理、トレーニングパイプラインに基づいて構築されており、多輪対話とツール使用において顕著な向上を実現しています。このリポジトリでは、xLAM-2-3b-fc-rモデルのGGUF形式ファイルを提供しています。

xLAM

[論文] | [ホームページ] | [データセット] | [GitHub]

🚀 クイックスタート

このリポジトリでは、xLAM-2-3b-fc-rモデルのGGUF形式ファイルを提供しています。元のモデルには、以下のリンクからアクセスできます xLAM-2-3b-fc-r。

大型行動モデル（LAMs）は、ユーザーの意図を実行可能な行動に変換することで意思決定能力を強化する先進的な言語モデルです。AIエージェントの「脳」 として、LAMsは特定の目標を達成するためにタスクを自主的に計画し、実行することができるため、様々な分野のワークフロー自動化において重要な価値を持っています。 今回のモデル公開は、研究目的のみを対象としています。

全新なxLAM-2シリーズは、当社の最先端のデータ合成、処理、トレーニングパイプラインに基づいて構築されており、多輪対話とツール使用において大きな飛躍を実現しています。このシリーズのモデルは、エージェントと人間の対話をシミュレートすることで高品質なトレーニングデータを生成する独自のAPIGen-MTフレームワークを使用してトレーニングされています。当社のモデルは、BFCLとÏ„-benchのベンチマークテストにおいて最先端の性能を達成し、GPT-4oやClaude 3.5などの先進的なモデルを上回っています。特に、当社の小規模なモデルでも、多輪シナリオにおいて卓越した能力を発揮し、複数回の試行でも極めて高い一貫性を維持しています。

また、チャットテンプレートとvLLM統合を最適化し、高度なAIエージェントの構築を容易にしています。以前のxLAMモデルと比較して、xLAM-2は様々なアプリケーションにおいてより優れた性能とシームレスなデプロイ体験を提供します。

モデル性能概要
大規模なxLAM-2-fc-rモデル（8B - 70B、APIGen-MTデータでトレーニング）が、関数呼び出し（BFCL v3、2025年4月2日現在）とエージェント能力（Ï„-bench）において、最先端のベースラインモデルと比較した性能。

✨ 主な機能

高性能：多輪対話とツール使用において優れた性能を発揮し、BFCLとÏ„-benchのベンチマークテストで先進的なモデルを上回っています。
データ駆動：APIGen-MTフレームワークを使用して高品質なトレーニングデータを生成することで、モデルの能力を保証しています。
統合容易：チャットテンプレートとvLLM統合を最適化し、AIエージェントの構築を容易にしています。
一貫性高い：小規模なモデルでも、多輪シナリオにおいて卓越した一貫性を維持しています。

📦 インストール

GGUFファイルのダウンロード

Hugging Face CLIのインストール

pip install huggingface-hub

Hugging Faceへのログイン

huggingface-cli login

GGUFモデルのダウンロード

huggingface-cli download Salesforce/Llama-xLAM-2-8b-fc-r-gguf Llama-xLAM-2-8b-fc-r-gguf --local-dir . --local-dir-use-symlinks False

💻 使用例

基本的な使用法

コマンドライン方式

ここのソースコードからllama.cppフレームワークをインストールします。
以下のように推論タスクを実行します。生成に関連するパラメータの設定については、llama.cppドキュメントを参照してください。

llama-cli -m [ローカルのGGUFファイルパス]

Pythonフレームワーク方式

llama-cpp-pythonをインストールします。

pip install llama-cpp-python

高度なAPIを使用して推論を行います。

from llama_cpp import Llama
llm = Llama(
      model_path="[モデルパス]"
)
output = llm.create_chat_completion(
      messages = [
        {
          "role": "system",
          "content": "You are a helpful assistant that can use tools. You are developed by Salesforce xLAM team."

        },
        {
          "role": "user",
          "content": "Extract Jason is 25 years old"
        }
      ],
      tools=[{
        "type": "function",
        "function": {
          "name": "UserDetail",
          "parameters": {
            "type": "object",
            "title": "UserDetail",
            "properties": {
              "name": {
                "title": "Name",
                "type": "string"
              },
              "age": {
                "title": "Age",
                "type": "integer"
              }
            },
            "required": [ "name", "age" ]
          }
        }
      }],
      tool_choice={
        "type": "function",
        "function": {
          "name": "UserDetail"
        }
      }
)
print(output['choices'][0]['message'])

高度な使用法

このモデルの高度な使用法は、主に様々なツールの呼び出しと多輪対話の処理に体現されています。ツールと入力を適切に設定することで、モデルは複雑なシナリオでも強力な機能を発揮することができます。例えば、実際のアプリケーションでは、具体的なニーズに応じてツールリストとパラメータを動的に調整することで、より正確な情報抽出とタスク実行を実現することができます。

📚 ドキュメント

モデルシリーズ

xLAMシリーズは、一般的なタスクや関数呼び出しなど、多くの面で優れた性能を発揮しています。同じパラメータ数の場合、このモデルは幅広いエージェントタスクとシナリオで微調整されており、元のモデルの能力を維持しています。

モデル名	総パラメータ数	コンテキスト長	カテゴリ	モデルのダウンロード	GGUFファイルのダウンロード
Llama-xLAM-2-70b-fc-r	70B	128k	多輪対話、関数呼び出し	🤖 リンク	NA
Llama-xLAM-2-8b-fc-r	8B	128k	多輪対話、関数呼び出し	🤖 リンク	🤖 リンク
xLAM-2-32b-fc-r	32B	32k (最大128k)*	多輪対話、関数呼び出し	🤖 リンク	NA
xLAM-2-3b-fc-r	3B	32k (最大128k)*	多輪対話、関数呼び出し	🤖 リンク	🤖 リンク
xLAM-2-1b-fc-r	1B	32k (最大128k)*	多輪対話、関数呼び出し	🤖 リンク	🤖 リンク

*注意：Qwen-2.5ベースのモデルのデフォルトのコンテキスト長は32kですが、YaRN（Yet Another Recursive Network）などの技術を使用することで最大128kのコンテキスト長を実現することができます。詳細については、ここを参照してください。

また、ここで、以前のxLAMシリーズを探索することもできます。

-fc のサフィックスは、これらのモデルが関数呼び出しタスクに対して微調整されていることを示しており、-r のサフィックスは研究版であることを示しています。

✅ すべてのモデルは、vLLMとTransformersベースの推論フレームワークと完全に互換性があります。

GGUFファイルの使用

より効率的な推論が必要な場合や、リソースが制限されたデバイスでのデプロイが必要な場合には、当社ではモデルのGGUFバージョンを提供しています。これらのバージョンは、llama.cppなどのフレームワークと互換性があります。

プロンプトテンプレート

GGUFモデルは、以下のプロンプトテンプレートを使用します。

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{TASK_INSTRUCTION}
You have access to a set of tools. When using tools, make calls in a single JSON array: 

[{"name": "tool_call_name", "arguments": {"arg1": "value1", "arg2": "value2"}}, ... (additional parallel tool calls as needed)]

If no tool is suitable, state that explicitly. If the user's input lacks required parameters, ask for clarification. Do not interpret or respond until tool results are returned. Once they are available, process them or make additional calls if needed. For tasks that don't require tools, such as casual conversation or general advice, respond directly in plain text. The available tools are:

{AVAILABLE_TOOLS}

<|eot_id|><|start_header_id|>user<|end_header_id|>

{USER_QUERY}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

{ASSISTANT_QUERY}<|eot_id|><|start_header_id|>user<|end_header_id|>

{USER_QUERY}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

ベンチマークテスト結果

バークレー関数呼び出しランキング（BFCL v3）

BFCL結果
様々なモデルの[BFCLランキング](https://gorilla.cs.berkeley.edu/leaderboard.html)での性能比較。ランキングは全体的な正解率に基づいており、これはさまざまな評価カテゴリの加重平均です。「FC」は関数呼び出しモードを表し、関数呼び出しを抽出するためのカスタム「プロンプト」の使用とは対照的です。

Ï„-benchベンチマークテスト

Tau-bench結果
Ï„-benchベンチマークテストにおける、少なくとも5回の試行での平均成功率（pass@1）。当社のxLAM-2-70b-fc-rモデルは、Ï„-benchでの全体的な成功率が56.2%に達しており、基礎となるLlama 3.1 70B Instructモデル（38.2%）やDeepSeek v3（40.6%）などの他のオープンソースモデルを大きく上回っています。特に、当社の最高性能のモデルは、GPT-4o（52.9%）などの専用モデルを上回り、Claude 3.5 Sonnet（new）（60.1%）などの新しいモデルの性能に近づいています。

Pass^k曲線は、与えられたタスクにおける5回の独立した試行すべてで成功する確率を測定したもので、Ï„-小売（左）とÏ„-航空（右）分野のすべてのタスクでの平均値です。値が高いほど、モデルの一貫性が高いことを示します。

倫理的な考慮事項

今回の公開は、学術論文の研究目的をサポートするためのみを対象としています。当社のモデル、データセット、コードは、すべての下流の用途に対して設計または評価されたものではありません。ユーザーは、このモデルをデプロイする前に、精度、安全性、公平性に関連する潜在的な問題を評価し、解決することを強くお勧めします。ユーザーは、AIの一般的な限界を考慮し、適用される法律を遵守し、特に誤りや誤用が人々の生活、権利、安全に重大な影響を与える可能性のある高リスクなシナリオにおいて、ユースケースを選択する際にベストプラクティスを採用することをお励めします。ユースケースに関するさらなるガイダンスについては、当社のAUPとAI AUPを参照してください。

モデルのライセンス

すべてのLlama関連のモデルについては、それぞれのLlamaライセンスと条項も遵守する必要があります。Meta Llama 3は、Meta Llama 3コミュニティライセンスに基づいてライセンスされており、著作権所有 © Meta Platforms, Inc. 全著作権所有。

🔧 技術詳細

このモデルは、独自のAPIGen-MTフレームワークを使用してトレーニングされています。このフレームワークは、エージェントと人間の対話をシミュレートすることで高品質なトレーニングデータを生成します。トレーニング過程では、モデルは多輪対話とツール使用に対して最適化されており、複雑なシナリオでの性能を向上させています。同時に、チャットテンプレートとvLLM統合も改善されており、モデルを実際のアプリケーションでより使いやすく、デプロイしやすくしています。

📄 ライセンス

このプロジェクトは、CC BY-NC 4.0ライセンスを採用しています。すべてのLlama関連のモデルについては、それぞれのLlamaライセンスと条項も遵守する必要があります。Meta Llama 3は、Meta Llama 3コミュニティライセンスに基づいてライセンスされており、著作権所有 © Meta Platforms, Inc. 全著作権所有。

📚 引用

もしあなたの研究で当社のモデルやデータセットを使用した場合は、以下の論文を引用してください。

@article{prabhakar2025apigenmt,
  title={APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay},
  author={Prabhakar, Akshara and Liu, Zuxin and Yao, Weiran and Zhang, Jianguo and Zhu, Ming and Wang, Shiyu and Liu, Zhiwei and Awalgaonkar, Tulika and Chen, Haolin and Hoang, Thai and Niebles, Juan Carlos and Heinecke, Shelby and Wang, Huan and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint arXiv:2504.03601},
  year={2025}
}

また、xLAMシリーズに関する他の優れた研究も参照し、引用を検討してください。

@article{zhang2025actionstudio,
  title={ActionStudio: A Lightweight Framework for Data and Training of Action Models},
  author={Zhang, Jianguo and Hoang, Thai and Zhu, Ming and Liu, Zuxin and Wang, Shiyu and Awalgaonkar, Tulika and Prabhakar, Akshara and Chen, Haolin and Yao, Weiran and Liu, Zhiwei and others},
  journal={arXiv preprint arXiv:2503.22673},
  year={2025}
}

@article{zhang2024xlam,
  title={xLAM: A Family of Large Action Models to Empower AI Agent Systems},
  author={Zhang, Jianguo and Lan, Tian and Zhu, Ming and Liu, Zuxin and Hoang, Thai and Kokane, Shirley and Yao, Weiran and Tan, Juntao and Prabhakar, Akshara and Chen, Haolin and others},
  journal={arXiv preprint arXiv:2409.03215},
  year={2024}
}

@article{liu2024apigen,
  title={Apigen: Automated pipeline for generating verifiable and diverse function-calling datasets},
  author={Liu, Zuxin and Hoang, Thai and Zhang, Jianguo and Zhu, Ming and Lan, Tian and Tan, Juntao and Yao, Weiran and Liu, Zhiwei and Feng, Yihao and RN, Rithesh and others},
  journal={Advances in Neural Information Processing Systems},
  volume={37},
  pages={54463--54482},
  year={2024}
}

@article{zhang2024agentohana,
  title={AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning},
  author={Zhang, Jianguo and Lan, Tian and Murthy, Rithesh and Liu, Zhiwei and Yao, Weiran and Tan, Juntao and Hoang, Thai and Yang, Liangwei and Feng, Yihao and Liu, Zuxin and others},
  journal={arXiv preprint arXiv:2402.15506},
  year={2024}
}