Llama-xLAM-2-8b-fc-r-ggufオープンソースモデル - マルチラウンド対話をサポートし、意図を実行可能なアクションに変換します

ホーム

Llama Xlam 2 8b Fc R Gguf

Salesforceによって開発

xLAM-2は、高度なデータ合成とトレーニングパイプラインに基づいて構築された大型アクションモデルで、多輪対話とツール使用に長け、ユーザーの意図を実行可能なアクションに変換できます。

大規模言語モデル

Transformers

英語#多輪対話の最適化 #関数呼び出しの専門家 #ワークフローの自動化

ダウンロード数 1,809

リリース時間 : 3/28/2025

モデル概要

xLAM-2モデルシリーズは、APIGen-MTフレームワークを通じてトレーニングされ、多輪対話とツール使用において卓越した性能を発揮し、AIエージェントの「脳」としてタスクを自主的に実行できます。

モデル特徴

高度な性能

BFCLとÏ„-benchベンチマークテストにおいて、GPT-4oやClaude 3.5などの最先端モデルを上回っています。

多輪対話の最適化

特別に最適化されたアーキテクチャが、連続した対話シナリオで優れた一貫性を維持します。

ツール使用能力

APIGen-MTフレームワークを通じてトレーニングされ、自然言語の命令を効果的にAPI呼び出しに変換できます。

容易な統合性

チャットテンプレートとvLLMの統合が最適化され、AIエージェントシステムの構築が容易になります。

モデル能力

自然言語理解

関数呼び出し

多輪対話処理

ワークフローの自動化

ツール使用

意図認識

使用事例

スマートアシスタント

自動化カスタマーサービス

複雑な多輪の顧客相談を処理し、関連するシステムAPIを呼び出して問題を解決します。

Ï„-benchの小売分野で56.2%の成功率を達成しました。

ビジネスプロセスの自動化

航空予約システム

ユーザーの旅行ニーズを理解し、自動的にフライトの検索や予約などの操作を行います。

Ï„-benchの航空分野で優れた性能を発揮しました。

🚀 xLAM-2モデルファミリーへようこそ！

このリポジトリでは、Llama-xLAM-2-8b-fc-rモデルのGGUF形式を提供しています。元のモデルのリンクはこちら Llama-xLAM-2-8b-fc-r です。

Large Action Models (LAMs) は、ユーザーの意図を実行可能なアクションに変換することで意思決定を強化するために設計された高度な言語モデルです。AIエージェントの「頭脳」として、LAMsは特定の目標を達成するためにタスクを自律的に計画して実行し、多様なドメインのワークフローを自動化するのに非常に役立ちます。 このモデルのリリースは研究目的のみです。

新しいxLAM-2シリーズは、当社の最先端のデータ合成、処理、およびトレーニングパイプラインに基づいて構築されており、多ターン会話とツール使用において大きな飛躍を遂げています。模擬エージェント-人間の対話を通じて高品質のトレーニングデータを生成する独自のAPIGen-MTフレームワークを使用してトレーニングされています。当社のモデルは、BFCL および Ï„-bench ベンチマークで最先端の性能を達成し、GPT-4oやClaude 3.5などの最先端モデルを上回っています。特に、小規模なモデルでも多ターンシナリオで優れた能力を発揮し、試行間で非常に高い一貫性を維持しています。

また、チャットテンプレートとvLLM統合を改良し、高度なAIエージェントを簡単に構築できるようにしています。以前のxLAMモデルと比較して、xLAM-2は優れた性能を発揮し、アプリケーション全体でシームレスにデプロイできます。

Model Performance Overview
関数呼び出し（BFCL v3、2025年4月2日現在）およびエージェント機能（Ï„-bench）に関する最先端のベースラインに対する、より大規模なxLAM-2-fc-rモデル（8B - 70B、APIGen-MTデータでトレーニング）の比較性能。

🚀 クイックスタート

このセクションでは、xLAM-2モデルファミリーの概要と、GGUF形式のモデルの利用方法を紹介します。

✨ 主な機能

多ターン会話とツール使用の向上：新しいxLAM-2シリーズは、多ターン会話とツール使用において大きな進歩を遂げています。
最先端のベンチマーク性能：BFCLとÏ„-benchベンチマークで優れた性能を発揮し、他の最先端モデルを上回っています。
簡単なエージェント構築：改良されたチャットテンプレートとvLLM統合により、高度なAIエージェントを簡単に構築できます。

📦 インストール

GGUFファイルのダウンロード方法

Hugging Face CLIのインストール：

pip install huggingface-hub

Hugging Faceへのログイン：

huggingface-cli login

GGUFモデルのダウンロード：

huggingface-cli download Salesforce/Llama-xLAM-2-8b-fc-r-gguf Llama-xLAM-2-8b-fc-r-gguf --local-dir . --local-dir-use-symlinks False

💻 使用例

基本的な使用法

コマンドラインでの使用

llama.cppフレームワークをソースからインストールしますこちら
以下のように推論タスクを実行します。生成関連のパラメータの設定については、llama.cppドキュメントを参照してください。

llama-cli -m [PATH-TO-LOCAL-GGUF]

Pythonフレームワークでの使用

llama-cpp-python をインストールします。

pip install llama-cpp-python

高レベルAPIを使用して推論を行います。

from llama_cpp import Llama
llm = Llama(
      model_path="[PATH-TO-MODEL]"
)
output = llm.create_chat_completion(
      messages = [
        {
          "role": "system",
          "content": "You are a helpful assistant that can use tools. You are developed by Salesforce xLAM team."

        },
        {
          "role": "user",
          "content": "Extract Jason is 25 years old"
        }
      ],
      tools=[{
        "type": "function",
        "function": {
          "name": "UserDetail",
          "parameters": {
            "type": "object",
            "title": "UserDetail",
            "properties": {
              "name": {
                "title": "Name",
                "type": "string"
              },
              "age": {
                "title": "Age",
                "type": "integer"
              }
            },
            "required": [ "name", "age" ]
          }
        }
      }],
      tool_choice={
        "type": "function",
        "function": {
          "name": "UserDetail"
        }
      }
)
print(output['choices'][0]['message'])

高度な使用法

GGUFモデルは以下のプロンプトテンプレートを使用します。

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{TASK_INSTRUCTION}
You have access to a set of tools. When using tools, make calls in a single JSON array: 

[{"name": "tool_call_name", "arguments": {"arg1": "value1", "arg2": "value2"}}, ... (additional parallel tool calls as needed)]

If no tool is suitable, state that explicitly. If the user's input lacks required parameters, ask for clarification. Do not interpret or respond until tool results are returned. Once they are available, process them or make additional calls if needed. For tasks that don't require tools, such as casual conversation or general advice, respond directly in plain text. The available tools are:

{AVAILABLE_TOOLS}

<|eot_id|><|start_header_id|>user<|end_header_id|>

{USER_QUERY}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

{ASSISTANT_QUERY}<|eot_id|><|start_header_id|>user<|end_header_id|>

{USER_QUERY}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

📚 ドキュメント

モデルシリーズ

xLAM シリーズは、一般的なタスクや関数呼び出しなど、多くの点で大幅に優れています。同じパラメータ数のモデルでも、元のモデルの機能を維持しながら、幅広いエージェントタスクやシナリオでファインチューニングされています。

モデル	総パラメータ数	コンテキスト長	カテゴリ	モデルのダウンロード	GGUFファイルのダウンロード
Llama-xLAM-2-70b-fc-r	70B	128k	多ターン会話、関数呼び出し	🤖 リンク	NA
Llama-xLAM-2-8b-fc-r	8B	128k	多ターン会話、関数呼び出し	🤖 リンク	🤖 リンク
xLAM-2-32b-fc-r	32B	32k (最大128k)*	多ターン会話、関数呼び出し	🤖 リンク	NA
xLAM-2-3b-fc-r	3B	32k (最大128k)*	多ターン会話、関数呼び出し	🤖 リンク	🤖 リンク
xLAM-2-1b-fc-r	1B	32k (最大128k)*	多ターン会話、関数呼び出し	🤖 リンク	🤖 リンク

注: Qwen-2.5ベースのモデルのデフォルトのコンテキスト長は32kですが、YaRN (Yet Another Recursive Network) などの手法を使用して最大128kのコンテキスト長を実現することができます。詳細については、こちらを参照してください。

以前のxLAMシリーズもこちらで探索できます。

-fc サフィックスは、モデルが関数呼び出しタスク用にファインチューニングされていることを示し、-r サフィックスは研究用リリースを意味します。

✅ すべてのモデルは、vLLMおよびTransformersベースの推論フレームワークと完全に互換性があります。

ベンチマーク結果

Berkeley Function-Calling Leaderboard (BFCL v3)

BFCL Results
[BFCLリーダーボード](https://gorilla.cs.berkeley.edu/leaderboard.html) での異なるモデルの性能比較。ランクは全体的な精度に基づいており、これは異なる評価カテゴリの加重平均です。「FC」は、関数呼び出しを抽出するためにカスタマイズされた「プロンプト」を使用するのとは対照的に、関数呼び出しモードを表します。

Ï„-benchベンチマーク

Tau-bench Results
Ï„-benchベンチマークでの成功率（pass@1）は、少なくとも5回の試行で平均化されています。当社のxLAM-2-70b-fc-rモデルは、Ï„-benchで全体的な成功率56.2%を達成し、ベースのLlama 3.1 70B Instructモデル（38.2%）やDeepSeek v3（40.6%）などの他のオープンソースモデルを大きく上回っています。特に、当社の最高のモデルは、GPT-4o（52.9%）などの独自モデルさえも上回り、Claude 3.5 Sonnet (new)（60.1%）などの最近のモデルの性能に近づいています。

Pass^k curves
Pass^k曲線は、与えられたタスクに対して5回の独立した試行がすべて成功する確率を測定し、Ï„-retail（左）およびÏ„-airline（右）ドメインのすべてのタスクで平均化されています。値が高いほど、モデルの一貫性が高いことを示します。

倫理的な考慮事項

このリリースは、学術論文をサポートするための研究目的のみです。当社のモデル、データセット、およびコードは、すべての下流の目的に特に設計または評価されていません。ユーザーは、このモデルをデプロイする前に、精度、安全性、および公正性に関する潜在的な懸念事項を評価して対処することを強くお勧めします。ユーザーは、AIの一般的な制限事項を考慮し、適用可能な法律を遵守し、特にエラーや誤用が人々の生活、権利、または安全に重大な影響を与える可能性のある高リスクシナリオの場合、ユースケースを選択する際にベストプラクティスを活用することをお勧めします。ユースケースに関するさらなるガイダンスについては、当社のAUPおよびAI AUPを参照してください。

モデルのライセンス

📄 ライセンス

🔧 技術詳細

このモデルは、模擬エージェント-人間の対話を通じて高品質のトレーニングデータを生成する独自のAPIGen-MTフレームワークを使用してトレーニングされています。これにより、多ターン会話とツール使用において高い性能を達成しています。

📚 引用

もしあなたの研究で当社のモデルやデータセットを使用した場合、以下の論文を引用してください。

@article{prabhakar2025apigenmt,
  title={APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay},
  author={Prabhakar, Akshara and Liu, Zuxin and Yao, Weiran and Zhang, Jianguo and Zhu, Ming and Wang, Shiyu and Liu, Zhiwei and Awalgaonkar, Tulika and Chen, Haolin and Hoang, Thai and Niebles, Juan Carlos and Heinecke, Shelby and Wang, Huan and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint arXiv:2504.03601},
  year={2025}
}

また、xLAMシリーズに関する他の素晴らしい研究も参照し、引用を検討してください。

@article{zhang2025actionstudio,
  title={ActionStudio: A Lightweight Framework for Data and Training of Action Models},
  author={Zhang, Jianguo and Hoang, Thai and Zhu, Ming and Liu, Zuxin and Wang, Shiyu and Awalgaonkar, Tulika and Prabhakar, Akshara and Chen, Haolin and Yao, Weiran and Liu, Zhiwei and others},
  journal={arXiv preprint arXiv:2503.22673},
  year={2025}
}

@article{zhang2024xlam,
  title={xLAM: A Family of Large Action Models to Empower AI Agent Systems},
  author={Zhang, Jianguo and Lan, Tian and Zhu, Ming and Liu, Zuxin and Hoang, Thai and Kokane, Shirley and Yao, Weiran and Tan, Juntao and Prabhakar, Akshara and Chen, Haolin and others},
  journal={arXiv preprint arXiv:2409.03215},
  year={2024}
}

@article{liu2024apigen,
  title={Apigen: Automated pipeline for generating verifiable and diverse function-calling datasets},
  author={Liu, Zuxin and Hoang, Thai and Zhang, Jianguo and Zhu, Ming and Lan, Tian and Tan, Juntao and Yao, Weiran and Liu, Zhiwei and Feng, Yihao and RN, Rithesh and others},
  journal={Advances in Neural Information Processing Systems},
  volume={37},
  pages={54463--54482},
  year={2024}
}

@article{zhang2024agentohana,
  title={AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning},
  author={Zhang, Jianguo and Lan, Tian and Murthy, Rithesh and Liu, Zhiwei and Yao, Weiran and Tan, Juntao and Hoang, Thai and Yang, Liangwei and Feng, Yihao and Liu, Zuxin and others},
  journal={arXiv preprint arXiv:2402.15506},
  year={2024}
}