Llama-xLAM-2-8b-fc-r-gguf開源模型 - 支持多輪對話，將意圖轉為可執行動作

Home

Llama Xlam 2 8b Fc R Gguf

Developed by Salesforce

xLAM-2是基於先進數據合成和訓練管道構建的大型動作模型，擅長多輪對話和工具使用，能將用戶意圖轉化為可執行動作。

大型語言模型

Transformers

English#多輪對話優化 #函數調用專家 #工作流自動化

Downloads 1,809

Release Time : 3/28/2025

Model Overview

xLAM-2模型系列通過APIGen-MT框架訓練，在多輪對話和工具使用方面表現卓越，可作為AI智能體的'大腦'自主執行任務。

Model Features

先進性能

在BFCL和Ï„-bench基準測試中超越GPT-4o和Claude 3.5等前沿模型

多輪對話優化

專門優化的架構在連續對話場景中保持出色的一致性

工具使用能力

通過APIGen-MT框架訓練，能有效將自然語言指令轉化為API調用

易集成性

優化了聊天模板和vLLM集成，便於構建AI智能體系統

Model Capabilities

自然語言理解

函數調用

多輪對話處理

工作流自動化

工具使用

意圖識別

Use Cases

智能助手

自動化客服

處理複雜的多輪客戶諮詢並調用相關係統API解決問題

在Ï„-bench零售領域達到56.2%成功率

業務流程自動化

航空訂票系統

理解用戶旅行需求並自動完成航班查詢、預訂等操作

在Ï„-bench航空領域表現優異

🚀 xLAM-2模型家族

xLAM-2模型家族基於先進的數據合成、處理和訓練管道構建，在多輪對話和工具使用方面表現卓越。該模型系列能將用戶意圖轉化為可執行動作，為自動化工作流程提供強大支持。本模型發佈僅用於研究目的。

項目鏈接

xLAM

🚀 快速開始

本倉庫提供了Llama-xLAM-2-8b-fc-r模型的GGUF格式。你可以通過以下鏈接訪問原始模型Llama-xLAM-2-8b-fc-r。

大型動作模型（LAMs）是先進的語言模型，旨在通過將用戶意圖轉化為可執行動作來增強決策能力。作為AI智能體的“大腦”，LAMs能夠自主規劃和執行任務以實現特定目標，在不同領域的工作流自動化中具有重要價值。

新的xLAM-2系列基於我們最先進的數據合成、處理和訓練管道構建，在多輪對話和工具使用方面取得了顯著飛躍。該系列模型使用我們新穎的APIGen-MT框架進行訓練，該框架通過模擬智能體與人類的交互生成高質量的訓練數據。我們的模型在BFCL和Ï„-bench基準測試中達到了最先進的性能，超越了GPT-4o和Claude 3.5等前沿模型。值得注意的是，即使是我們的較小模型在多輪場景中也表現出卓越的能力，並且在多次試驗中保持了出色的一致性。

我們還優化了聊天模板和vLLM集成，使構建先進的AI智能體更加容易。與之前的xLAM模型相比，xLAM-2在各種應用中提供了更出色的性能和無縫的部署體驗。

Model Performance Overview
較大的xLAM-2-fc-r模型（8B - 70B，使用APIGen-MT數據訓練）在函數調用（BFCL v3，截至2025年4月2日）和智能體能力（Ï„-bench）方面與最先進的基線模型的性能比較。

✨ 主要特性

先進的性能：在BFCL和Ï„-bench基準測試中超越前沿模型，如GPT-4o和Claude 3.5。
多輪對話能力：即使是較小的模型也能在多輪場景中表現出色。
工具使用優化：通過APIGen-MT框架訓練，能更好地利用工具完成任務。
易於集成：優化了聊天模板和vLLM集成，方便構建AI智能體。

📦 安裝指南

下載GGUF文件

安裝Hugging Face CLI：

pip install huggingface-hub

登錄Hugging Face：

huggingface-cli login

下載GGUF模型：

huggingface-cli download Salesforce/Llama-xLAM-2-8b-fc-r-gguf Llama-xLAM-2-8b-fc-r-gguf --local-dir . --local-dir-use-symlinks False

💻 使用示例

基礎用法

命令行

從此處的源代碼安裝llama.cpp框架。
按如下方式運行推理任務。有關生成相關參數的配置，請參考llama.cpp文檔。

llama-cli -m [PATH-TO-LOCAL-GGUF]

Python框架

安裝llama-cpp-python：

pip install llama-cpp-python

使用高級API進行推理：

from llama_cpp import Llama
llm = Llama(
      model_path="[PATH-TO-MODEL]"
)
output = llm.create_chat_completion(
      messages = [
        {
          "role": "system",
          "content": "You are a helpful assistant that can use tools. You are developed by Salesforce xLAM team."

        },
        {
          "role": "user",
          "content": "Extract Jason is 25 years old"
        }
      ],
      tools=[{
        "type": "function",
        "function": {
          "name": "UserDetail",
          "parameters": {
            "type": "object",
            "title": "UserDetail",
            "properties": {
              "name": {
                "title": "Name",
                "type": "string"
              },
              "age": {
                "title": "Age",
                "type": "integer"
              }
            },
            "required": [ "name", "age" ]
          }
        }
      }],
      tool_choice={
        "type": "function",
        "function": {
          "name": "UserDetail"
        }
      }
)
print(output['choices'][0]['message'])

高級用法

GGUF模型使用以下提示模板：

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{TASK_INSTRUCTION}
You have access to a set of tools. When using tools, make calls in a single JSON array: 

[{"name": "tool_call_name", "arguments": {"arg1": "value1", "arg2": "value2"}}, ... (additional parallel tool calls as needed)]

If no tool is suitable, state that explicitly. If the user's input lacks required parameters, ask for clarification. Do not interpret or respond until tool results are returned. Once they are available, process them or make additional calls if needed. For tasks that don't require tools, such as casual conversation or general advice, respond directly in plain text. The available tools are:

{AVAILABLE_TOOLS}

<|eot_id|><|start_header_id|>user<|end_header_id|>

{USER_QUERY}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

{ASSISTANT_QUERY}<|eot_id|><|start_header_id|>user<|end_header_id|>

{USER_QUERY}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

📚 詳細文檔

模型系列

xLAM系列在許多方面表現出色，包括通用任務和函數調用。對於相同數量的參數，該模型在廣泛的智能體任務和場景中進行了微調，同時保留了原始模型的能力。

模型	總參數數量	上下文長度	類別	下載模型	下載GGUF文件
Llama-xLAM-2-70b-fc-r	70B	128k	多輪對話、函數調用	🤖 鏈接	NA
Llama-xLAM-2-8b-fc-r	8B	128k	多輪對話、函數調用	🤖 鏈接	🤖 鏈接
xLAM-2-32b-fc-r	32B	32k (最大128k)*	多輪對話、函數調用	🤖 鏈接	NA
xLAM-2-3b-fc-r	3B	32k (最大128k)*	多輪對話、函數調用	🤖 鏈接	🤖 鏈接
xLAM-2-1b-fc-r	1B	32k (最大128k)*	多輪對話、函數調用	🤖 鏈接	🤖 鏈接

注意：基於Qwen-2.5的模型的默認上下文長度為32k，但你可以使用YaRN（Yet Another Recursive Network）等技術實現最大128k的上下文長度。更多詳細信息請參考此處。

你還可以在此處探索我們之前的xLAM系列。

-fc後綴表示模型針對函數調用任務進行了微調，而-r後綴表示這是一個研究版本。

✅ 所有模型都與vLLM和基於Transformers的推理框架完全兼容。

基準測試結果

Berkeley函數調用排行榜（BFCL v3）

BFCL Results
不同模型在[BFCL排行榜](https://gorilla.cs.berkeley.edu/leaderboard.html)上的性能比較。排名基於整體準確率，這是不同評估類別的加權平均值。“FC”表示函數調用模式，與使用自定義“提示”提取函數調用相對。

Ï„-bench基準測試

Tau-bench Results
在Ï„-bench基準測試中，至少5次試驗的平均成功率（pass@1）。我們的xLAM-2-70b-fc-r模型在Ï„-bench上的整體成功率達到了56.2%，顯著超過了基礎Llama 3.1 70B Instruct模型（38.2%）和DeepSeek v3（40.6%）等其他開源模型。值得注意的是，我們的最佳模型甚至超過了GPT-4o（52.9%）等專有模型，並接近Claude 3.5 Sonnet（新）（60.1%）等較新模型的性能。

Pass^k curves
Pass^k曲線衡量了給定任務在所有5次獨立試驗中都成功的概率，是在Ï„-零售（左）和Ï„-航空（右）領域的所有任務上的平均值。值越高表示模型的一致性越好。

倫理考慮

本版本僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途設計或評估。我們強烈建議用戶在部署此模型之前評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮AI的常見侷限性，遵守適用法律，並在選擇用例時採用最佳實踐，特別是在錯誤或濫用可能對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的更多指導，請參考我們的AUP和AI AUP。

模型許可證

🔧 技術細節

本項目使用了先進的APIGen-MT框架進行訓練，該框架通過模擬智能體與人類的交互生成高質量的訓練數據。模型在多輪對話和工具使用方面進行了優化，能夠更好地將用戶意圖轉化為可執行動作。

📄 許可證

本項目採用CC BY-NC 4.0許可證。

🔗 引用

如果你在工作中使用了我們的模型或數據集，請引用我們的論文：

@article{prabhakar2025apigenmt,
  title={APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay},
  author={Prabhakar, Akshara and Liu, Zuxin and Yao, Weiran and Zhang, Jianguo and Zhu, Ming and Wang, Shiyu and Liu, Zhiwei and Awalgaonkar, Tulika and Chen, Haolin and Hoang, Thai and Niebles, Juan Carlos and Heinecke, Shelby and Wang, Huan and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint arXiv:2504.03601},
  year={2025}
}

此外，請查看我們關於xLAM系列的其他優秀作品，並考慮同時引用它們：

@article{zhang2025actionstudio,
  title={ActionStudio: A Lightweight Framework for Data and Training of Action Models},
  author={Zhang, Jianguo and Hoang, Thai and Zhu, Ming and Liu, Zuxin and Wang, Shiyu and Awalgaonkar, Tulika and Prabhakar, Akshara and Chen, Haolin and Yao, Weiran and Liu, Zhiwei and others},
  journal={arXiv preprint arXiv:2503.22673},
  year={2025}
}

@article{zhang2024xlam,
  title={xLAM: A Family of Large Action Models to Empower AI Agent Systems},
  author={Zhang, Jianguo and Lan, Tian and Zhu, Ming and Liu, Zuxin and Hoang, Thai and Kokane, Shirley and Yao, Weiran and Tan, Juntao and Prabhakar, Akshara and Chen, Haolin and others},
  journal={arXiv preprint arXiv:2409.03215},
  year={2024}
}

@article{liu2024apigen,
  title={Apigen: Automated pipeline for generating verifiable and diverse function-calling datasets},
  author={Liu, Zuxin and Hoang, Thai and Zhang, Jianguo and Zhu, Ming and Lan, Tian and Tan, Juntao and Yao, Weiran and Liu, Zhiwei and Feng, Yihao and RN, Rithesh and others},
  journal={Advances in Neural Information Processing Systems},
  volume={37},
  pages={54463--54482},
  year={2024}
}

@article{zhang2024agentohana,
  title={AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning},
  author={Zhang, Jianguo and Lan, Tian and Murthy, Rithesh and Liu, Zhiwei and Yao, Weiran and Tan, Juntao and Hoang, Thai and Yang, Liangwei and Feng, Yihao and Liu, Zuxin and others},
  journal={arXiv preprint arXiv:2402.15506},
  year={2024}
}