模型简介
模型特点
模型能力
使用案例
🚀 xLAM-2模型家族
大型行动模型(LAMs)能够将用户意图转化为可执行的行动,以此增强决策能力。xLAM-2系列基于先进的数据合成、处理和训练管道构建,在多轮对话和工具使用方面有显著提升。本仓库提供了xLAM-2-3b-fc-r模型的GGUF格式文件。
[论文] | [主页] | [数据集] | [GitHub]
🚀 快速开始
本仓库提供了xLAM-2-3b-fc-r模型的GGUF格式文件,你可以通过以下链接访问原始模型 xLAM-2-3b-fc-r。
大型行动模型(LAMs)是先进的语言模型,旨在通过将用户意图转化为可执行的行动来增强决策能力。作为AI智能体的“大脑”,LAMs能够自主规划和执行任务以实现特定目标,使其在不同领域的工作流自动化中具有重要价值。 本次模型发布仅用于研究目的。
全新的xLAM-2系列基于我们最先进的数据合成、处理和训练管道构建,在多轮对话和工具使用方面实现了重大飞跃。该系列模型使用我们新颖的APIGen-MT框架进行训练,该框架通过模拟智能体与人类的交互来生成高质量的训练数据。我们的模型在BFCL和Ï„-bench基准测试中达到了最先进的性能,超越了GPT-4o和Claude 3.5等前沿模型。值得注意的是,即使是我们的较小模型在多轮场景中也表现出卓越的能力,并且在多次试验中保持了极高的一致性。
我们还优化了聊天模板和vLLM集成,使构建先进的AI智能体变得更加容易。与之前的xLAM模型相比,xLAM-2在各种应用中提供了更出色的性能和无缝的部署体验。
较大的xLAM-2-fc-r模型(8B - 70B,使用APIGen-MT数据训练)在函数调用(BFCL v3,截至2025年4月2日)和智能体能力(Ï„-bench)方面与最先进的基线模型的对比性能。
✨ 主要特性
- 高性能:在多轮对话和工具使用方面表现出色,在BFCL和Ï„-bench基准测试中超越前沿模型。
- 数据驱动:使用APIGen-MT框架生成高质量训练数据,确保模型能力。
- 易于集成:优化了聊天模板和vLLM集成,方便构建AI智能体。
- 一致性强:即使较小的模型在多轮场景中也能保持卓越的一致性。
📦 安装指南
下载GGUF文件
- 安装Hugging Face CLI
pip install huggingface-hub
- 登录Hugging Face
huggingface-cli login
- 下载GGUF模型
huggingface-cli download Salesforce/Llama-xLAM-2-8b-fc-r-gguf Llama-xLAM-2-8b-fc-r-gguf --local-dir . --local-dir-use-symlinks False
💻 使用示例
基础用法
命令行方式
- 从此处的源代码安装llama.cpp框架。
- 如下所示运行推理任务。有关生成相关参数的配置,请参考llama.cpp文档。
llama-cli -m [本地GGUF文件路径]
Python框架方式
pip install llama-cpp-python
- 使用高级API进行推理:
from llama_cpp import Llama
llm = Llama(
model_path="[模型路径]"
)
output = llm.create_chat_completion(
messages = [
{
"role": "system",
"content": "You are a helpful assistant that can use tools. You are developed by Salesforce xLAM team."
},
{
"role": "user",
"content": "Extract Jason is 25 years old"
}
],
tools=[{
"type": "function",
"function": {
"name": "UserDetail",
"parameters": {
"type": "object",
"title": "UserDetail",
"properties": {
"name": {
"title": "Name",
"type": "string"
},
"age": {
"title": "Age",
"type": "integer"
}
},
"required": [ "name", "age" ]
}
}
}],
tool_choice={
"type": "function",
"function": {
"name": "UserDetail"
}
}
)
print(output['choices'][0]['message'])
高级用法
本模型的高级用法主要体现在对不同工具的调用和多轮对话的处理上。通过合理配置工具和输入,模型可以在复杂场景中发挥强大的功能。例如,在实际应用中,可以根据具体需求动态调整工具列表和参数,以实现更精准的信息提取和任务执行。
📚 详细文档
模型系列
xLAM系列在许多方面表现出色,包括通用任务和函数调用。对于相同数量的参数,该模型在广泛的智能体任务和场景中进行了微调,同时保留了原始模型的能力。
模型名称 | 总参数数量 | 上下文长度 | 类别 | 下载模型 | 下载GGUF文件 |
---|---|---|---|---|---|
Llama-xLAM-2-70b-fc-r | 70B | 128k | 多轮对话、函数调用 | 🤖 链接 | NA |
Llama-xLAM-2-8b-fc-r | 8B | 128k | 多轮对话、函数调用 | 🤖 链接 | 🤖 链接 |
xLAM-2-32b-fc-r | 32B | 32k (最大128k)* | 多轮对话、函数调用 | 🤖 链接 | NA |
xLAM-2-3b-fc-r | 3B | 32k (最大128k)* | 多轮对话、函数调用 | 🤖 链接 | 🤖 链接 |
xLAM-2-1b-fc-r | 1B | 32k (最大128k)* | 多轮对话、函数调用 | 🤖 链接 | 🤖 链接 |
*注意:基于Qwen-2.5的模型的默认上下文长度为32k,但你可以使用YaRN(Yet Another Recursive Network)等技术实现最大128k的上下文长度。更多详细信息请参考此处。
你还可以在此处探索我们之前的xLAM系列。
-fc
后缀表示这些模型针对函数调用任务进行了微调,而 -r
后缀表示这是一个研究版本。
✅ 所有模型都与vLLM和基于Transformers的推理框架完全兼容。
使用GGUF文件
对于需要更高效推理或在资源受限设备上部署的场景,我们提供了模型的GGUF版本,这些版本与llama.cpp等框架兼容。
提示模板
GGUF模型使用以下提示模板:
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{TASK_INSTRUCTION}
You have access to a set of tools. When using tools, make calls in a single JSON array:
[{"name": "tool_call_name", "arguments": {"arg1": "value1", "arg2": "value2"}}, ... (additional parallel tool calls as needed)]
If no tool is suitable, state that explicitly. If the user's input lacks required parameters, ask for clarification. Do not interpret or respond until tool results are returned. Once they are available, process them or make additional calls if needed. For tasks that don't require tools, such as casual conversation or general advice, respond directly in plain text. The available tools are:
{AVAILABLE_TOOLS}
<|eot_id|><|start_header_id|>user<|end_header_id|>
{USER_QUERY}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
{ASSISTANT_QUERY}<|eot_id|><|start_header_id|>user<|end_header_id|>
{USER_QUERY}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
基准测试结果
伯克利函数调用排行榜(BFCL v3)
不同模型在[BFCL排行榜](https://gorilla.cs.berkeley.edu/leaderboard.html)上的性能比较。排名基于整体准确率,这是不同评估类别的加权平均值。“FC”表示函数调用模式,与使用自定义“提示”来提取函数调用相对。
Ï„-bench基准测试
在Ï„-bench基准测试中,至少5次试验的平均成功率(pass@1)。我们的xLAM-2-70b-fc-r模型在Ï„-bench上的总体成功率达到了56.2%,显著优于基础Llama 3.1 70B Instruct模型(38.2%)和DeepSeek v3(40.6%)等其他开源模型。值得注意的是,我们的最佳模型甚至超越了GPT-4o(52.9%)等专有模型,并接近Claude 3.5 Sonnet(new)(60.1%)等较新模型的性能。
Pass^k曲线衡量了在给定任务中所有5次独立试验成功的概率,是在Ï„-零售(左)和Ï„-航空(右)领域的所有任务上的平均值。值越高表示模型的一致性越好。
道德考量
本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途设计或评估。我们强烈建议用户在部署此模型之前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑AI的常见局限性,遵守适用法律,并在选择用例时采用最佳实践,特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导,请参考我们的AUP和AI AUP。
模型许可证
对于所有与Llama相关的模型,请同时遵守相应的Llama许可证和条款。Meta Llama 3根据Meta Llama 3社区许可证进行许可,版权所有 © Meta Platforms, Inc. 保留所有权利。
🔧 技术细节
本模型使用新颖的APIGen-MT框架进行训练,该框架通过模拟智能体与人类的交互来生成高质量的训练数据。在训练过程中,模型针对多轮对话和工具使用进行了优化,以提高其在复杂场景下的性能。同时,我们还对聊天模板和vLLM集成进行了改进,使得模型在实际应用中更加易于使用和部署。
📄 许可证
本项目采用CC BY-NC 4.0许可证。对于所有与Llama相关的模型,请同时遵守相应的Llama许可证和条款。Meta Llama 3根据Meta Llama 3社区许可证进行许可,版权所有 © Meta Platforms, Inc. 保留所有权利。
📚 引用
如果你在工作中使用了我们的模型或数据集,请引用我们的论文:
@article{prabhakar2025apigenmt,
title={APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay},
author={Prabhakar, Akshara and Liu, Zuxin and Yao, Weiran and Zhang, Jianguo and Zhu, Ming and Wang, Shiyu and Liu, Zhiwei and Awalgaonkar, Tulika and Chen, Haolin and Hoang, Thai and Niebles, Juan Carlos and Heinecke, Shelby and Wang, Huan and Savarese, Silvio and Xiong, Caiming},
journal={arXiv preprint arXiv:2504.03601},
year={2025}
}
此外,请查看我们关于xLAM系列的其他优秀作品,并考虑也引用它们:
@article{zhang2025actionstudio,
title={ActionStudio: A Lightweight Framework for Data and Training of Action Models},
author={Zhang, Jianguo and Hoang, Thai and Zhu, Ming and Liu, Zuxin and Wang, Shiyu and Awalgaonkar, Tulika and Prabhakar, Akshara and Chen, Haolin and Yao, Weiran and Liu, Zhiwei and others},
journal={arXiv preprint arXiv:2503.22673},
year={2025}
}
@article{zhang2024xlam,
title={xLAM: A Family of Large Action Models to Empower AI Agent Systems},
author={Zhang, Jianguo and Lan, Tian and Zhu, Ming and Liu, Zuxin and Hoang, Thai and Kokane, Shirley and Yao, Weiran and Tan, Juntao and Prabhakar, Akshara and Chen, Haolin and others},
journal={arXiv preprint arXiv:2409.03215},
year={2024}
}
@article{liu2024apigen,
title={Apigen: Automated pipeline for generating verifiable and diverse function-calling datasets},
author={Liu, Zuxin and Hoang, Thai and Zhang, Jianguo and Zhu, Ming and Lan, Tian and Tan, Juntao and Yao, Weiran and Liu, Zhiwei and Feng, Yihao and RN, Rithesh and others},
journal={Advances in Neural Information Processing Systems},
volume={37},
pages={54463--54482},
year={2024}
}
@article{zhang2024agentohana,
title={AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning},
author={Zhang, Jianguo and Lan, Tian and Murthy, Rithesh and Liu, Zhiwei and Yao, Weiran and Tan, Juntao and Hoang, Thai and Yang, Liangwei and Feng, Yihao and Liu, Zuxin and others},
journal={arXiv preprint arXiv:2402.15506},
year={2024}
}



