模型概述
模型特點
模型能力
使用案例
🚀 xLAM-v0.1-r大動作模型
xLAM-v0.1-r是大動作模型系列的0.1版本,是在Mixtral基礎上的顯著升級。該模型在相同參數數量下,針對廣泛的代理任務和場景進行了微調,同時保留了原模型的能力,並且兼容VLLM和FastChat平臺。
[AgentOhana論文] | [Github] | [Discord] | [主頁] | [社區演示]
🚀 快速開始
如果你已經瞭解Mixtral,那麼xLAM-v0.1是一個顯著的升級版本,在很多方面表現更優。對於相同數量的參數,該模型在廣泛的代理任務和場景中進行了微調,同時保留了原模型的能力。
xLAM-v0.1-r代表大動作模型系列的0.1版本,“-r” 表示該版本用於研究。此模型與VLLM和FastChat平臺兼容。
模型 | 總參數數量 | 上下文長度 | 發佈日期 | 類別 | 下載模型 | 下載GGUF文件 |
---|---|---|---|---|---|---|
xLAM-7b-r | 72.4億 | 32k | 2024年9月5日 | 通用,函數調用 | 🤗 鏈接 | -- |
xLAM-8x7b-r | 467億 | 32k | 2024年9月5日 | 通用,函數調用 | 🤗 鏈接 | -- |
xLAM-8x22b-r | 1410億 | 64k | 2024年9月5日 | 通用,函數調用 | 🤗 鏈接 | -- |
xLAM-1b-fc-r | 13.5億 | 16k | 2024年7月17日 | 函數調用 | 🤗 鏈接 | 🤗 鏈接 |
xLAM-7b-fc-r | 69.1億 | 4k | 2024年7月17日 | 函數調用 | 🤗 鏈接 | 🤗 鏈接 |
xLAM-v0.1-r | 467億 | 32k | 2024年3月18日 | 通用,函數調用 | 🤗 鏈接 | -- |
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Salesforce/xLAM-v0.1-r")
model = AutoModelForCausalLM.from_pretrained("Salesforce/xLAM-v0.1-r", device_map="auto")
messages = [
{"role": "user", "content": "What is your favourite condiment?"},
{"role": "assistant", "content": "Well, I'm quite partial to a good squeeze of fresh lemon juice. It adds just the right amount of zesty flavour to whatever I'm cooking up in the kitchen!"},
{"role": "user", "content": "Do you have mayonnaise recipes?"}
]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to("cuda")
outputs = model.generate(inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
高級用法
你可能需要針對不同的應用調整溫度設置。通常,較低的溫度有助於需要確定性結果的任務。此外,對於要求遵循特定格式或函數調用的任務,建議明確包含格式說明。
⚠️ 倫理考量
本次發佈僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途設計或評估。我們強烈建議用戶在部署此模型之前,評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性,遵守適用法律,並在選擇用例時採用最佳實踐,特別是在錯誤或濫用可能對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的更多指導,請參考我們的AUP和AI AUP。
📊 基準測試
BOLAA
Webshop
LLM名稱 | 零樣本(ZS) | 帶思維鏈的零樣本(ZST) | ReaAct | PlanAct | PlanReAct | BOLAA |
---|---|---|---|---|---|---|
Llama-2-70B-chat | 0.0089 | 0.0102 | 0.4273 | 0.2809 | 0.3966 | 0.4986 |
Vicuna-33B | 0.1527 | 0.2122 | 0.1971 | 0.3766 | 0.4032 | 0.5618 |
Mixtral-8x7B-Instruct-v0.1 | 0.4634 | 0.4592 | 0.5638 | 0.4738 | 0.3339 | 0.5342 |
GPT-3.5-Turbo | 0.4851 | 0.5058 | 0.5047 | 0.4930 | 0.5436 | 0.6354 |
GPT-3.5-Turbo-Instruct | 0.3785 | 0.4195 | 0.4377 | 0.3604 | 0.4851 | 0.5811 |
GPT-4-0613 | 0.5002 | 0.4783 | 0.4616 | 0.7950 | 0.4635 | 0.6129 |
xLAM-v0.1-r | 0.5201 | 0.5268 | 0.6486 | 0.6573 | 0.6611 | 0.6556 |
HotpotQA
LLM名稱 | 零樣本(ZS) | 帶思維鏈的零樣本(ZST) | ReaAct | PlanAct | PlanReAct |
---|---|---|---|---|---|
Mixtral-8x7B-Instruct-v0.1 | 0.3912 | 0.3971 | 0.3714 | 0.3195 | 0.3039 |
GPT-3.5-Turbo | 0.4196 | 0.3937 | 0.3868 | 0.4182 | 0.3960 |
GPT-4-0613 | 0.5801 | 0.5709 | 0.6129 | 0.5778 | 0.5716 |
xLAM-v0.1-r | 0.5492 | 0.4776 | 0.5020 | 0.5583 | 0.5030 |
AgentLite
請注意:AgentLite提供的所有提示對於xLAM-v0.1-r來說都是“未見提示”,這意味著模型沒有使用與這些提示相關的數據進行訓練。
Webshop
LLM名稱 | Act | ReAct | BOLAA |
---|---|---|---|
GPT-3.5-Turbo-16k | 0.6158 | 0.6005 | 0.6652 |
GPT-4-0613 | 0.6989 | 0.6732 | 0.7154 |
xLAM-v0.1-r | 0.6563 | 0.6640 | 0.6854 |
HotpotQA
LLM名稱 | 簡單難度F1分數 | 簡單難度準確率 | 中等難度F1分數 | 中等難度準確率 | 困難難度F1分數 | 困難難度準確率 |
---|---|---|---|---|---|---|
GPT-3.5-Turbo-16k-0613 | 0.410 | 0.350 | 0.330 | 0.25 | 0.283 | 0.20 |
GPT-4-0613 | 0.611 | 0.47 | 0.610 | 0.480 | 0.527 | 0.38 |
xLAM-v0.1-r | 0.532 | 0.45 | 0.547 | 0.46 | 0.455 | 0.36 |
ToolBench
LLM名稱 | 未見指令與相同工具集 | 未見工具與已知類別 | 未見工具與未知類別 |
---|---|---|---|
TooLlama V2 | 0.4385 | 0.4300 | 0.4350 |
GPT-3.5-Turbo-0125 | 0.5000 | 0.5150 | 0.4900 |
GPT-4-0125-preview | 0.5462 | 0.5450 | 0.5050 |
xLAM-v0.1-r | 0.5077 | 0.5650 | 0.5200 |
MINT-BENCH
LLM名稱 | 1步 | 2步 | 3步 | 4步 | 5步 |
---|---|---|---|---|---|
GPT-4-0613 | - | - | - | - | 69.45 |
Claude-Instant-1 | 12.12 | 32.25 | 39.25 | 44.37 | 45.90 |
xLAM-v0.1-r | 4.10 | 28.50 | 36.01 | 42.66 | 43.96 |
Claude-2 | 26.45 | 35.49 | 36.01 | 39.76 | 39.93 |
Lemur-70b-Chat-v1 | 3.75 | 26.96 | 35.67 | 37.54 | 37.03 |
GPT-3.5-Turbo-0613 | 2.73 | 16.89 | 24.06 | 31.74 | 36.18 |
AgentLM-70b | 6.48 | 17.75 | 24.91 | 28.16 | 28.67 |
CodeLlama-34b | 0.17 | 16.21 | 23.04 | 25.94 | 28.16 |
Tool-Query
LLM名稱 | 成功率 | 進度率 |
---|---|---|
xLAM-v0.1-r | 0.533 | 0.766 |
DeepSeek-67B | 0.400 | 0.714 |
GPT-3.5-Turbo-0613 | 0.367 | 0.627 |
GPT-3.5-Turbo-16k | 0.317 | 0.591 |
Lemur-70B | 0.283 | 0.720 |
CodeLlama-13B | 0.250 | 0.525 |
CodeLlama-34B | 0.133 | 0.600 |
Mistral-7B | 0.033 | 0.510 |
Vicuna-13B-16K | 0.033 | 0.343 |
Llama-2-70B | 0.000 | 0.483 |
📄 許可證
此代碼遵循Apache 2.0許可證。對於基於deepseek模型的模型,你需要遵循鏈接的deepseek許可證中的使用限制。這是一個僅用於研究的項目。
🙏 致謝
我們要感謝那些為我們的論文和代理研究社區做出貢獻的工作!如果你發現我們的工作有用,請考慮引用以下文獻:
@article{zhang2024agentohana,
title={AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning},
author={Zhang, Jianguo and Lan, Tian and Murthy, Rithesh and Liu, Zhiwei and Yao, Weiran and Tan, Juntao and Hoang, Thai and Yang, Liangwei and Feng, Yihao and Liu, Zuxin and others},
journal={arXiv preprint arXiv:2402.15506},
year={2024}
}
@article{liu2024apigen,
title={APIGen: Automated PIpeline for Generating Verifiable and Diverse Function-Calling Datasets},
author={Liu, Zuxin and Hoang, Thai and Zhang, Jianguo and Zhu, Ming and Lan, Tian and Kokane, Shirley and Tan, Juntao and Yao, Weiran and Liu, Zhiwei and Feng, Yihao and others},
journal={arXiv preprint arXiv:2406.18518},
year={2024}
}
@article{zhang2024xlamfamilylargeaction,
title={xLAM: A Family of Large Action Models to Empower AI Agent Systems},
author={Zhang, Jianguo and Lan, Tian and Zhu, Ming and Liu, Zuxin and Hoang, Thai and Kokane, Shirley and Yao, Weiran and Tan, Juntao and Prabhakar, Akshara and Chen, Haolin and Liu, Zhiwei and Feng, Yihao and Awalgaonkar, Tulika and Murthy, Rithesh and Hu, Eric and Chen, Zeyuan and Xu, Ran and Niebles, Juan Carlos and Heinecke, Shelby and Wang, Huan and Savarese, Silvio and Xiong, Caiming},
journal={arXiv preprint arXiv:2409.03215},
year={2024}
}



