Llama-xLAM-2-8b-fc-r-GGUFオープンソース言語モデル - 多輪対話と関数呼び出しで優れた性能を発揮

ホーム

Llama Xlam 2 8b Fc R GGUF

Mungertによって開発

特定の技術に基づいて生成された言語モデルで、多輪対話や関数呼び出しなどのタスクで優れた性能を発揮します。

大規模言語モデル

Transformers

英語#多輪対話の最適化 #関数呼び出し専用 #高精度量子化

ダウンロード数 586

リリース時間 : 6/21/2025

モデル概要

Llama-xLAM-2-8b-fc-r GGUFモデルは、細かく訓練され最適化された言語モデルで、多輪対話と関数呼び出しタスクに適しており、研究者に強力なサポートを提供します。

モデル特徴

多輪対話能力

多輪対話シナリオで一貫したやり取りを維持し、ユーザーの意図を正確に理解し、適切な返答を提供することができます。

関数呼び出しの最適化

微調整され、関数呼び出しタスクで優れた性能を発揮し、ユーザーの要求に応じて特定のツールを呼び出してタスクを完了することができます。

高精度量子化

新しい量子化方法を採用し、重要なレイヤーの精度を向上させ、与えられた量子化レベルの精度を大幅に向上させます。

広範な互換性

vLLMとTransformersベースの推論フレームワークと完全に互換性があり、さまざまな環境で簡単に使用できます。

モデル能力

多輪対話

関数呼び出し

テキスト生成

使用事例

対話システム

カスタマーサービス対話

カスタマーサービスシーンの多輪対話に使用され、ユーザーの問題を理解して解決策を提供します。

対話の一貫性を維持し、ユーザーの意図を正確に理解します。

ツール呼び出し

天気予報の照会

ユーザーの要求に応じて天気照会ツールを呼び出し、指定された場所の天気情報を返します。

ツールを正確に呼び出して結果を返します。

🚀 Llama-xLAM-2-8b-fc-r GGUF モデル

このモデルは、大規模アクションモデル（LAMs）の新しいシリーズであるxLAM-2の一つです。多ターン会話とツール使用に特化しており、最新のベンチマークで優れた性能を発揮します。また、vLLMやTransformersベースの推論フレームワークと完全に互換性があり、簡単に使用できます。

🚀 クイックスタート

このモデルを使用する前に、必要なフレームワークのバージョンを確認してください。

Transformers 4.46.1 (またはそれ以降)
PyTorch 2.5.1+cu124 (またはそれ以降)
Datasets 3.1.0 (またはそれ以降)
Tokenizers 0.20.3 (またはそれ以降)

✨ 主な機能

多ターン会話：複数の会話ターンにわたって一貫した応答を生成します。
関数呼び出し：特定のタスクを実行するために関数を呼び出すことができます。
高い精度：最新のベンチマークで優れた性能を発揮します。
互換性：vLLMやTransformersベースの推論フレームワークと完全に互換性があります。

📦 インストール

必要なライブラリをインストールすることで、このモデルを使用する環境を構築できます。

pip install transformers>=4.46.1 torch>=2.5.1+cu124 datasets>=3.1.0 tokenizers>=0.20.3

💻 使用例

基本的な使用法

Hugging FaceのTransformersライブラリと自然なチャットテンプレートを使用して、簡単に会話を行うことができます。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Salesforce/Llama-xLAM-2-3b-fc-r")
model = AutoModelForCausalLM.from_pretrained("Salesforce/Llama-xLAM-2-3b-fc-r", torch_dtype=torch.bfloat16, device_map="auto")

# ツール呼び出しを含む会話の例
messages = [
    {"role": "user", "content": "Hi, how are you?"},
    {"role": "assistant", "content": "Thanks. I am doing well. How can I help you?"},
    {"role": "user", "content": "What's the weather like in London?"},
]

tools = [
    {
        "name": "get_weather",
        "description": "Get the current weather for a location",
        "parameters": {
            "type": "object",
            "properties": {
                "location": {"type": "string", "description": "The city and state, e.g. San Francisco, CA"},
                "unit": {"type": "string", "enum": ["celsius", "fahrenheit"], "description": "The unit of temperature to return"}
            },
            "required": ["location"]
        }
    }
]

print("====== prompt after applying chat template ======")
print(tokenizer.apply_chat_template(messages, tools=tools, add_generation_prompt=True, tokenize=False))

inputs = tokenizer.apply_chat_template(messages, tools=tools, add_generation_prompt=True, return_dict=True, return_tensors="pt")
input_ids_len = inputs["input_ids"].shape[-1] # 入力トークンの長さを取得
inputs = {k: v.to(model.device) for k, v in inputs.items()}
print("====== model response ======")
outputs = model.generate(**inputs, max_new_tokens=256)
generated_tokens = outputs[:, input_ids_len:] # 出力をスライスして新しく生成されたトークンのみを取得
print(tokenizer.decode(generated_tokens[0], skip_special_tokens=True))

高度な使用法

vLLMを使用して、高スループットの推論を行うことができます。

import openai
import json

# クライアントをローカルのvLLMエンドポイントを使用するように設定
client = openai.OpenAI(
    base_url="http://localhost:8000/v1",  # デフォルトのvLLMサーバーURL
    api_key="empty"  # 任意の文字列で構いません
)

# ツール/関数を定義
tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get the current weather for a location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "The city and state, e.g. San Francisco, CA"
                    },
                    "unit": {
                        "type": "string",
                        "enum": ["celsius", "fahrenheit"],
                        "description": "The unit of temperature to return"
                    }
                },
                "required": ["location"]
            }
        }
    }
]

# チャットの完了を作成
response = client.chat.completions.create(
    model="Salesforce/xLAM-2-1b-fc-r",  # モデル名は関係なく、vLLMはサーブされたモデルを使用します
    messages=[
        {"role": "system", "content": "You are a helpful assistant that can use tools."},
        {"role": "user", "content": "What's the weather like in San Francisco?"}
    ],
    tools=tools,
    tool_choice="auto"
)

# 応答を表示
print("Assistant's response:")
print(json.dumps(response.model_dump(), indent=2))

📚 ドキュメント

モデルシリーズ

xLAMシリーズは、一般的なタスクや関数呼び出しなど、多くの点で優れた性能を発揮します。

モデル	総パラメータ数	コンテキスト長	カテゴリ	モデルのダウンロード	GGUFファイルのダウンロード
Llama-xLAM-2-70b-fc-r	70B	128k	多ターン会話、関数呼び出し	🤗 リンク	NA
Llama-xLAM-2-8b-fc-r	8B	128k	多ターン会話、関数呼び出し	🤗 リンク	🤗 リンク
xLAM-2-32b-fc-r	32B	32k (最大128k)*	多ターン会話、関数呼び出し	🤗 リンク	NA
xLAM-2-3b-fc-r	3B	32k (最大128k)*	多ターン会話、関数呼び出し	🤗 リンク	🤗 リンク
xLAM-2-1b-fc-r	1B	32k (最大128k)*	多ターン会話、関数呼び出し	🤗 リンク	🤗 リンク

注: Qwen-2.5ベースのモデルのデフォルトのコンテキスト長は32kですが、YaRN（Yet Another Recursive Network）などの技術を使用することで最大128kのコンテキスト長を実現できます。詳細はこちらを参照してください。

ベンチマーク結果

Berkeley Function-Calling Leaderboard (BFCL v3)

BFCL結果 BFCLリーダーボードでの異なるモデルの性能比較。ランクは全体的な精度に基づいており、これは異なる評価カテゴリの加重平均です。「FC」は、関数呼び出しを抽出するためにカスタマイズされた「プロンプト」を使用するのとは対照的に、関数呼び出しモードを表します。

τ-benchベンチマーク

τ-bench結果 τ-benchベンチマークでの成功率（pass@1）は、少なくとも5回の試行にわたって平均化されています。私たちのxLAM-2-70b-fc-rモデルは、τ-benchで全体的な成功率56.2％を達成し、ベースのLlama 3.1 70B Instructモデル（38.2％）やDeepSeek v3（40.6％）などの他のオープンソースモデルを大きく上回っています。特に、私たちの最高のモデルは、GPT-4o（52.9％）などのプロプライエタリモデルさえも上回り、Claude 3.5 Sonnet（new）（60.1％）などの最新のモデルの性能に近づいています。

Pass^k曲線は、与えられたタスクに対して5回の独立した試行がすべて成功する確率を測定し、τ-retail（左）およびτ-airline（右）ドメインのすべてのタスクにわたって平均化されています。値が高いほど、モデルの一貫性が高いことを示します。

🔧 技術詳細

このモデルは、llama.cppを使用して生成されました。具体的には、コミット6adc3c3eで生成されています。

また、新しい量子化アプローチを実験しており、デフォルトのIMatrix構成が提供する以上の精度で重要なレイヤーの精度を選択的に向上させています。このアプローチは、標準のIMatrix量子化が低いビット深度で、特にMixture of Experts（MoE）モデルで性能が低下する問題を解決するために開発されました。詳細な実装はこちらを参照してください。

📄 ライセンス

引用

もしあなたの研究でこのモデルやデータセットを使用した場合、以下の論文を引用してください。

@article{prabhakar2025apigen,
  title={APIGen-MT: Agentic PIpeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay},
  author={Prabhakar, Akshara and Liu, Zuxin and Zhu, Ming and Zhang, Jianguo and Awalgaonkar, Tulika and Wang, Shiyu and Liu, Zhiwei and Chen, Haolin and Hoang, Thai and others},
  journal={arXiv preprint arXiv:2504.03601},
  year={2025}
}

また、xLAMシリーズに関する他の素晴らしい関連研究も参照し、引用を検討してください。

@article{zhang2025actionstudio,
  title={ActionStudio: A Lightweight Framework for Data and Training of Action Models},
  author={Zhang, Jianguo and Hoang, Thai and Zhu, Ming and Liu, Zuxin and Wang, Shiyu and Awalgaonkar, Tulika and Prabhakar, Akshara and Chen, Haolin and Yao, Weiran and Liu, Zhiwei and others},
  journal={arXiv preprint arXiv:2503.22673},
  year={2025}
}

@article{zhang2024xlam,
  title={xLAM: A Family of Large Action Models to Empower AI Agent Systems},
  author={Zhang, Jianguo and Lan, Tian and Zhu, Ming and Liu, Zuxin and Hoang, Thai and Kokane, Shirley and Yao, Weiran and Tan, Juntao and Prabhakar, Akshara and Chen, Haolin and others},
  journal={arXiv preprint arXiv:2409.03215},
  year={2024}
}

@article{liu2024apigen,
  title={Apigen: Automated pipeline for generating verifiable and diverse function-calling datasets},
  author={Liu, Zuxin and Hoang, Thai and Zhang, Jianguo and Zhu, Ming and Lan, Tian and Tan, Juntao and Yao, Weiran and Liu, Zhiwei and Feng, Yihao and RN, Rithesh and others},
  journal={Advances in Neural Information Processing Systems},
  volume={37},
  pages={54463--54482},
  year={2024}
}

@article{zhang2024agentohana,
  title={AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning},
  author={Zhang, Jianguo and Lan, Tian and Murthy, Rithesh and Liu, Zhiwei and Yao, Weiran and Tan, Juntao and Hoang, Thai and Yang, Liangwei and Feng, Yihao and Liu, Zuxin and others},
  journal={arXiv preprint arXiv:2402.15506},
  year={2024}
}

量子ネットワークモニターのテスト

これらのモデルが役に立つと思われる場合は、量子対応のセキュリティチェックを備えたAI駆動の量子ネットワークモニターアシスタントのテストに参加してください。 👉 量子ネットワークモニター

量子ネットワークモニターサービスの完全なオープンソースコードは、私のGitHubリポジトリ（NetworkMonitorという名前のリポジトリ）で入手できます。ソースコード量子ネットワークモニターまた、自分でモデルを量子化したい場合は、私が使用しているコードもこちらで見つけることができます。

テスト方法

以下のAIアシスタントタイプから選択してテストを行ってください。

TurboLLM (GPT-4.1-mini)
HugLLM (Hugginfaceオープンソースモデル)
TestLLM (実験的なCPU限定モデル)

テスト内容

私は、AIネットワークモニタリングのための小規模なオープンソースモデルの限界を追求しています。具体的には、以下の点をテストしています。

ライブネットワークサービスに対する関数呼び出し
モデルをどれだけ小さくできるかを調べる
- 自動化されたNmapセキュリティスキャン
- 量子対応チェック
- ネットワークモニタリングタスク

各アシスタントの特徴

TurboLLM：gpt-4.1-miniを使用しています。性能は非常に高いですが、OpenAIがトークンごとに課金するため、トークンの使用量に制限があります。
HugLLM：最新のオープンソースモデルを使用しています。Hugging Face Inference APIで実行され、Novitaにホストされている最新のモデルを使用して良好な性能を発揮します。
TestLLM：現在実験的なモデルです（huggingfaceのDocker環境で2つのCPUスレッドでllama.cppを使用）。ゼロコンフィギュレーションでセットアップでき、ロード時間は30秒です（推論は遅いですがAPIコストはかかりません）。トークン制限もありません。エッジデバイスAIに興味がある方は、一緒に協力しましょう！

テストできるコマンドの例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)" ただし、量子ネットワークモニターエージェントをインストールする必要があります。これは非常に柔軟で強力な機能ですが、注意して使用してください。

最後に

これらのモデルファイルを作成するためのサーバー、量子ネットワークモニターサービスの実行、およびNovitaとOpenAIからの推論の費用はすべて私の自己負担です。モデル作成と量子ネットワークモニタープロジェクトの背後にあるすべてのコードはオープンソースです。役に立つものがあれば自由に使用してください。

もしあなたがこの仕事を評価してくれるなら、私にコーヒーを買ってくれることを検討してみてください。あなたの支援により、サービスのコストをカバーし、すべてのユーザーのトークン制限を引き上げることができます。

また、仕事の機会やスポンサーシップにも応じています。ありがとうございます！