Llama-3-8B-Webオープンソース言語モデル - 英語エージェントタスクと言語理解に特化

ホーム

Llama 3 8B Web

McGill-NLPによって開発

WebLINXはLlama3ベースのモデルで、エージェントタスクと言語理解に特化しており、英語環境に適しています。

大規模言語モデル

Transformers

英語#マルチターン対話エージェント #ウェブインタラクション理解 #英語タスク最適化

ダウンロード数 74

リリース時間 : 4/22/2024

モデル概要

このモデルはLlama3アーキテクチャを基にしており、エージェントタスクと言語理解に特化しており、英語環境に適しています。

モデル特徴

Llama3アーキテクチャベース

Llama3の強力な言語モデル能力を活用し、効率的な言語理解と生成を提供します。

エージェントタスクサポート

エージェントタスク向けに設計されており、複雑なインタラクションと意思決定プロセスを処理できます。

英語最適化

英語環境向けに最適化されており、より正確な言語理解と生成を提供します。

モデル能力

言語理解

テキスト生成

エージェントタスク処理

使用事例

インテリジェントエージェント

カスタマーサポートエージェント

自動化されたカスタマーサポートシステムで、ユーザーの問い合わせを処理しサポートを提供します。

カスタマーサポートの効率を向上させ、人的介入を削減します。

タスク自動化

データ収集や情報整理などの複雑なタスクを自動化します。

時間と人的コストを節約します。

言語理解

テキスト分析

大量のテキストデータを分析し、重要な情報と洞察を抽出します。

迅速かつ正確なデータ分析結果を提供します。

🚀 Llama-3-8B-Web

WebLlamaは、Meta Llama 3をベースにした強力なエージェントを構築し、Webの閲覧を支援します。初のモデルLlama-3-8B-Webは、WebLINXでGPT-4V (*ゼロショット) を18％上回ります。

💻 GitHub

🏠 ホームページ

🤗 Llama-3-8B-Web

このモデルを使用することで、Meta Llama 3 Community License Agreementの条項に同意することになります。

`WebLlama`は、Meta Llama 3をベースにした強力なエージェントを構築し、Webの閲覧を代行します	初のモデル`Llama-3-8B-Web`は、`WebLINX`でGPT-4V (`*`ゼロショット) を18％上回ります

🚀 クイックスタート

このモデルを使用するには、以下のコードを参考にしてください。

from datasets import load_dataset
from huggingface_hub import snapshot_download
from transformers import pipeline

# 検証データを使用しますが、ここで独自のデータを使用することもできます
valid = load_dataset("McGill-NLP/WebLINX", split="validation")
snapshot_download("McGill-NLP/WebLINX", "dataset", allow_patterns="templates/*")
template = open('templates/llama.txt').read()

# 単一の状態（テキスト表現）でエージェントを実行し、アクションを取得します
state = template.format(**valid[0])
agent = pipeline(model="McGill-NLP/Llama-3-8b-Web", device=0, torch_dtype='auto')
out = agent(state, return_full_text=False)[0]
print("アクション:", out['generated_text'])

# ここで、playwrightやbrowsergymなどのプラットフォームで予測を使用することができます
action = process_pred(out['generated_text'])  # プラットフォームに基づいて実装する
env.step(action)  # 環境でアクションを実行する

✨ 主な機能

高性能：WebLINXベンチマークでGPT-4V (ゼロショット *) を18％以上上回り、ドメイン外のテスト分割で全体スコア28.8％を達成します（GPT-4Vは10.5％）。
多様なタスク対応：簡単な命令に従ったWebナビゲーションから複雑な対話主導の閲覧まで、幅広いタスクをサポートします。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してください。

pip install datasets huggingface_hub transformers

💻 使用例

基本的な使用法

from datasets import load_dataset
from huggingface_hub import snapshot_download
from transformers import pipeline

# 検証データを使用しますが、ここで独自のデータを使用することもできます
valid = load_dataset("McGill-NLP/WebLINX", split="validation")
snapshot_download("McGill-NLP/WebLINX", "dataset", allow_patterns="templates/*")
template = open('templates/llama.txt').read()

# 単一の状態（テキスト表現）でエージェントを実行し、アクションを取得します
state = template.format(**valid[0])
agent = pipeline(model="McGill-NLP/Llama-3-8b-Web", device=0, torch_dtype='auto')
out = agent(state, return_full_text=False)[0]
print("アクション:", out['generated_text'])

# ここで、playwrightやbrowsergymなどのプラットフォームで予測を使用することができます
action = process_pred(out['generated_text'])  # プラットフォームに基づいて実装する
env.step(action)  # 環境でアクションを実行する

高度な使用法

高度なシナリオでは、独自のデータや環境を使用することができます。以下はその例です。

# 独自のデータを使用する場合
custom_data = load_dataset("your_custom_dataset", split="train")
# 独自の環境でエージェントを実行する場合
custom_env = CustomEnvironment()
# 以下は基本的な使用法と同様の手順です
state = template.format(**custom_data[0])
agent = pipeline(model="McGill-NLP/Llama-3-8b-Web", device=0, torch_dtype='auto')
out = agent(state, return_full_text=False)[0]
action = process_pred(out['generated_text'])
custom_env.step(action)

📚 ドキュメント

モデリング

初のエージェントは、Meta GenAIチームによって最近リリースされたMeta-Llama-3-8B-Instructモデルをファインチューニングしたものです。このモデルは、WebLINXデータセットでファインチューニングされており、このデータセットには10万以上のWebナビゲーションと対話のインスタンスが含まれており、それぞれが専門のアノテーターによって収集および検証されています。トレーニングには24Kの精選されたサブセットを使用しています。トレーニングと評価データは、Huggingface HubでMcGill-NLP/WebLINXとして利用可能です。

評価

短いデモビデオだけではエージェントの性能を判断するのは不十分だと考えています。簡単に言えば、良いベンチマークがなければ、良いエージェントがあるかどうかわかりません。簡単な命令に従ったWebナビゲーションから複雑な対話主導の閲覧まで、幅広いタスクでエージェントを体系的に評価する必要があります。

このため、最初のベンチマークとしてWebLINXを選びました。ベンチマークにはトレーニングスプリットの他に、4つの実世界のスプリットがあり、汎化の複数の次元をテストすることを目的としています。新しいウェブサイト、新しいドメイン、未見の地理的位置、およびユーザーが画面を見ることができず、対話に依存するシナリオです。また、予約、ショッピング、執筆、知識検索、さらにはスプレッドシートの操作などの複雑なタスクを含む150のウェブサイトをカバーしています。

データ

WebLINXの24Kのトレーニング例は、能力のあるエージェントをトレーニングするための良い出発点を提供しますが、幅広いWebナビゲーションタスクに汎化できるエージェントをトレーニングするには、より多くのデータが必要だと考えています。このモデルは150のウェブサイトでトレーニングおよび評価されていますが、モデルが見たことのない何百万ものウェブサイトがあり、毎日新しいウェブサイトが作成されています。

このことから、より良いエージェントをトレーニングするためのデータセットを継続的に選別、編集、公開することに取り組んでいます。次のステップとして、Mind2Webのトレーニングデータも取り入れる予定です。このデータセットも100以上のウェブサイトをカバーしています。

デプロイメント

LlamaのWebエージェントをWebに簡単にデプロイできるように努力しています。WebLlamaをMicrosoftのPlaywright、ServiceNow ResearchのBrowserGym、および他のパートナーの既存のデプロイメントプラットフォームと統合する予定です。

コード

モデルをファインチューニングし、WebLINXベンチマークで評価するためのコードは現在利用可能です。詳細な手順はmodelingで確認できます。

🔧 技術詳細

モデルの選択：Meta-Llama-3-8B-Instructをベースにしています。
データセット：WebLINXデータセットを使用してファインチューニングしています。
トレーニング：24Kの精選されたサブセットを使用してトレーニングしています。

📄 ライセンス

このモデルはllama3ライセンスの下で提供されています。使用することで、Meta Llama 3 Community License Agreementの条項に同意することになります。

引用

もしあなたの研究でWebLlamaを使用した場合は、次の論文を引用してください（データ、トレーニング、評価は元々この論文に基づいています）：

@misc{lù2024weblinx,
      title={WebLINX: Real-World Website Navigation with Multi-Turn Dialogue}, 
      author={Xing Han Lù and Zdeněk Kasner and Siva Reddy},
      year={2024},
      eprint={2402.05930},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}