LLM2Vec-Meta-Llama-3-8B-Instruct-mntpオープンソースモデル - 大規模言語モデルをテキストエンコーダーに変換可能

ホーム

Llm2vec Meta Llama 3 8B Instruct Mntp

McGill-NLPによって開発

LLM2Vecはデコーダのみのアーキテクチャを持つ大規模言語モデルをテキストエンコーダに変換する簡易ソリューションで、双方向注意機構、マスクされた次単語予測、教師なしコントラスティブ学習を有効化することで実現します。

テキスト埋め込み

Transformers

英語オープンソースライセンス:MIT #デコーダからエンコーダへの変換 #双方向注意機構の強化 #教師なしコントラスティブ学習

ダウンロード数 3,885

リリース時間 : 4/30/2024

モデル概要

このモデルは3段階の変換プロセスにより大規模言語モデルを強力なテキストエンコーダに変換し、テキスト埋め込み、情報検索、テキスト分類など様々なタスクをサポートします。

モデル特徴

双方向注意機構

双方向注意機構を有効化することで、デコーダのみのLLMが文脈情報をより良く理解できるようになります。

マスクされた次単語予測

マスクされた次単語予測(MNTP)技術を採用し、モデルのテキスト表現能力を強化します。

教師なしコントラスティブ学習

教師なしコントラスティブ学習により、モデルのテキストエンコーディング品質をさらに向上させます。

命令感知型エンコーディング

命令プレフィックス付きのテキストエンコーディングをサポートし、検索拡張生成などのシナリオに適しています。

モデル能力

テキスト埋め込み

情報検索

テキスト分類

テキストクラスタリング

意味的類似性計算

特徴量抽出

テキスト再ランキング

使用事例

情報検索

質問応答システム検索

命令エンコードされたクエリ文を使用して関連ドキュメント段落を検索

高関連性ドキュメント検索

テキスト分析

意味的類似性計算

異なるテキスト間の意味的類似性を計算

正確な類似性スコア

🚀 LLM2Vec: 大規模言語モデルは秘密兵器となるテキストエンコーダー

LLM2Vecは、デコーダー専用の大規模言語モデル（LLM）をテキストエンコーダーに変換するシンプルな方法です。これは3つの簡単なステップで構成されています：1) 双方向注意の有効化、2) マスクされた次のトークン予測、3) 教師なし対照学習。このモデルは、最先端の性能を達成するためにさらに微調整することができます。

リポジトリ: https://github.com/McGill-NLP/llm2vec
論文: https://arxiv.org/abs/2404.05961

🚀 クイックスタート

LLM2Vecを使って、デコーダー専用の大規模言語モデルをテキストエンコーダーに変換し、テキストの埋め込みや類似度計算を行うことができます。

✨ 主な機能

デコーダー専用のLLMをテキストエンコーダーに変換する機能。
双方向注意、マスクされた次のトークン予測、教師なし対照学習を用いた学習方法。
微調整により最先端の性能を達成できる。

📦 インストール

pip install llm2vec

💻 使用例

基本的な使用法

from llm2vec import LLM2Vec

import torch
from transformers import AutoTokenizer, AutoModel, AutoConfig
from peft import PeftModel

# Loading base Mistral model, along with custom code that enables bidirectional connections in decoder-only LLMs.
tokenizer = AutoTokenizer.from_pretrained(
    "McGill-NLP/LLM2Vec-Meta-Llama-3-8B-Instruct-mntp"
)
config = AutoConfig.from_pretrained(
    "McGill-NLP/LLM2Vec-Meta-Llama-3-8B-Instruct-mntp", trust_remote_code=True
)
model = AutoModel.from_pretrained(
    "McGill-NLP/LLM2Vec-Meta-Llama-3-8B-Instruct-mntp",
    trust_remote_code=True,
    config=config,
    torch_dtype=torch.bfloat16,
    device_map="cuda" if torch.cuda.is_available() else "cpu",
)

# Loading MNTP (Masked Next Token Prediction) model.
model = PeftModel.from_pretrained(
    model,
    "McGill-NLP/LLM2Vec-Meta-Llama-3-8B-Instruct-mntp",
)

# Wrapper for encoding and pooling operations
l2v = LLM2Vec(model, tokenizer, pooling_mode="mean", max_length=512)

# Encoding queries using instructions
instruction = (
    "Given a web search query, retrieve relevant passages that answer the query:"
)
queries = [
    [instruction, "how much protein should a female eat"],
    [instruction, "summit define"],
]
q_reps = l2v.encode(queries)

# Encoding documents. Instruction are not required for documents
documents = [
    "As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
    "Definition of summit for English Language Learners. : 1  the highest point of a mountain : the top of a mountain. : 2  the highest level. : 3  a meeting or series of meetings between the leaders of two or more governments.",
]
d_reps = l2v.encode(documents)

# Compute cosine similarity
q_reps_norm = torch.nn.functional.normalize(q_reps, p=2, dim=1)
d_reps_norm = torch.nn.functional.normalize(d_reps, p=2, dim=1)
cos_sim = torch.mm(q_reps_norm, d_reps_norm.transpose(0, 1))

print(cos_sim)
"""
tensor([[0.7740, 0.5580],
        [0.4845, 0.4993]])
"""