bert-base-1024-biencoder-64M-pairsオープンソースモデル - 文章と段落の埋め込み機能を無料で実現

ホーム

Bert Base 1024 Biencoder 64M Pairs

shreyansh26によって開発

MosaicMLで事前学習された1024シーケンス長BERTに基づく長文コンテキスト用デュアルエンコーダー、文と段落の埋め込み用

テキスト埋め込み

Transformers

複数言語対応#長文エンコーディング #意味検索 #密ベクトル検索

ダウンロード数 19

リリース時間 : 8/22/2023

モデル概要

このモデルは文と段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。

モデル特徴

長文コンテキストサポート

1024シーケンス長をサポート、長文ドキュメントや段落の処理に適している

大規模トレーニング

64Mのランダムサンプリングされた文/段落ペアでトレーニング済み

効率的な検索

意味検索や情報検索タスクに最適化

モデル能力

文埋め込み

段落埋め込み

意味類似性計算

情報検索

ドキュメントクラスタリング

使用事例

情報検索

意味検索

検索エンジンの意味検索機能を構築

複数の検索ベンチマークで良好なパフォーマンス

質問応答システム

質問に最も関連するドキュメント段落を検索

テキスト分析

ドキュメントクラスタリング

類似内容のドキュメントをグループ化

🚀 bert-base-1024-biencoder-64M-pairs

このモデルは、MosaicMLの1024シーケンス長で事前学習されたBERTに基づく長文コンテキストのバイエンコーダです。このモデルは、文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。

🚀 クイックスタート

📦 インストール

モデルと関連スクリプトのダウンロード

git clone https://huggingface.co/shreyansh26/bert-base-1024-biencoder-64M-pairs

💻 使用例

基本的な使用法

import torch
from torch import nn
from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline, AutoModel
from mosaic_bert import BertModel

# pip install triton==2.0.0.dev20221202 --no-deps if using Pytorch 2.0

class AutoModelForSentenceEmbedding(nn.Module):
    def __init__(self, model, tokenizer, normalize=True):
        super(AutoModelForSentenceEmbedding, self).__init__()

        self.model = model.to("cuda")
        self.normalize = normalize
        self.tokenizer = tokenizer

    def forward(self, **kwargs):
        model_output = self.model(**kwargs)
        embeddings = self.mean_pooling(model_output, kwargs['attention_mask'])
        if self.normalize:
            embeddings = torch.nn.functional.normalize(embeddings, p=2, dim=1)

        return embeddings

    def mean_pooling(self, model_output, attention_mask):
        token_embeddings = model_output[0]  # First element of model_output contains all token embeddings
        input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
        return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

model = AutoModel.from_pretrained("<path-to-model>", trust_remote_code=True).to("cuda")
model = AutoModelForSentenceEmbedding(model, tokenizer)
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')

sentences = ["This is an example sentence", "Each sentence is converted"]

encoded_input = tokenizer(sentences, padding=True, truncation=True, max_length=1024, return_tensors='pt').to("cuda")
embeddings = model(**encoded_input)

print(embeddings)
print(embeddings.shape)

📚 ドキュメント

🔧 技術詳細

トレーニング

このモデルは、Sentence Transformersモデルが使用する同じトレーニングセットからランダムにサンプリングされた6400万対の文章/段落でトレーニングされています。トレーニングセットの詳細はこちらを参照してください。

トレーニング（ハイパーパラメータを含む）、推論、およびデータローディングのスクリプトはすべて、このGithubリポジトリにあります。

評価

いくつかの検索ベースのベンチマーク（CQADupstackEnglishRetrieval、DBPedia、MSMARCO、QuoraRetrieval）でモデルを実行し、結果はこちらにあります。

📄 モデル情報

属性	详情
データセット	sentence-transformers/embedding-training-data、flax-sentence-embeddings/stackexchange_xml、snli、eli5、search_qa、multi_nli、wikihow、natural_questions、trivia_qa、ms_marco、gooaq、yahoo_answers_topics
言語	en
推論	false
パイプラインタグ	sentence-similarity
タスクカテゴリ	sentence-similarity、feature-extraction、text-retrieval
タグ	information retrieval、ir、documents retrieval、passage retrieval、beir、benchmark、sts、semantic search、sentence-transformers、feature-extraction、sentence-similarity、transformers