lsg_4096_sentence_similarity_spanishオープンソースモデル - 長いシーケンスを効率的に処理し、スペイン語の文の類似度を正確に計算

ホーム

Lsg 4096 Sentence Similarity Spanish

prudantによって開発

これはhiiamsid/sentence_similarity_spanish_esの強化版で、LSGアテンションメカニズムを採用し、最大4096トークンの長いシーケンスを効率的に処理できます。

テキスト埋め込み

Transformers

スペイン語オープンソースライセンス:Apache-2.0 #長文の文類似度 #スペイン語意味マッチング #LSGアテンションメカニズム

ダウンロード数 31

リリース時間 : 12/16/2023

モデル概要

このモデルはスペイン語の文の類似度を計算するために使用され、特に長文の処理に適しています。LSGアテンションメカニズムにより強化され、長いシーケンスの処理能力が向上しています。

モデル特徴

長文処理能力

LSGアテンションメカニズムにより、最大4096トークンのシーケンス処理をサポート

効率的な類似度計算

スペイン語の文類似度計算に最適化

改良されたアテンションメカニズム

局所的、疎、グローバルなアテンションを組み合わせ、計算複雑性を低減しながら性能を維持

モデル能力

文埋め込み生成

テキスト類似度計算

長文処理

使用事例

テキスト類似度

ドキュメント検索

クエリ文に最も類似したドキュメント段落を検索

重複コンテンツ検出

異なるテキスト中の類似コンテンツを識別

情報検索

意味検索

キーワードマッチングではなく意味に基づく検索システム

🚀 prudant/lsg_4096_sentence_similarity_spanish のLSGバリアント

このモデルは、自然言語処理タスクにおける文の類似度を測定するためのモデルです。Local Sparse Global (LSG) アテンションメカニズムを用いることで、長いシーケンスを効率的に処理できるようになりました。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。まず、必要なライブラリをインポートし、トークナイザーとモデルをロードします。その後、文の埋め込みを計算するための関数を定義します。

import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
import torch

tokenizer = AutoTokenizer.from_pretrained('prudant/lsg_4096_sentence_similarity_spanish')
model = AutoModel.from_pretrained('prudant/lsg_4096_sentence_similarity_spanish', trust_remote_code=True)

def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

✨ 主な機能

長いシーケンスの効率的な処理: LSGアテンションメカニズムを用いることで、最大4096トークンの長いシーケンスを効率的に処理できます。
高精度: 長いシーケンスでも高精度を維持し、文の類似度を正確に測定できます。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

以下のコードは、このモデルを使用して文の埋め込みを計算し、文の類似度を測定する例です。

# Sentences
sentences = [
  'Esa es una persona feliz',
  "Ese es un perro feliz",
  "Esa es una persona muy feliz",
  "Hoy es un día soleado",
  "Esa es una persona alegre",
  ]

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, max pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

# Norm embeddings
normalized_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

# Sentence similarity
cosine_similarities = F.cosine_similarity(normalized_embeddings[0].unsqueeze(0), normalized_embeddings[1:], dim=1)

print(cosine_similarities)

📚 ドキュメント

概要

このモデルは hiiamsid/sentence_similarity_spanish_es の拡張版で、Local Sparse Global (LSG) アテンションメカニズムを用いて変換されています。LSGへの適応により、長いシーケンスを効率的に処理できるようになり、より広範な自然言語処理タスクで汎用性と堅牢性が向上しました。

LSGアーキテクチャについて

LSG (Local Sparse Global) アテンションは、Transformerモデルにおける従来の自己アテンションメカニズムの制限を緩和するために設計された最先端のアプローチです。特に、長いシーケンスの処理において、LSGアテンションは局所的、疎な、およびグローバルなアテンションを組み合わせることで、計算コストを大幅に削減しながら、モデルの性能を維持、または向上させます。

モデルの適応

このLSGバリアントは、元のモデルから適応されており、主な目的は長いテキスト入力を効率的に処理する能力を拡張することです。この拡張により、モデルは以前のベースモデルでは困難であった長いシーケンス長でも、高精度と効率を維持できるようになりました。

使用例

LSGで強化されたこのモデルは、長い文書の埋め込みに関するタスクに特に適しています。

🔧 技術詳細

このモデルは、LSG (Local Sparse Global) アテンションメカニズムを用いることで、長いシーケンスを効率的に処理できるようになりました。LSGアテンションは、局所的、疎な、およびグローバルなアテンションを組み合わせることで、計算コストを大幅に削減しながら、モデルの性能を維持、または向上させます。