E5 Large En Ru
これはintfloat/multilingual-e5-largeモデルの語彙プルーニング版で、ロシア語と英語のトークンのみを保持し、オリジナルモデルの性能を維持しています。
ダウンロード数 712
リリース時間 : 9/18/2023
モデル概要
E5-large-en-ruは多言語テキスト埋め込みモデルで、特にロシア語と英語に最適化されており、情報検索や意味的類似性計算などのタスクに適しています。
モデル特徴
語彙最適化
ロシア語と英語トークンのみを保持するプルーニングにより、モデルサイズを大幅に削減しながら性能を維持
高性能検索
SberQuADベンチマークで優れた性能を発揮し、全ての指標でオリジナルモデルと同等
マルチタスク適応
プレフィックスによる異なるタスクタイプ(クエリ/パッセージ/対称タスク)の区別をサポート
モデル能力
テキストベクトル化
意味的類似性計算
情報検索
クロスランゲージテキストマッチング
使用事例
情報検索
オープンドメインQA
質問に最も関連性の高い文書段落を検索するために使用
SberQuADテストでrecall@5が82.8%を達成
意味解析
文書類似性計算
異なる文書間の意味的類似性を比較
🚀 e5-large-en-ru
このモデルは、文章の類似度を測定するためのもので、英語とロシア語に特化して最適化されています。vocabulary pruned版のintfloat/multilingual-e5-largeをベースに、英語とロシア語のトークンのみを使用するように調整されています。
🚀 クイックスタート
このモデルを使用するには、まず必要なライブラリをインストールし、モデルをロードします。以下に基本的な使用方法を示します。
import torch.nn.functional as F
from torch import Tensor
from transformers import XLMRobertaTokenizer, XLMRobertaModel
def average_pool(last_hidden_states: Tensor, attention_mask: Tensor) -> Tensor:
last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
input_texts = [
'query: How does a corporate website differ from a business card website?',
'query: Где был создан первый троллейбус?',
'passage: The first trolleybus was created in Germany by engineer Werner von Siemens, probably influenced by the idea of his brother, Dr. Wilhelm Siemens, who lived in England, expressed on May 18, 1881 at the twenty-second meeting of the Royal Scientific Society. The electrical circuit was carried out by an eight-wheeled cart (Kontaktwagen) rolling along two parallel contact wires. The wires were located quite close to each other, and in strong winds they often overlapped, which led to short circuits. An experimental trolleybus line with a length of 540 m (591 yards), opened by Siemens & Halske in the Berlin suburb of Halensee, operated from April 29 to June 13, 1882.',
'passage: Корпоративный сайт — содержит полную информацию о компании-владельце, услугах/продукции, событиях в жизни компании. Отличается от сайта-визитки и представительского сайта полнотой представленной информации, зачастую содержит различные функциональные инструменты для работы с контентом (поиск и фильтры, календари событий, фотогалереи, корпоративные блоги, форумы). Может быть интегрирован с внутренними информационными системами компании-владельца (КИС, CRM, бухгалтерскими системами). Может содержать закрытые разделы для тех или иных групп пользователей — сотрудников, дилеров, контрагентов и пр.',
]
tokenizer = XLMRobertaTokenizer.from_pretrained('d0rj/e5-large-en-ru', use_cache=False)
model = XLMRobertaModel.from_pretrained('d0rj/e5-large-en-ru', use_cache=False)
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
outputs = model(**batch_dict)
embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
embeddings = F.normalize(embeddings, p=2, dim=1)
✨ 主な機能
- 文章の類似度を高精度に測定できます。
- 英語とロシア語に特化したモデルで、これらの言語に対する性能が向上しています。
- vocabulary pruned版であり、モデルサイズが小さく、メモリ使用量が少ないです。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
import torch.nn.functional as F
from torch import Tensor
from transformers import XLMRobertaTokenizer, XLMRobertaModel
def average_pool(last_hidden_states: Tensor, attention_mask: Tensor) -> Tensor:
last_hidden = last_hidden_states.masked_fill(~attention_mask[..., None].bool(), 0.0)
return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[..., None]
input_texts = [
'query: How does a corporate website differ from a business card website?',
'query: Где был создан первый троллейбус?',
'passage: The first trolleybus was created in Germany by engineer Werner von Siemens, probably influenced by the idea of his brother, Dr. Wilhelm Siemens, who lived in England, expressed on May 18, 1881 at the twenty-second meeting of the Royal Scientific Society. The electrical circuit was carried out by an eight-wheeled cart (Kontaktwagen) rolling along two parallel contact wires. The wires were located quite close to each other, and in strong winds they often overlapped, which led to short circuits. An experimental trolleybus line with a length of 540 m (591 yards), opened by Siemens & Halske in the Berlin suburb of Halensee, operated from April 29 to June 13, 1882.',
'passage: Корпоративный сайт — содержит полную информацию о компании-владельце, услугах/продукции, событиях в жизни компании. Отличается от сайта-визитки и представительского сайта полнотой представленной информации, зачастую содержит различные функциональные инструменты для работы с контентом (поиск и фильтры, календари событий, фотогалереи, корпоративные блоги, форумы). Может быть интегрирован с внутренними информационными системами компании-владельца (КИС, CRM, бухгалтерскими системами). Может содержать закрытые разделы для тех или иных групп пользователей — сотрудников, дилеров, контрагентов и пр.',
]
tokenizer = XLMRobertaTokenizer.from_pretrained('d0rj/e5-large-en-ru', use_cache=False)
model = XLMRobertaModel.from_pretrained('d0rj/e5-large-en-ru', use_cache=False)
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
outputs = model(**batch_dict)
embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
embeddings = F.normalize(embeddings, p=2, dim=1)
高度な使用法
- 検索にはドット積距離を使用します。
- オープンQAやアドホック情報検索などの非対称タスクでは、それぞれ「query: 」と「passage: 」を使用します。
- 意味的な類似性、バイテキストマイニング、パラフレーズ検索などの対称タスクでは、「query: 」プレフィックスを使用します。
- 埋め込みを特徴量として使用する場合(線形プロービング分類、クラスタリングなど)も、「query: 」プレフィックスを使用します。
📚 ドキュメント
モデル情報
このモデルは、intfloat/multilingual-e5-largeのvocabulary pruned版です。英語とロシア語のトークンのみを使用しています。
サイズ
属性 | 詳情 |
---|---|
モデルタイプ | e5-large-en-ru |
モデルサイズ (MB) | intfloat/multilingual-e5-large: 2135.82、d0rj/e5-large-en-ru: 1394.8 |
パラメータ数 | intfloat/multilingual-e5-large: 559,890,946、d0rj/e5-large-en-ru: 365,638,14 |
単語埋め込み次元 | intfloat/multilingual-e5-large: 256,002,048、d0rj/e5-large-en-ru: 61,749,248 |
性能
SberQuAD開発ベンチマークで同等の性能を示します。
SberQuAD (4122問) のメトリック | intfloat/multilingual-e5-large | d0rj/e5-large-en-ru |
---|---|---|
recall@3 | 0.787239204269772 | 0.7882096069868996 |
map@3 | 0.7230713245997101 | 0.723192624939351 |
mrr@3 | 0.7241630276564784 | 0.7243651948892132 |
recall@5 | 0.8277535177098496 | 0.8284813197476953 |
map@5 | 0.7301603186155587 | 0.7302573588872716 |
mrr@5 | 0.7334667637069385 | 0.7335718906679607 |
recall@10 | 0.8716642406598738 | 0.871421639980592 |
map@10 | 0.7314774917730316 | 0.7313000338687417 |
mrr@10 | 0.7392223685527911 | 0.7391814537556898 |
📄 ライセンス
このモデルは、MITライセンスの下で提供されています。
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98