bloomz - 560m - retriever - v2オープンソースモデル - 英仏語間のクロス言語記事とクエリ検索をサポート

ホーム

Bloomz 560m Retriever V2

cmarkeaによって開発

Bloomz-560m-dpo-chatモデルを基にしたデュアルエンコーダで、記事とクエリを同一のベクトル空間にマッピングし、フランス語と英語の多言語検索をサポートします。

テキスト埋め込み

Transformers

複数言語対応オープンソースライセンス:Openrail #多言語検索 #オープンドメイン質問応答 #対照学習

ダウンロード数 17

リリース時間 : 5/26/2024

モデル概要

このモデルはオープンドメイン質問応答（ODQA）タスク向けに特別設計されたデュアルエンコーダで、クエリと関連記事を同一のベクトル空間にマッピングし、クエリと関連記事の近接性を確保します。フランス語と英語の多言語検索をサポートします。

モデル特徴

多言語検索

フランス語と英語の多言語検索をサポートし、記事がフランス語でも英語でも、どちらの言語のクエリでも関連記事を見つけられます。

効率的な検索

コサイン距離を指標として採用し、検索効率を大幅に向上させます。

対照学習トレーニング

改良版mMARCOデータセットを使用した対照学習トレーニングを実施し、偽陰性サンプルをフィルタリングして困難な負例戦略を採用しています。

モデル能力

特徴量抽出

多言語検索

オープンドメイン質問応答

使用事例

情報検索

オープンドメイン質問応答

オープンドメイン質問応答システムで、質問に答えるための関連記事を迅速に検索します。

SQuADテストセットで優れた性能を発揮し、Top-1精度は68%（仏/仏）と66.6%（英/仏）を達成しました。

多言語ドキュメント検索

フランス語と英語間の多言語ドキュメント検索をサポートします。

多言語検索タスクにおいて、従来のBM25やCamemBERTなどのモデルを上回る性能を示しました。

🚀 Bloomz-560m-retriever-v2

このモデルは、文章とクエリを同じベクトル空間に投影し、関連する文章にクエリを近づけます。フランス語と英語に対応しており、どちらの言語でも効果的に動作します。Open Domain Question Answering (ODQA) に最適で、特定のリランカーと組み合わせることができます。

🚀 クイックスタート

このセクションでは、Bloomz-560m-retriever-v2 モデルの概要を説明します。

✨ 主な機能

文章とクエリを同じベクトル空間に投影し、関連する文章にクエリを近づけます。
フランス語と英語に対応しており、言語に依存せずに効果的に動作します。
Open Domain Question Answering (ODQA) に最適です。
Bloomz-560m-reranking や Bloomz-3b-reranking などのリランカーと組み合わせることができます。

📦 インストール

このREADMEにはインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from typing import Union, List

import numpy as np
import torch
from transformers import AutoTokenizer, AutoModel
from scipy.spatial.distance import cdist

tokenizer = AutoTokenizer.from_pretrained('cmarkea/bloomz-560m-retriever-v2')
model = AutoModel.from_pretrained('cmarkea/bloomz-560m-retriever-v2')

def infer(txt: Union[str, List[str]]):
    tok = tokenizer(txt, padding=True, return_tensors='pt')
    with torch.inference_mode():
        embedding = model(**tok)
    # Inportant: take only last token!
    return embedding.get('last_hidden_state')[:,-1,:].numpy()

list_of_contexts: List[str] = [...]
emb_contexts = infer(list_of_contexts)
list_of_queries: List[str] = [...]
emb_queries = infer(list_of_queries)

# Important: take cosine distance!
dist = cdist(emb_queries, emb_contexts, 'cosine')
top_k = lambda x: [
    [list_of_contexts[qq] for qq in ii]
    for ii in dist.argsort(axis=-1)[:,:x]
]

# top 5 nearest contexts for each queries
top_contexts = top_k(5)

高度な使用法

import numpy as np
from transformers import pipeline
from scipy.spatial.distance import cdist

retriever = pipeline('feature-extraction', 'cmarkea/bloomz-560m-retriever-v2')

# Inportant: take only last token!
infer = lambda x: [np.array(ii[0][-1]).reshape(1,-1) for ii in retriever(x)]

list_of_contexts: List[str] = [...]
emb_contexts = np.concatenate(infer(list_of_contexts), axis=0)
list_of_queries: List[str] = [...]
emb_queries = np.concatenate(infer(list_of_queries), axis=0)

# Important: take cosine distance!
dist = cdist(emb_queries, emb_contexts, 'cosine')
top_k = lambda x: [
    [list_of_contexts[qq] for qq in ii]
    for ii in dist.argsort(axis=-1)[:,:x]
]

# top 5 nearest contexts for each queries
top_contexts = top_k(5)

📚 ドキュメント

概要

Bloomz-560m-retriever-v2 モデルは、Bloomz-560m-dpo-chat モデルをベースに構築されています。このバイエンコーダは、文章とクエリを同じベクトル空間に投影し、関連する文章にクエリを近づけます。フランス語と英語に対応しており、どちらの言語でも効果的に動作します。

学習

学習データセットには、mMARCO の変種が使用されており、コントラスト学習を可能にし、誤った負例を除外します。フィルタリングの閾値は0.8に設定され、正例は10個のハードな負例と対比されます。モデルは、言語の均一分布 (1/4 フランス語 - フランス語、1/4 フランス語 - 英語、1/4 英語 - フランス語、1/4 英語 - 英語) で学習されました。学習目標は、CLIP モデルで提示されたような、学習可能な温度パラメータを持つ InfoNCE 型です。

注意事項

Bloomz-560m-retriever とは異なり、このモデルはコサイン距離をメトリックとして使用しており、以前のように L2 距離を使用していません。これにより、より効率的な検索が可能になります。

ベンチマーク

パフォーマンス評価は、SQuAD の評価部分 (35の異なるトピックにまたがる1204の文章に対する5921のクエリ) に基づいて行われました。このデータセットの興味深い点は、単一のテーマに複数の文章が関連付けられており、クエリがいくつかの関連する文章に近いという難しいコンテキストを表していることです。平均すると、テーマごとに約30の文章があります (正確な分布については、Bloomz-560m-reranking を参照)。

評価指標としては、クエリが対象とする文章の平均トップランク (Top-mean)、トップランクの標準偏差 (Top-std)、Top-1、Top-5、および Top-10 内の正しい文章の割合、そして1204の文章全体の平均逆順位 (MRR) が使用されました。

モデル (FR/FR)	平均トップランク	トップランクの標準偏差	Top-1 (%)	Top-5 (%)	Top-10 (%)	MRR (%)
BM25	16.8	100.8	71.7	88.3	91.8	79.2
CamemBERT	269.6	303.0	5.6	12.5	16.5	9.7
STS-CamemBERT	23.1	85.5	36.0	63.0	74.0	48.5
Sentence-BERT	10.2	40.1	43.9	73.9	84.0	57.3
E5-base	6.1	29.7	59.9	84.9	91.0	71.1
E5-large	5.2	29.2	67.0	89.2	93.7	76.7
Bloomz-560m-retriever	10.2	46.6	51.5	78.1	86.2	63.5
Bloomz-3b-retriever	8.8	36.4	49.2	77.5	86.1	62.0
Bloomz-560m-retriever-v2	4.0	17.1	68.0	89.9	94.4	77.7
Bloomz-3b-retriever-v2	2.8	14.8	76.5	94.4	97.2	84.4

モデル (EN/FR)	平均トップランク	トップランクの標準偏差	Top-1 (%)	Top-5 (%)	Top-10 (%)	MRR (%)
BM25	280.7	371.8	23.9	37.4	43.3	30.4
CamemBERT	355.0	328.3	0.9	3.7	6.4	3.13
STS-CamemBERT	102.2	196.9	13.1	30.5	40.7	22.1
Sentence-BERT	10.6	41.2	43.3	72.4	82.7	56.5
E5-base	9.9	38.1	49.8	77.2	85.4	62.6
E5-large	5.6	26.9	62.9	86.9	92.5	73.8
Bloomz-560m-retriever	11.0	47.8	48.3	75.7	84.7	60.4
Bloomz-3b-retriever	8.9	37.6	48.8	77.4	86.1	61.6
Bloomz-560m-retriever-v2	4.4	18.9	66.6	89.3	94.1	76.6
Bloomz-3b-retriever-v2	2.7	14.2	75.7	94.5	97.1	83.9

🔧 技術詳細

このモデルは、文章とクエリを同じベクトル空間に投影するバイエンコーダです。コントラスト学習を使用して、関連する文章にクエリを近づけるように訓練されています。学習データセットには、誤った負例を除外するためのフィルタリングが適用されています。コサイン距離をメトリックとして使用することで、より効率的な検索が可能になります。

📄 ライセンス

このモデルは、bigscience-bloom-rail-1.0 ライセンスの下で提供されています。

引用

@online{DeBloomzRetv2,
  AUTHOR = {Cyrile Delestre},
  ORGANIZATION = {Cr{\'e}dit Mutuel Ark{\'e}a},
  URL = {https://huggingface.co/cmarkea/bloomz-560m-retriever-v2},
  YEAR = {2024},
  KEYWORDS = {NLP ; Transformers ; LLM ; Bloomz},
}