bloomz-560m-retriever-v2开源模型 - 支持英法跨语言文章与查询检索

首页

Bloomz 560m Retriever V2

由 cmarkea 开发

基于Bloomz-560m-dpo-chat模型的双编码器，用于将文章和查询映射到同一向量空间，支持法语和英语的跨语言检索。

文本嵌入

Transformers

支持多种语言开源协议:Openrail #跨语言检索 #开放域问答 #对比学习

下载量 17

发布时间 : 5/26/2024

模型简介

该模型是一个双编码器，专门设计用于开放域问答（ODQA）任务，能够将查询和相关文章映射到同一向量空间，确保查询与相关文章的邻近性。支持法语和英语的跨语言检索。

模型特点

跨语言检索

支持法语和英语的跨语言检索，无论文章是法语还是英语，任一语言的查询都能找到相关文章。

高效检索

采用余弦距离作为度量标准，显著提升检索效率。

对比学习训练

使用改进版mMARCO数据集进行对比学习训练，过滤假阴性样本并采用困难负样本策略。

模型能力

特征提取

跨语言检索

开放域问答

使用案例

信息检索

开放域问答

用于开放域问答系统，快速检索相关文章以回答问题。

在SQuAD测试集上表现优异，Top-1准确率达68%（法/法）和66.6%（英/法）。

跨语言文档检索

支持法语和英语之间的跨语言文档检索。

在跨语言检索任务中表现优于传统BM25和CamemBERT等模型。

🚀 Bloomz-560m-retriever-v2

Bloomz-560m-retriever-v2 是一个基于 Bloomz-560m-dpo-chat 模型的双向编码器。它能将文章和查询投影到同一向量空间，确保查询与相关文章的接近性。该模型支持法语和英语，无论查询和文章使用哪种语言，都能实现良好的匹配。此模型非常适合开放领域问答（ODQA）任务，还可与 Bloomz-560m-reranking 或 Bloomz-3b-reranking 重排器配合使用。

🚀 快速开始

本部分将为你介绍 Bloomz-560m-retriever-v2 模型的使用方法，包括使用 Transformers API 和 Pipeline API 进行推理的代码示例。

✨ 主要特性

跨语言支持：支持法语和英语，无论查询和文章使用哪种语言，都能实现良好的匹配。
高效检索：使用余弦距离作为度量标准，相比之前的 L2 距离，效率更高。
适用于开放领域问答：非常适合开放领域问答（ODQA）任务，可与重排器配合使用。

📚 详细文档

模型介绍

我们推出了 Bloomz-560m-retriever-v2 模型，它基于 Bloomz-560m-dpo-chat 模型构建。这个双向编码器可以将文章和查询投影到同一个向量空间中，从而保证查询与相关文章在向量空间中的接近性。该模型对法语和英语具有语言无关性，也就是说，无论查询使用的是法语还是英语，它都能与对应的文章在向量空间中保持接近。此模型非常适合用于开放领域问答（ODQA）任务，并且可以与 Bloomz-560m-reranking 或 Bloomz-3b-reranking 重排器结合使用。

训练过程

训练使用的数据集是 mMARCO 的一个变体，它支持对比学习并能过滤掉假阴性样本。过滤阈值设置为 0.8，每个正样本会与 10 个难负样本进行对比，这些难负样本按照得分降序排列（即 10 个最难的负样本）。模型在语言的均匀分布上进行训练（1/4 法语 - 法语、1/4 法语 - 英语、1/4 英语 - 法语、1/4 英语 - 英语）。学习目标采用 InfoNCE 类型，并带有一个可训练的温度参数，这与 CLIP 模型的设置类似。

注意事项

与 Bloomz-560m-retriever 不同，这个模型效率更高，它使用余弦距离作为度量标准（之前使用的是 L2 距离）。

基准测试

性能评估基于 SQuAD 的评估部分（涵盖 35 个不同主题的 1204 篇文章中的 5921 个查询）。这个数据集的一个有趣特点是，一个主题可能关联多篇文章，这代表了一种具有挑战性的上下文，即一个查询可能与多篇相关文章接近。平均每个主题大约有三十篇文章（具体分布可参考 Bloomz-560m-reranking）。

我们使用查询目标文章的平均排名（Top-mean）、排名的标准差（Top-std）、Top-1、Top-5 和 Top-10 中正确文章的百分比，以及 1204 篇文章的平均倒数排名（MRR）来比较不同模型的性能。

模型 (FR/FR)	平均排名 (Top-mean)	排名标准差 (Top-std)	Top-1 (%)	Top-5 (%)	Top-10 (%)	平均倒数排名 (MRR) (%)
BM25	16.8	100.8	71.7	88.3	91.8	79.2
CamemBERT	269.6	303.0	5.6	12.5	16.5	9.7
STS-CamemBERT	23.1	85.5	36.0	63.0	74.0	48.5
Sentence-BERT	10.2	40.1	43.9	73.9	84.0	57.3
E5-base	6.1	29.7	59.9	84.9	91.0	71.1
E5-large	5.2	29.2	67.0	89.2	93.7	76.7
Bloomz-560m-retriever	10.2	46.6	51.5	78.1	86.2	63.5
Bloomz-3b-retriever	8.8	36.4	49.2	77.5	86.1	62.0
Bloomz-560m-retriever-v2	4.0	17.1	68.0	89.9	94.4	77.7
Bloomz-3b-retriever-v2	2.8	14.8	76.5	94.4	97.2	84.4

模型 (EN/FR)	平均排名 (Top-mean)	排名标准差 (Top-std)	Top-1 (%)	Top-5 (%)	Top-10 (%)	平均倒数排名 (MRR) (%)
BM25	280.7	371.8	23.9	37.4	43.3	30.4
CamemBERT	355.0	328.3	0.9	3.7	6.4	3.13
STS-CamemBERT	102.2	196.9	13.1	30.5	40.7	22.1
Sentence-BERT	10.6	41.2	43.3	72.4	82.7	56.5
E5-base	9.9	38.1	49.8	77.2	85.4	62.6
E5-large	5.6	26.9	62.9	86.9	92.5	73.8
Bloomz-560m-retriever	11.0	47.8	48.3	75.7	84.7	60.4
Bloomz-3b-retriever	8.9	37.6	48.8	77.4	86.1	61.6
Bloomz-560m-retriever-v2	4.4	18.9	66.6	89.3	94.1	76.6
Bloomz-3b-retriever-v2	2.7	14.2	75.7	94.5	97.1	83.9

💻 使用示例

基础用法

使用 Transformers API

from typing import Union, List

import numpy as np
import torch
from transformers import AutoTokenizer, AutoModel
from scipy.spatial.distance import cdist

tokenizer = AutoTokenizer.from_pretrained('cmarkea/bloomz-560m-retriever-v2')
model = AutoModel.from_pretrained('cmarkea/bloomz-560m-retriever-v2')

def infer(txt: Union[str, List[str]]):
    tok = tokenizer(txt, padding=True, return_tensors='pt')
    with torch.inference_mode():
        embedding = model(**tok)
    # Inportant: take only last token!
    return embedding.get('last_hidden_state')[:,-1,:].numpy()

list_of_contexts: List[str] = [...]
emb_contexts = infer(list_of_contexts)
list_of_queries: List[str] = [...]
emb_queries = infer(list_of_queries)

# Important: take cosine distance!
dist = cdist(emb_queries, emb_contexts, 'cosine')
top_k = lambda x: [
    [list_of_contexts[qq] for qq in ii]
    for ii in dist.argsort(axis=-1)[:,:x]
]

# top 5 nearest contexts for each queries
top_contexts = top_k(5)

使用 Pipeline API

import numpy as np
from transformers import pipeline
from scipy.spatial.distance import cdist

retriever = pipeline('feature-extraction', 'cmarkea/bloomz-560m-retriever-v2')

# Inportant: take only last token!
infer = lambda x: [np.array(ii[0][-1]).reshape(1,-1) for ii in retriever(x)]

list_of_contexts: List[str] = [...]
emb_contexts = np.concatenate(infer(list_of_contexts), axis=0)
list_of_queries: List[str] = [...]
emb_queries = np.concatenate(infer(list_of_queries), axis=0)

# Important: take cosine distance!
dist = cdist(emb_queries, emb_contexts, 'cosine')
top_k = lambda x: [
    [list_of_contexts[qq] for qq in ii]
    for ii in dist.argsort(axis=-1)[:,:x]
]

# top 5 nearest contexts for each queries
top_contexts = top_k(5)

📄 许可证

本模型使用的许可证为 bigscience-bloom-rail-1.0。

📖 引用

@online{DeBloomzRetv2,
  AUTHOR = {Cyrile Delestre},
  ORGANIZATION = {Cr{\'e}dit Mutuel Ark{\'e}a},
  URL = {https://huggingface.co/cmarkea/bloomz-560m-retriever-v2},
  YEAR = {2024},
  KEYWORDS = {NLP ; Transformers ; LLM ; Bloomz},
}