colbertv2-camembert-L4-mmarcoFR开源模型 - 法语语义搜索，高效上下文匹配检索

首页

Colbertv2 Camembert L4 Mmarcofr

由 antoinelouis 开发

轻量级ColBERTv2模型，专为法语语义搜索设计，支持高效的上下文匹配检索。

文本嵌入

Safetensors

法语开源协议:MIT #法语语义搜索 #轻量级ColBERTv2 #词元级嵌入

下载量 533

发布时间 : 3/11/2024

模型简介

该模型基于ColBERTv2架构，专为法语语义搜索优化，能够将查询和文本段落编码为词元级别的嵌入矩阵，并通过MaxSim算子实现高效匹配。

模型特点

轻量级设计

参数数量仅54M，模型大小0.2GB，适合资源有限的环境部署。

高效检索

使用MaxSim算子实现高效的上下文匹配检索，支持大规模语料库搜索。

法语优化

专门针对法语语义搜索进行训练和优化，在mMARCO-fr数据集上表现优异。

残差压缩

采用ColBERTv2的残差压缩机制，显著减少索引存储空间需求。

模型能力

法语语义搜索

上下文匹配检索

大规模语料库索引

使用案例

信息检索

文档检索系统

构建法语文档检索系统，快速找到与查询语义匹配的文档。

在mMARCO-fr数据集上达到91.9%的召回率@1000

问答系统

作为问答系统的检索组件，快速找到与问题相关的候选段落。

MRR@10达到32.3

🚀 colbertv2-camembert-L4-mmarcoFR

这是一个轻量级的 ColBERTv2 模型，专为法语语义搜索而设计。它能将查询语句和文本段落编码成基于词元级别的嵌入矩阵，并借助可扩展的向量相似度（MaxSim）算子，高效地找出与查询语句在上下文上匹配的段落。

🚀 快速开始

本模型可搭配 RAGatouille 或 colbert-ai 使用，以下是使用示例。

📦 安装指南

使用 RAGatouille

首先，你需要安装以下库：

pip install -U ragatouille

使用 ColBERT-AI

首先，你需要安装以下库：

pip install git+https://github.com/stanford-futuredata/ColBERT.git torch faiss-gpu==1.7.2

💻 使用示例

使用 RAGatouille

from ragatouille import RAGPretrainedModel

index_name: str = "my_index" # 索引名称，即向量数据库的名称
documents: list = ["Ceci est un premier document.", "Voici un second document.", "etc."] # 语料库

# 步骤 1: 索引构建。
RAG = RAGPretrainedModel.from_pretrained("antoinelouis/colbertv2-camembert-L4-mmarcoFR")
RAG.index(name=index_name, collection=documents)

# 步骤 2: 搜索。
RAG = RAGPretrainedModel.from_index(index_name) # 如果尚未加载
RAG.search(query="Comment effectuer une recherche avec ColBERT ?", k=10)

使用 ColBERT-AI

from colbert import Indexer, Searcher
from colbert.infra import Run, RunConfig

n_gpu: int = 1 # 设置可用的 GPU 数量
experiment: str = "colbert" # 存储日志和创建的索引的文件夹名称
index_name: str = "my_index" # 索引名称，即向量数据库的名称
documents: list = ["Ceci est un premier document.", "Voici un second document.", "etc."] # 语料库

# 步骤 1: 索引构建。此步骤将所有段落编码为矩阵，存储在磁盘上，并构建用于高效搜索的数据结构。
with Run().context(RunConfig(nranks=n_gpu,experiment=experiment)):
    indexer = Indexer(checkpoint="antoinelouis/colbertv2-camembert-L4-mmarcoFR")
    indexer.index(name=index_name, collection=documents)

# 步骤 2: 搜索。给定模型和索引，你可以对语料库发出查询，以检索每个查询的前 k 个段落。
with Run().context(RunConfig(nranks=n_gpu,experiment=experiment)):
    searcher = Searcher(index=index_name) # 无需再次指定检查点，模型名称已存储在索引中。
    results = searcher.search(query="Comment effectuer une recherche avec ColBERT ?", k=10)
    # results: 长度为 k 的元组的元组，包含 ((段落 ID, 段落排名, 段落得分), ...)

📚 详细文档

评估

该模型在 mMARCO-fr 的较小开发集上进行评估，该开发集包含 6980 个查询，针对 880 万个候选段落的语料库。我们报告了平均倒数排名（MRR）、归一化折损累积增益（NDCG）、平均精度均值（MAP）以及不同截断点的召回率（R@k）。

以下是该模型与其他在相同数据集上微调的公开可用法语 ColBERT 模型的性能比较。若要查看该模型与其他法语神经检索器的比较情况，请查看 DécouvrIR 排行榜。

模型	参数数量(↓)	大小	维度	索引大小	召回率@1000	召回率@500	召回率@100	召回率@10	MRR@10
colbertv2-camembert-L4-mmarcoFR	54M	0.2GB	32	9GB	91.9	90.3	81.9	56.7	32.3
FraColBERTv2	111M	0.4GB	128	28GB	90.0	88.9	81.2	57.1	32.4
colbertv1-camembert-base-mmarcoFR	111M	0.4GB	128	28GB	89.7	88.4	80.0	54.2	29.5

注意：索引大小是指使用 ColBERTv2 的残差压缩机制时，mMARCO-fr 索引（880 万个段落）在磁盘上的大小。

训练

数据

我们使用 mMARCO 数据集中的法语训练样本，这是 MS MARCO 的多语言机器翻译版本，包含 880 万个段落和 53.9 万个训练查询。我们没有使用官方三元组提供的 BM25 负样本，而是从 12 个不同的密集检索器中为每个查询采样了 62 个更难的负样本，使用的是 msmarco-hard-negatives 蒸馏数据集。

接下来，我们使用 cross-encoder-ms-marco-MiniLM-L-6-v2-scores 数据集，收集了一个表现力强的交叉编码器重排器对所有（查询，段落）对的相关性得分。最终，我们得到了 1040 万个不同的 64 元组，形式为 [查询，(正样本，正样本得分)，(负样本 1，负样本 1 得分)，...，(负样本 62，负样本 62 得分)]，用于训练模型。

实现

该模型从 camembert-L4 检查点初始化，并通过结合 KL 散度损失（用于将交叉编码器得分蒸馏到模型中）和批内采样的 softmax 交叉熵损失（应用于每个查询的正样本得分与同一批次中所有其他查询对应的段落得分）进行优化（如 ColBERTv2 所述）。

该模型在一块 80GB 的 NVIDIA H100 GPU 上进行了 32.5 万步的微调，使用 AdamW 优化器，批量大小为 32，峰值学习率为 1e-5，在前 2 万步进行热身，并采用线性调度。嵌入维度设置为 32，问题和段落的最大序列长度分别固定为 32 和 160 个词元。我们使用余弦相似度来计算相关性得分。

📄 许可证

本项目采用 MIT 许可证。

🔗 引用

@online{louis2024decouvrir,
	author    = 'Antoine Louis',
	title     = 'DécouvrIR: A Benchmark for Evaluating the Robustness of Information Retrieval Models in French',
	publisher = 'Hugging Face',
	month     = 'mar',
	year      = '2024',
	url       = 'https://huggingface.co/spaces/antoinelouis/decouvrir',
}