colbertv2-camembert-L4-mmarcoFR開源模型 - 法語語義搜索，高效上下文匹配檢索

首頁

Colbertv2 Camembert L4 Mmarcofr

由antoinelouis開發

輕量級ColBERTv2模型，專為法語語義搜索設計，支持高效的上下文匹配檢索。

文本嵌入

Safetensors

法語開源協議:MIT #法語語義搜索 #輕量級ColBERTv2 #詞元級嵌入

下載量 533

發布時間 : 3/11/2024

模型概述

該模型基於ColBERTv2架構，專為法語語義搜索優化，能夠將查詢和文本段落編碼為詞元級別的嵌入矩陣，並通過MaxSim算子實現高效匹配。

模型特點

輕量級設計

參數數量僅54M，模型大小0.2GB，適合資源有限的環境部署。

高效檢索

使用MaxSim算子實現高效的上下文匹配檢索，支持大規模語料庫搜索。

法語優化

專門針對法語語義搜索進行訓練和優化，在mMARCO-fr數據集上表現優異。

殘差壓縮

採用ColBERTv2的殘差壓縮機制，顯著減少索引存儲空間需求。

模型能力

法語語義搜索

上下文匹配檢索

大規模語料庫索引

使用案例

信息檢索

文檔檢索系統

構建法語文檔檢索系統，快速找到與查詢語義匹配的文檔。

在mMARCO-fr數據集上達到91.9%的召回率@1000

問答系統

作為問答系統的檢索組件，快速找到與問題相關的候選段落。

MRR@10達到32.3

🚀 colbertv2-camembert-L4-mmarcoFR

這是一個輕量級的 ColBERTv2 模型，專為法語語義搜索而設計。它能將查詢語句和文本段落編碼成基於詞元級別的嵌入矩陣，並藉助可擴展的向量相似度（MaxSim）算子，高效地找出與查詢語句在上下文上匹配的段落。

🚀 快速開始

本模型可搭配 RAGatouille 或 colbert-ai 使用，以下是使用示例。

📦 安裝指南

使用 RAGatouille

首先，你需要安裝以下庫：

pip install -U ragatouille

使用 ColBERT-AI

首先，你需要安裝以下庫：

pip install git+https://github.com/stanford-futuredata/ColBERT.git torch faiss-gpu==1.7.2

💻 使用示例

使用 RAGatouille

from ragatouille import RAGPretrainedModel

index_name: str = "my_index" # 索引名稱，即向量數據庫的名稱
documents: list = ["Ceci est un premier document.", "Voici un second document.", "etc."] # 語料庫

# 步驟 1: 索引構建。
RAG = RAGPretrainedModel.from_pretrained("antoinelouis/colbertv2-camembert-L4-mmarcoFR")
RAG.index(name=index_name, collection=documents)

# 步驟 2: 搜索。
RAG = RAGPretrainedModel.from_index(index_name) # 如果尚未加載
RAG.search(query="Comment effectuer une recherche avec ColBERT ?", k=10)

使用 ColBERT-AI

from colbert import Indexer, Searcher
from colbert.infra import Run, RunConfig

n_gpu: int = 1 # 設置可用的 GPU 數量
experiment: str = "colbert" # 存儲日誌和創建的索引的文件夾名稱
index_name: str = "my_index" # 索引名稱，即向量數據庫的名稱
documents: list = ["Ceci est un premier document.", "Voici un second document.", "etc."] # 語料庫

# 步驟 1: 索引構建。此步驟將所有段落編碼為矩陣，存儲在磁盤上，並構建用於高效搜索的數據結構。
with Run().context(RunConfig(nranks=n_gpu,experiment=experiment)):
    indexer = Indexer(checkpoint="antoinelouis/colbertv2-camembert-L4-mmarcoFR")
    indexer.index(name=index_name, collection=documents)

# 步驟 2: 搜索。給定模型和索引，你可以對語料庫發出查詢，以檢索每個查詢的前 k 個段落。
with Run().context(RunConfig(nranks=n_gpu,experiment=experiment)):
    searcher = Searcher(index=index_name) # 無需再次指定檢查點，模型名稱已存儲在索引中。
    results = searcher.search(query="Comment effectuer une recherche avec ColBERT ?", k=10)
    # results: 長度為 k 的元組的元組，包含 ((段落 ID, 段落排名, 段落得分), ...)

📚 詳細文檔

評估

該模型在 mMARCO-fr 的較小開發集上進行評估，該開發集包含 6980 個查詢，針對 880 萬個候選段落的語料庫。我們報告了平均倒數排名（MRR）、歸一化折損累積增益（NDCG）、平均精度均值（MAP）以及不同截斷點的召回率（R@k）。

以下是該模型與其他在相同數據集上微調的公開可用法語 ColBERT 模型的性能比較。若要查看該模型與其他法語神經檢索器的比較情況，請查看 DécouvrIR 排行榜。

模型	參數數量(↓)	大小	維度	索引大小	召回率@1000	召回率@500	召回率@100	召回率@10	MRR@10
colbertv2-camembert-L4-mmarcoFR	54M	0.2GB	32	9GB	91.9	90.3	81.9	56.7	32.3
FraColBERTv2	111M	0.4GB	128	28GB	90.0	88.9	81.2	57.1	32.4
colbertv1-camembert-base-mmarcoFR	111M	0.4GB	128	28GB	89.7	88.4	80.0	54.2	29.5

注意：索引大小是指使用 ColBERTv2 的殘差壓縮機制時，mMARCO-fr 索引（880 萬個段落）在磁盤上的大小。

訓練

數據

我們使用 mMARCO 數據集中的法語訓練樣本，這是 MS MARCO 的多語言機器翻譯版本，包含 880 萬個段落和 53.9 萬個訓練查詢。我們沒有使用官方三元組提供的 BM25 負樣本，而是從 12 個不同的密集檢索器中為每個查詢採樣了 62 個更難的負樣本，使用的是 msmarco-hard-negatives 蒸餾數據集。

接下來，我們使用 cross-encoder-ms-marco-MiniLM-L-6-v2-scores 數據集，收集了一個表現力強的交叉編碼器重排器對所有（查詢，段落）對的相關性得分。最終，我們得到了 1040 萬個不同的 64 元組，形式為 [查詢，(正樣本，正樣本得分)，(負樣本 1，負樣本 1 得分)，...，(負樣本 62，負樣本 62 得分)]，用於訓練模型。

實現

該模型從 camembert-L4 檢查點初始化，並通過結合 KL 散度損失（用於將交叉編碼器得分蒸餾到模型中）和批內採樣的 softmax 交叉熵損失（應用於每個查詢的正樣本得分與同一批次中所有其他查詢對應的段落得分）進行優化（如 ColBERTv2 所述）。

該模型在一塊 80GB 的 NVIDIA H100 GPU 上進行了 32.5 萬步的微調，使用 AdamW 優化器，批量大小為 32，峰值學習率為 1e-5，在前 2 萬步進行熱身，並採用線性調度。嵌入維度設置為 32，問題和段落的最大序列長度分別固定為 32 和 160 個詞元。我們使用餘弦相似度來計算相關性得分。

📄 許可證

本項目採用 MIT 許可證。

🔗 引用

@online{louis2024decouvrir,
	author    = 'Antoine Louis',
	title     = 'DécouvrIR: A Benchmark for Evaluating the Robustness of Information Retrieval Models in French',
	publisher = 'Hugging Face',
	month     = 'mar',
	year      = '2024',
	url       = 'https://huggingface.co/spaces/antoinelouis/decouvrir',
}