mmlw - retrieval - e5 - large開源神經文本編碼器 - 優化波蘭語信息檢索，免費使用！

首頁

Mmlw Retrieval E5 Large

由sdadas開發

MMLW是面向波蘭語的神經文本編碼器，針對信息檢索任務優化，可將查詢和段落轉換為1024維向量

文本嵌入

Transformers

其他開源協議:Apache-2.0 #波蘭語檢索 #稠密向量編碼 #對比學習優化

下載量 56

發布時間 : 10/18/2023

模型概述

該模型通過多語言知識蒸餾和對比損失微調，專門用於波蘭語信息檢索任務，能將查詢和段落編碼為高維向量進行相似度計算

模型特點

多語言知識蒸餾

使用英語FlagEmbeddings作為教師模型，在6000萬條波蘭語-英語文本對上進行知識蒸餾訓練

對比損失微調

在波蘭版MS MARCO數據集上通過大批量對比學習進行微調，優化檢索性能

前綴感知編碼

通過添加'query:'和'passage:'前綴區分查詢和段落編碼，提升檢索準確性

模型能力

文本向量化

語義相似度計算

信息檢索

跨語言檢索

使用案例

搜索引擎

波蘭語文檔檢索

根據用戶查詢從波蘭語文檔庫中檢索最相關內容

在PIRB基準測試中達到NDCG@10值58.30

問答系統

波蘭語FAQ匹配

將用戶問題與常見問題庫進行語義匹配

🚀 MMLW-retrieval-e5-large

MMLW（必須有更好的消息）是用於波蘭語的神經文本編碼器。該模型針對信息檢索任務進行了優化，能夠將查詢和段落轉換為1024維的向量。

🚀 快速開始

MMLW（必須有更好的消息）是用於波蘭語的神經文本編碼器。此模型針對信息檢索任務進行了優化，可將查詢和段落轉換為1024維向量。

模型的開發採用了兩步流程：

第一步，使用多語言E5檢查點進行初始化，然後在包含6000萬對波蘭語 - 英語文本的多樣化語料庫上，運用多語言知識蒸餾方法進行訓練。我們使用英語FlagEmbeddings (BGE)作為蒸餾的教師模型。
第二步，在波蘭語MS MARCO訓練分割集上，使用對比損失對得到的模型進行微調。為了提高對比訓練的效率，我們針對小、中、大模型分別使用了1152、768和288的大批次大小。微調是在一個由12個A100 GPU組成的集群上進行的。

⚠️ 重要提示

2023 - 12 - 26：我們已將模型更新到新版本，結果有所改進。你仍然可以使用 v1 標籤下載之前的版本：AutoModel.from_pretrained("sdadas/mmlw-retrieval-e5-large", revision="v1")

✨ 主要特性

專為波蘭語設計的神經文本編碼器。
針對信息檢索任務進行優化。
可將查詢和段落轉換為1024維向量。

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "query: "
answer_prefix = "passage: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-e5-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

⚠️ 重要提示

我們的密集檢索器在編碼文本時需要使用特定的前綴和後綴。對於此模型，查詢應加上 "query: " 前綴，段落應加上 "passage: " 前綴。

📚 詳細文檔

評估結果

該模型在波蘭語信息檢索基準測試中實現了 NDCG@10 為 58.30 的成績。詳細結果請參閱PIRB排行榜。

致謝

此模型的訓練得到了格但斯克工業大學在TASK中心倡議下提供的A100 GPU集群的支持。

引用

@article{dadas2024pirb,
  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods}, 
  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
  year={2024},
  eprint={2402.13350},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}