mmlw-roberta-base開源波蘭語模型 - 免費實現句子相似度計算及特徵提取

首頁

Mmlw Roberta Base

由sdadas開發

基於RoBERTa架構的波蘭語句子嵌入模型，專注於句子相似度計算和特徵提取任務。

文本嵌入

Transformers

其他開源協議:Apache-2.0 #波蘭語句子相似度 #多任務評估 #文本檢索優化

下載量 106.30k

發布時間 : 11/17/2023

模型概述

該模型是基於RoBERTa架構的波蘭語預訓練模型，主要用於句子相似度計算、特徵提取和相關自然語言處理任務。在MTEB（Massive Text Embedding Benchmark）波蘭語基準測試中展現了多項能力。

模型特點

波蘭語優化

專門針對波蘭語文本進行優化，在波蘭語NLP任務中表現優異。

多功能句子嵌入

能夠生成高質量的句子嵌入表示，適用於多種下游任務。

MTEB基準測試驗證

在多個MTEB波蘭語基準測試任務中進行了全面評估。

模型能力

句子相似度計算

文本特徵提取

文本聚類

文本分類

信息檢索

語義文本相似度評估

使用案例

文本分析

評論分類

對波蘭語產品評論進行情感或主題分類

在AllegroReviews數據集上達到40.26%準確率

信息檢索

文檔檢索

波蘭語文檔相似性搜索和檢索

在DBPedia-PL數據集上達到25.24%的map@1000

語義分析

語義相似度評估

評估波蘭語句子對的語義相似度

在CDSC-R數據集上達到92.55的Spearman相關係數

🚀 MMLW-roberta-base

MMLW（必須有更好的消息）是用於波蘭語的神經文本編碼器。這是一個蒸餾模型，可用於生成適用於許多任務的嵌入，如語義相似度、聚類、信息檢索等。該模型也可作為進一步微調的基礎。它能將文本轉換為768維的向量。

該模型使用波蘭語RoBERTa檢查點進行初始化，然後在包含6000萬對波蘭語 - 英語文本的多樣化語料庫上，採用多語言知識蒸餾方法進行訓練。我們使用英語FlagEmbeddings (BGE)作為蒸餾的教師模型。

🚀 快速開始

安裝依賴

你可以使用以下命令安裝sentence-transformers庫：

pip install sentence-transformers

代碼示例

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-roberta-base")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

注意事項

⚠️ 重要提示

我們的嵌入模型在編碼文本時需要使用特定的前綴和後綴。對於此模型，每個查詢前面都應加上前綴 "zapytanie: "。

✨ 主要特性

可用於生成適用於多種任務的嵌入，如語義相似度、聚類、信息檢索等。
作為蒸餾模型，可作為進一步微調的基礎。
將文本轉換為768維的向量。

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-roberta-base")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

📚 詳細文檔

評估結果

該模型在波蘭大規模文本嵌入基準測試（MTEB）中達到了61.05的平均得分。詳細結果請參見MTEB排行榜。
該模型在波蘭信息檢索基準測試中達到了53.60的NDCG@10。詳細結果請參見PIRB排行榜。

致謝

該模型在格但斯克工業大學TASK中心倡議提供的A100 GPU集群支持下進行訓練。

引用

@article{dadas2024pirb,
  title={{PIRB}: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods}, 
  author={Sławomir Dadas and Michał Perełkiewicz and Rafał Poświata},
  year={2024},
  eprint={2402.13350},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}