PhoRanker開源模型 - 免費部署高效分類排序越南語文本

首頁

Phoranker

由itdainb開發

PhoRanker 是一個用於越南語文本排序的跨編碼器模型，能夠高效分類和排序越南語文本。

文本嵌入

Transformers

其他開源協議:Apache-2.0 #越南語文本排序 #跨編碼器模型 #高精度NDCG

下載量 4,063

發布時間 : 5/29/2024

模型概述

PhoRanker 是一個專為越南語設計的跨編碼器模型，用於文本排序任務，能夠根據相關性對文本進行高效分類和排序。

模型特點

高效文本排序

能夠快速準確地對越南語文本進行排序和分類。

跨編碼器架構

採用跨編碼器架構，能夠同時處理查詢和文檔，提高排序準確性。

高性能

在 MS MMarco Passage Reranking - Vi - Dev 數據集上表現優異，優於其他同類模型。

模型能力

越南語文本排序

文本相關性分類

高效文本處理

使用案例

信息檢索

文檔檢索

用於檢索與查詢相關的文檔，提高搜索結果的相關性。

在 MS MMarco Passage Reranking - Vi - Dev 數據集上 NDCG@10 達到 0.7422。

問答系統

答案排序

對問答系統中的候選答案進行排序，優先顯示最相關的答案。

🚀 PhoRanker：越南語文本排序跨編碼器模型

PhoRanker 是一個用於越南語文本排序的跨編碼器模型，它能對文本進行高效分類和排序，在相關任務中表現出色，可基於不同庫靈活使用。

🚀 快速開始

本項目提供了一個用於越南語文本排序的跨編碼器模型，下面將詳細介紹其安裝、預處理和使用方法。

📦 安裝指南

安裝 `VnCoreNLP` 進行分詞

pip install py_vncorenlp

安裝 `sentence-transformers`（推薦）

pip install sentence-transformers

安裝 `transformers`（可選）

pip install transformers

💻 使用示例

預處理

import py_vncorenlp
py_vncorenlp.download_model(save_dir='/absolute/path/to/vncorenlp')
rdrsegmenter = py_vncorenlp.VnCoreNLP(annotators=["wseg"], save_dir='/absolute/path/to/vncorenlp')

query = "Trường UIT là gì?"
sentences = [
    "Trường Đại học Công nghệ Thông tin có tên tiếng Anh là University of Information Technology (viết tắt là UIT) là thành viên của Đại học Quốc Gia TP.HCM.",
    "Trường Đại học Kinh tế – Luật (tiếng Anh: University of Economics and Law – UEL) là trường đại học đào tạo và nghiên cứu khối ngành kinh tế, kinh doanh và luật hàng đầu Việt Nam.",
    "Quĩ uỷ thác đầu tư (tiếng Anh: Unit Investment Trusts; viết tắt: UIT) là một công ty đầu tư mua hoặc nắm giữ một danh mục đầu tư cố định"
]

tokenized_query = rdrsegmenter.word_segment(query)
tokenized_sentences = [rdrsegmenter.word_segment(sent) for sent in sentences]

tokenized_pairs = [[tokenized_query, sent] for sent in tokenized_sentences]

MODEL_ID = 'itdainb/PhoRanker'
MAX_LENGTH = 256

使用 `sentence-transformers`

from sentence_transformers import CrossEncoder
model = CrossEncoder(MODEL_ID, max_length=MAX_LENGTH)

# For fp16 usage
model.model.half()

scores = model.predict(tokenized_pairs)

# 0.982, 0.2444, 0.9253
print(scores)

使用 `transformers`

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained(MODEL_ID)
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)

# For fp16 usage
model.half()

features = tokenizer(tokenized_pairs, padding=True, truncation="longest_first", return_tensors="pt", max_length=MAX_LENGTH)

model.eval()
with torch.no_grad():
    model_predictions = model(**features, return_dict=True)

    logits = model_predictions.logits
    logits = torch.nn.Sigmoid()(logits)
    scores = [logit[0] for logit in logits]

# 0.9819, 0.2444, 0.9253
print(scores)

📚 詳細文檔

性能表現

以下表格展示了各種預訓練的跨編碼器在 MS MMarco Passage Reranking - Vi - Dev 數據集上的性能：

模型名稱	NDCG@3	MRR@3	NDCG@5	MRR@5	NDCG@10	MRR@10	每秒處理文檔數
itdainb/PhoRanker	0.6625	0.6458	0.7147	0.6731	0.7422	0.6830	15
amberoad/bert-multilingual-passage-reranking-msmarco	0.4634	0.5233	0.5041	0.5383	0.5416	0.5523	22
kien-vu-uet/finetuned-phobert-passage-rerank-best-eval	0.0963	0.0883	0.1396	0.1131	0.1681	0.1246	15
BAAI/bge-reranker-v2-m3	0.6087	0.5841	0.6513	0.6062	0.6872	0.62091	3.51
BAAI/bge-reranker-v2-gemma	0.6088	0.5908	0.6446	0.6108	0.6785	0.6249	1.29

注意：運行時間是在配備 fp16 的 A100 GPU 上計算得出的。

支持項目

如果你覺得這個項目有用，並希望支持其持續開發，可以通過以下幾種方式提供幫助：

給倉庫加星：如果你認可這個項目，請給它加星。你的支持將鼓勵項目持續發展和改進。
貢獻代碼：歡迎貢獻代碼！你可以通過報告問題、提交拉取請求或提出新功能建議來提供幫助。
分享項目：將這個項目分享給你的同事、朋友或社區。瞭解的人越多，項目就能吸引更多的反饋和貢獻。
請我喝咖啡：如果你想提供資金支持，可以考慮進行捐贈。你可以通過以下方式捐贈：
- Momo：0948798843
- BIDV 銀行：DAINB
- Paypal：0948798843

引用

請按以下格式引用本項目：

@misc{PhoRanker,
  title={PhoRanker: A Cross-encoder Model for Vietnamese Text Ranking},
  author={Dai Nguyen Ba ({ORCID:0009-0008-8559-3154})},
  year={2024},
  publisher={Huggingface},
  journal={huggingface repository},
  howpublished={\url{https://huggingface.co/itdainb/PhoRanker}},
}