PhoRankerオープンソースモデル - 無料でデプロイ可能な効率的なベトナム語テキスト分類とソート

ホーム

Phoranker

itdainbによって開発

PhoRankerは、ベトナム語テキストのソートに使用されるクロスエンコーダーモデルで、ベトナム語テキストを効率的に分類およびソートすることができます。

テキスト埋め込み

Transformers

その他オープンソースライセンス:Apache-2.0 #ベトナム語テキストのソート #クロスエンコーダーモデル #高精度NDCG

ダウンロード数 4,063

リリース時間 : 5/29/2024

モデル概要

PhoRankerは、ベトナム語用に設計されたクロスエンコーダーモデルで、テキストのソートタスクに使用され、関連性に基づいてテキストを効率的に分類およびソートすることができます。

モデル特徴

効率的なテキストソート

ベトナム語テキストを迅速かつ正確にソートおよび分類することができます。

クロスエンコーダーアーキテクチャ

クロスエンコーダーアーキテクチャを採用し、クエリとドキュメントを同時に処理して、ソートの精度を向上させます。

高性能

MS MMarco Passage Reranking - Vi - Devデータセットで優れた性能を発揮し、他の同類のモデルよりも優れています。

モデル能力

ベトナム語テキストのソート

テキストの関連性分類

効率的なテキスト処理

使用事例

情報検索

ドキュメント検索

クエリに関連するドキュメントを検索するために使用され、検索結果の関連性を向上させます。

MS MMarco Passage Reranking - Vi - DevデータセットでNDCG@10が0.7422に達します。

質問応答システム

回答のソート

質問応答システムの候補回答をソートし、最も関連性の高い回答を優先的に表示します。

🚀 PhoRanker：ベトナム語テキストソート用クロスエンコーダーモデル

PhoRankerは、ベトナム語テキストのソートに使用されるクロスエンコーダーモデルです。このモデルは、テキストの分類とソートを効率的に行い、関連タスクで優れた性能を発揮します。また、さまざまなライブラリを使って柔軟に利用することができます。

🚀 クイックスタート

このプロジェクトでは、ベトナム語テキストのソートに使用するクロスエンコーダーモデルを提供しています。以下では、そのインストール、前処理、および使用方法について詳しく説明します。

📦 インストール

`VnCoreNLP` をインストールして形態素解析を行う

pip install py_vncorenlp

`sentence-transformers` をインストールする（推奨）

pip install sentence-transformers

`transformers` をインストールする（オプション）

pip install transformers

💻 使用例

基本的な使用法

import py_vncorenlp
py_vncorenlp.download_model(save_dir='/absolute/path/to/vncorenlp')
rdrsegmenter = py_vncorenlp.VnCoreNLP(annotators=["wseg"], save_dir='/absolute/path/to/vncorenlp')

query = "Trường UIT là gì?"
sentences = [
    "Trường Đại học Công nghệ Thông tin có tên tiếng Anh là University of Information Technology (viết tắt là UIT) là thành viên của Đại học Quốc Gia TP.HCM.",
    "Trường Đại học Kinh tế – Luật (tiếng Anh: University of Economics and Law – UEL) là trường đại học đào tạo và nghiên cứu khối ngành kinh tế, kinh doanh và luật hàng đầu Việt Nam.",
    "Quĩ uỷ thác đầu tư (tiếng Anh: Unit Investment Trusts; viết tắt: UIT) là một công ty đầu tư mua hoặc nắm giữ một danh mục đầu tư cố định"
]

tokenized_query = rdrsegmenter.word_segment(query)
tokenized_sentences = [rdrsegmenter.word_segment(sent) for sent in sentences]

tokenized_pairs = [[tokenized_query, sent] for sent in tokenized_sentences]

MODEL_ID = 'itdainb/PhoRanker'
MAX_LENGTH = 256

高度な使用法

`sentence-transformers` を使用する

from sentence_transformers import CrossEncoder
model = CrossEncoder(MODEL_ID, max_length=MAX_LENGTH)

# For fp16 usage
model.model.half()

scores = model.predict(tokenized_pairs)

# 0.982, 0.2444, 0.9253
print(scores)

`transformers` を使用する

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained(MODEL_ID)
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)

# For fp16 usage
model.half()

features = tokenizer(tokenized_pairs, padding=True, truncation="longest_first", return_tensors="pt", max_length=MAX_LENGTH)

model.eval()
with torch.no_grad():
    model_predictions = model(**features, return_dict=True)

    logits = model_predictions.logits
    logits = torch.nn.Sigmoid()(logits)
    scores = [logit[0] for logit in logits]

# 0.9819, 0.2444, 0.9253
print(scores)

📚 ドキュメント

性能

以下の表は、MS MMarco Passage Reranking - Vi - Dev データセットでのさまざまな事前学習済みクロスエンコーダーの性能を示しています。

モデル名	NDCG@3	MRR@3	NDCG@5	MRR@5	NDCG@10	MRR@10	1秒あたりの処理文書数
itdainb/PhoRanker	0.6625	0.6458	0.7147	0.6731	0.7422	0.6830	15
amberoad/bert-multilingual-passage-reranking-msmarco	0.4634	0.5233	0.5041	0.5383	0.5416	0.5523	22
kien-vu-uet/finetuned-phobert-passage-rerank-best-eval	0.0963	0.0883	0.1396	0.1131	0.1681	0.1246	15
BAAI/bge-reranker-v2-m3	0.6087	0.5841	0.6513	0.6062	0.6872	0.62091	3.51
BAAI/bge-reranker-v2-gemma	0.6088	0.5908	0.6446	0.6108	0.6785	0.6249	1.29

注意：実行時間は、fp16 を搭載した A100 GPU で計算されています。

プロジェクトのサポート

このプロジェクトが役に立ったと感じ、開発の継続をサポートしたい場合は、以下の方法で支援することができます。

リポジトリにスターを付ける：このプロジェクトを認めていただける場合は、スターを付けてください。あなたの支援が、プロジェクトの継続的な発展と改善につながります。
コードを貢献する：コードの貢献を歓迎します！問題の報告、プルリクエストの提出、または新機能の提案などで支援することができます。
プロジェクトを共有する：このプロジェクトを同僚、友人、またはコミュニティに共有してください。知っている人が増えるほど、プロジェクトはより多くのフィードバックと貢献を得ることができます。
コーヒーを請ぶ：資金的な支援をしたい場合は、寄付を検討してください。以下の方法で寄付することができます。
- Momo：0948798843
- BIDV銀行：DAINB
- Paypal：0948798843

引用

このプロジェクトを引用する場合は、以下の形式で行ってください。

@misc{PhoRanker,
  title={PhoRanker: A Cross-encoder Model for Vietnamese Text Ranking},
  author={Dai Nguyen Ba ({ORCID:0009-0008-8559-3154})},
  year={2024},
  publisher={Huggingface},
  journal={huggingface repository},
  howpublished={\url{https://huggingface.co/itdainb/PhoRanker}},
}