PEG
モデル概要
モデル特徴
モデル能力
使用事例
🚀 PEG: 段階的学習による堅牢なテキスト検索の実現
PEGモデルは、段階的に学習するテキスト埋め込み(Progressively Learned Textual Embedding)を提案します。このモデルは、非常に大きなバッチ内で損失に寄与するサンプルの重みを、負のサンプルの難易度に基づいて段階的に調整します。また、一般知識、金融、観光、医学など幅広い分野にまたがる1億1000万以上のデータを収集しています。
🚀 クイックスタート
PEGモデルは、段階的学習に基づいて、負のサンプルの難易度に応じて損失へのサンプルの重みを調整することで、堅牢なテキスト検索を実現します。広範な分野のデータを用いて訓練されています。
✨ 主な機能
- 段階的学習に基づく重み調整により、堅牢なテキスト検索を実現。
- 1億1000万以上の多様な分野のデータで訓練。
📦 インストール
Transformersライブラリをインストールします。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModel, AutoTokenizer
import torch
# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('TownsWu/PEG')
model = AutoModel.from_pretrained('TownsWu/PEG')
sentences = ['如何更换花呗绑定银行卡', '花呗更改绑定银行卡']
# Tokenize sentences
inputs = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Compute token embeddings
with torch.no_grad():
last_hidden_state = model(**inputs, return_dict=True).last_hidden_state
embeddings = last_hidden_state[:, 0]
print("embeddings:")
print(embeddings)
📚 ドキュメント
モデル詳細
PEGモデル(段階的に学習するテキスト埋め込み)は、極めて大きなバッチ内で、負のサンプルの難易度に基づいて、損失に寄与するサンプルの重みを段階的に調整します。一般知識、金融、観光、医学など幅広い分野にまたがる1億1000万以上のデータを収集しています。
技術レポートはこちらから入手できます。
モデルの性能指標
| タスク | データセット | MAP | MRR | MAP@1 | MAP@10 | MAP@100 | MAP@1000 | MAP@3 | MAP@5 | MRR@1 | MRR@10 | MRR@100 | MRR@1000 | MRR@3 | MRR@5 | NDCG@1 | NDCG@10 | NDCG@100 | NDCG@1000 | NDCG@3 | NDCG@5 | Precision@1 | Precision@10 | Precision@100 | Precision@1000 | Precision@3 | Precision@5 | Recall@1 | Recall@10 | Recall@100 | Recall@1000 | Recall@3 | Recall@5 | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | Reranking | C-MTEB/CMedQAv1-reranking | 84.09137463267582 | 86.6288888888889 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | | Reranking | C-MTEB/CMedQAv2-reranking | 86.55765031914974 | 89.4325396825397 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | | Retrieval | C_MTEB/CmedqaRetrieval | - | - | 26.101000000000003 | 38.239000000000004 | 40.083 | 40.205 | 34.386 | 36.425999999999995 | 39.434999999999995 | 46.967999999999996 | 47.946 | 47.997 | 44.803 | 45.911 | 39.434999999999995 | 44.416 | 51.773 | 53.888000000000005 | 39.816 | 41.467999999999996 | 39.434999999999995 | 9.786999999999999 | 1.5810000000000002 | 0.184 | 22.414 | 15.943999999999999 | 26.101000000000003 | 53.82900000000001 | 84.63199999999999 | 98.782 | 39.585 | 45.141 | | Retrieval | C_MTEB/CovidRetrieval | - | - | 70.39 | 78.93599999999999 | 79.202 | 79.205 | 77.538 | 78.312 | 70.706 | 79.018 | 79.28399999999999 | 79.288 | 77.713 | 78.462 | 70.601 | 82.555 | 83.718 | 83.855 | 79.779 | 81.149 | 70.601 | 9.463000000000001 | 0.9979999999999999 | 0.101 | 28.871999999999996 | 18.019 | 70.39 | 93.572 | 98.736 | 99.895 | 86.091 | 89.384 | | Retrieval | C_MTEB/DuRetrieval | - | - | 26.147 | 80.205 | 82.96 | 82.999 | 55.16799999999999 | 69.798 | 89.8 | 93.16799999999999 | 93.22500000000001 | 93.228 | 92.85 | 93.067 | 89.8 | 87.668 | 90.16 | 90.505 | 85.842 | 85.101 | 89.8 | 42.225 | 4.8149999999999995 | 0.48900000000000005 | 76.967 | 65.32 | 26.147 | 89.30399999999999 | 97.609 | 99.409 | 57.56 | 74.78200000000001 | | Retrieval | C_MTEB/EcomRetrieval | - | - | 53.300000000000004 | 62.507000000000005 | 63.068000000000005 | 63.08200000000001 | 60.050000000000004 | 61.41 | 53.300000000000004 | 62.507000000000005 | 63.068000000000005 | 63.08200000000001 | 60.050000000000004 | 61.41 | 53.300000000000004 | 67.31700000000001 | 69.862 | 70.231 | 62.222 | 64.66300000000001 | 53.300000000000004 | 8.260000000000002 | 0.941 | 0.097 | 22.833000000000002 | 14.879999999999999 | 53.300000000000004 | 82.6 | 94.1 | 97.0 | 68.5 | 74.4 | | Retrieval | C_MTEB/MMarcoRetrieval | - | - | 70.68799999999999 | 79.28399999999999 | 79.537 | 79.545 | 77.643 | 78.694 | 73.05199999999999 | 79.794 | 80.024 | 80.03099999999999 | 78.441 | 79.29 | 73.05199999999999 | 82.627 | 83.737 | 83.946 | 79.585 | 81.306 | 73.05199999999999 | 9.835 | 1.038 | 0.106 | 29.756 | 18.788 | 70.68799999999999 | 92.38300000000001 | 97.347 | 98.992 | 84.37 | 88.434 | | Retrieval | C_MTEB/MedicalRetrieval | - | - | 53.1 | 58.36599999999999 | 58.939 | 58.99100000000001 | 57.15 | 57.794999999999995 | 53.2 | 58.416000000000004 | 58.989999999999995 | 59.041 | 57.199999999999996 | 57.845 | 53.1 | 60.989000000000004 | 63.967 | 65.436 | 58.425000000000004 | 59.583 | 53.1 | 6.93 | 0.8370000000000001 | 0.096 | 20.7 | 12.98 | 53.1 | 69.3 | 83.7 | 95.5 | 62.1 | 64.9 | | Reranking | C-MTEB/Mmarco-reranking | 33.548800108363665 | 32.529761904761905 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | | Reranking | C-MTEB/T2Reranking | 69.43381583724414 | 80.47879657392181 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | | Retrieval | C_MTEB/T2Retrieval | - | - | 28.116000000000003 | 80.026 | 83.541 | 83.592 | 56.092 | 69.114 | 91.557 | 93.73700000000001 | 93.808 | 93.811 | 93.384 | 93.614 | 91.553 | 87.003 | 90.128 | 90.615 | 88.205 | 86.978 | 91.553 | 43.25 | 5.067 | 0.518 | 77.25 | 64.902 | 28.116000000000003 | 85.994 | 96.345 | 98.867 | 57.67099999999999 | 72.26 | | Retrieval | C_MTEB/VideoRetrieval | - | - | 64.9 | 73.763 | 74.116 | 74.12100000000001 | 72.15 | 73.25 | 64.9 | 73.763 | 74.116 | 74.12100000000001 | 72.15 | 73.25 | 64.9 | 77.639 | 79.396 | 79.554 | 74.406 | 76.385 | 64.9 | 8.959999999999999 | 0.979 | 0.099 | 26.967000000000002 | 17.14 | 64.9 | 89.60000000000001 | 97.89999999999999 | 99.2 | 80.9 | 85.7 |
🔧 技術詳細
PEGモデルは、段階的学習を用いて、負のサンプルの難易度に基づいて損失に寄与するサンプルの重みを調整します。これにより、極めて大きなバッチ内でも堅牢なテキスト検索が可能になります。
📄 ライセンス
このプロジェクトはApache License 2.0の下でライセンスされています。
コンタクト
このプロジェクトに関する質問や提案がある場合は、IssueやPull Requestを作成してください。また、Tong Wu (townswu@tencent.com)にメールを送ることもできます。
引用
もしこの研究があなたの研究に役立った場合は、以下のBibTeXエントリを引用してください。
@article{wu2023towards,
title={Towards Robust Text Retrieval with Progressive Learning},
author={Wu, Tong and Qin, Yulei and Zhang, Enwei and Xu, Zihan and Gao, Yuting and Li, Ke and Sun, Xing},
journal={arXiv preprint arXiv:2311.11691},
year={2023}
}







