sbert-base-chinese-nliオープンソースモデル - 無料でデプロイ可能、正確に中国語文の類似度を計算

ホーム

Sbert Base Chinese Nli

uerによって開発

UER - pyで事前学習された中国語文の埋め込みモデルで、文の類似度を計算するために使用されます。

テキスト埋め込み

Transformers

中国語オープンソースライセンス:Apache-2.0 #文の類似度計算 #中国語の意味理解 #シングルネットワーク構造

ダウンロード数 8,054

リリース時間 : 3/2/2022

モデル概要

このモデルはシングルBERTネットワークを通じて文の埋め込みを生成し、主に中国語テキストの類似度計算と自然言語推論タスクに使用されます。

モデル特徴

中国語最適化

特に中国語テキストに対して最適化された訓練

効率的な類似度計算

コサイン距離を通じて文の埋め込みの類似度を迅速に計算する

事前学習モデルの微調整

chinese_roberta_L - 12_H - 768事前学習モデルに基づく微調整

モデル能力

中国語文の埋め込み抽出

文の類似度計算

自然言語推論

使用事例

テキストマッチング

意味的類似度判断

二つの中国語文が同じ意味を表しているかどうかを判断する

意味が近いが表現が異なる文を正確に識別できる

情報検索

クエリ - ドキュメントマッチング

クエリ文とドキュメントの意味的関連性を計算する

🚀 中国語文BERT

このプロジェクトのモデルは、文の類似度タスクに使用できます。事前学習によって文の意味表現を学習し、文の埋め込みベクトルを効果的に抽出し、テキストの意味理解に強力なサポートを提供します。

🚀 クイックスタート

このモデルを使用して文の埋め込みベクトルを抽出し、文の類似度タスクに利用できます。ここでは、コサイン距離を使用して埋め込みベクトルの類似度を計算します。

>>> from sentence_transformers import SentenceTransformer
>>> model = SentenceTransformer('uer/sbert-base-chinese-nli')
>>> sentences = ['那个人很开心', '那个人非常开心']
>>> sentence_embeddings = model.encode(sentences)
>>> from sklearn.metrics.pairwise import paired_cosine_distances
>>> cosine_score = 1 - paired_cosine_distances([sentence_embeddings[0]],[sentence_embeddings[1]])

✨ 主な機能

これは UER-py で事前学習された文埋め込みモデルで、このモデルはこの論文で紹介されています。また、このモデルは TencentPretrain でも事前学習でき、関連内容はこの論文で説明されています。TencentPretrain は UER-py の利点を引き継ぎ、パラメータが 10 億を超えるモデルをサポートし、多モーダル事前学習フレームワークに拡張されています。

📦 インストール

ドキュメントに具体的なインストール手順は記載されていません。関連ライブラリ（例：sentence-transformers）の公式ドキュメントを参照してインストールしてください。

📚 ドキュメント

学習データ

ChineseTextualInference を学習データとして使用します。

学習プロセス

このモデルは騰訊雲上で UER-py を使用して微調整されました。事前学習モデル chinese_roberta_L-12_H-768 をベースに、シーケンス長 128 で 5 エポックの微調整を行いました。各エポックの終了時に、モデルが検証セットで最高の性能を達成したときに、そのモデルを保存します。

python3 finetune/run_classifier_siamese.py --pretrained_model_path models/cluecorpussmall_roberta_base_seq512_model.bin-250000 \
                                           --vocab_path models/google_zh_vocab.txt \
                                           --config_path models/sbert/base_config.json \
                                           --train_path datasets/ChineseTextualInference/train.tsv \
                                           --dev_path datasets/ChineseTextualInference/dev.tsv \
                                           --learning_rate 5e-5 --epochs_num 5 --batch_size 64

最後に、事前学習モデルを Huggingface 形式に変換します。

python3 scripts/convert_sbert_from_uer_to_huggingface.py --input_model_path models/finetuned_model.bin \                                                                
                                                         --output_model_path pytorch_model.bin \                                                                                            
                                                         --layers_num 12

BibTeX引用と引用情報

@article{reimers2019sentence,
  title={Sentence-bert: Sentence embeddings using siamese bert-networks},
  author={Reimers, Nils and Gurevych, Iryna},
  journal={arXiv preprint arXiv:1908.10084},
  year={2019}
}

@article{zhao2019uer,
  title={UER: An Open-Source Toolkit for Pre-training Models},
  author={Zhao, Zhe and Chen, Hui and Zhang, Jinbin and Zhao, Xin and Liu, Tao and Lu, Wei and Chen, Xi and Deng, Haotang and Ju, Qi and Du, Xiaoyong},
  journal={EMNLP-IJCNLP 2019},
  pages={241},
  year={2019}
}

@article{zhao2023tencentpretrain,
  title={TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities},
  author={Zhao, Zhe and Li, Yudong and Hou, Cheng and Zhao, Jing and others},
  journal={ACL 2023},
  pages={217},
  year={2023}