🚀 中国語文BERT
このプロジェクトのモデルは、文の類似度タスクに使用できます。事前学習によって文の意味表現を学習し、文の埋め込みベクトルを効果的に抽出し、テキストの意味理解に強力なサポートを提供します。
🚀 クイックスタート
このモデルを使用して文の埋め込みベクトルを抽出し、文の類似度タスクに利用できます。ここでは、コサイン距離を使用して埋め込みベクトルの類似度を計算します。
>>> from sentence_transformers import SentenceTransformer
>>> model = SentenceTransformer('uer/sbert-base-chinese-nli')
>>> sentences = ['那个人很开心', '那个人非常开心']
>>> sentence_embeddings = model.encode(sentences)
>>> from sklearn.metrics.pairwise import paired_cosine_distances
>>> cosine_score = 1 - paired_cosine_distances([sentence_embeddings[0]],[sentence_embeddings[1]])
✨ 主な機能
これは UER-py で事前学習された文埋め込みモデルで、このモデルは この論文 で紹介されています。また、このモデルは TencentPretrain でも事前学習でき、関連内容は この論文 で説明されています。TencentPretrain は UER-py の利点を引き継ぎ、パラメータが 10 億を超えるモデルをサポートし、多モーダル事前学習フレームワークに拡張されています。
📦 インストール
ドキュメントに具体的なインストール手順は記載されていません。関連ライブラリ(例:sentence-transformers
)の公式ドキュメントを参照してインストールしてください。
📚 ドキュメント
学習データ
ChineseTextualInference を学習データとして使用します。
学習プロセス
このモデルは 騰訊雲 上で UER-py を使用して微調整されました。事前学習モデル chinese_roberta_L-12_H-768 をベースに、シーケンス長 128 で 5 エポックの微調整を行いました。各エポックの終了時に、モデルが検証セットで最高の性能を達成したときに、そのモデルを保存します。
python3 finetune/run_classifier_siamese.py --pretrained_model_path models/cluecorpussmall_roberta_base_seq512_model.bin-250000 \
--vocab_path models/google_zh_vocab.txt \
--config_path models/sbert/base_config.json \
--train_path datasets/ChineseTextualInference/train.tsv \
--dev_path datasets/ChineseTextualInference/dev.tsv \
--learning_rate 5e-5 --epochs_num 5 --batch_size 64
最後に、事前学習モデルを Huggingface 形式に変換します。
python3 scripts/convert_sbert_from_uer_to_huggingface.py --input_model_path models/finetuned_model.bin \
--output_model_path pytorch_model.bin \
--layers_num 12
BibTeX引用と引用情報
@article{reimers2019sentence,
title={Sentence-bert: Sentence embeddings using siamese bert-networks},
author={Reimers, Nils and Gurevych, Iryna},
journal={arXiv preprint arXiv:1908.10084},
year={2019}
}
@article{zhao2019uer,
title={UER: An Open-Source Toolkit for Pre-training Models},
author={Zhao, Zhe and Chen, Hui and Zhang, Jinbin and Zhao, Xin and Liu, Tao and Lu, Wei and Chen, Xi and Deng, Haotang and Ju, Qi and Du, Xiaoyong},
journal={EMNLP-IJCNLP 2019},
pages={241},
year={2019}
}
@article{zhao2023tencentpretrain,
title={TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities},
author={Zhao, Zhe and Li, Yudong and Hou, Cheng and Zhao, Jing and others},
journal={ACL 2023},
pages={217},
year={2023}
📄 ライセンス
このプロジェクトは Apache-2.0 ライセンスを採用しています。