🚀 DMetaSoul/sbert-chinese-general-v2-distill
このモデルは、以前のオープンソースの汎用セマンティックマッチングモデルの蒸留バージョン(BERT 4層のみ)で、汎用セマンティックマッチングシナリオに適しています。性能面では、このモデルは様々なタスクで汎化能力が高く、エンコード速度が速いという特徴があります。
オフラインで学習された大規模モデルをそのままオンライン推論に使用すると、計算リソースに対する要求が厳しく、業務環境の遅延やスループットなどのパフォーマンス指標を満たすことが難しくなります。そこで、ここでは蒸留手法を用いて大規模モデルを軽量化しています。12層のBERTから4層に蒸留することで、モデルのパラメータ数は44%に縮小され、およそlatencyが半減し、throughputが倍増し、精度は約6%低下します(具体的な結果は以下の評価セクションを参照)。
🚀 クイックスタート
✨ 主な機能
- 汎用セマンティックマッチングシナリオに適用可能。
- 様々なタスクで汎化能力が高く、エンコード速度が速い。
- 蒸留手法によりモデルを軽量化し、計算リソースの消費を削減。
📦 インストール
Sentence-Transformersを使用する場合
sentence-transformers フレームワークを使用してこのモデルを利用するには、まず以下のコマンドでインストールします。
pip install -U sentence-transformers
💻 使用例
Sentence-Transformersを使用する場合
from sentence_transformers import SentenceTransformer
sentences = ["我的儿子!他猛然间喊道,我的儿子在哪儿?", "我的儿子呢!他突然喊道,我的儿子在哪里?"]
model = SentenceTransformer('DMetaSoul/sbert-chinese-general-v2-distill')
embeddings = model.encode(sentences)
print(embeddings)
HuggingFace Transformersを使用する場合
from transformers import AutoTokenizer, AutoModel
import torch
def mean_pooling(model_output, attention_mask):
token_embeddings = model_output[0]
input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
sentences = ["我的儿子!他猛然间喊道,我的儿子在哪儿?", "我的儿子呢!他突然喊道,我的儿子在哪里?"]
tokenizer = AutoTokenizer.from_pretrained('DMetaSoul/sbert-chinese-general-v2-distill')
model = AutoModel.from_pretrained('DMetaSoul/sbert-chinese-general-v2-distill')
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
with torch.no_grad():
model_output = model(**encoded_input)
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
print("Sentence embeddings:")
print(sentence_embeddings)
📚 ドキュメント
評価
ここでは、蒸留前の対応する教師モデルとの比較を行っています。
性能:
属性 |
教師モデル |
学生モデル |
ギャップ |
モデル |
BERT-12-layers (102M) |
BERT-4-layers (45M) |
0.44x |
コスト |
23s |
12s |
-47% |
レイテンシー |
38ms |
20ms |
-47% |
スループット |
418 sentence/s |
791 sentence/s |
1.9x |
精度:
|
csts_dev |
csts_test |
afqmc |
lcqmc |
bqcorpus |
pawsx |
xiaobu |
平均 |
教師モデル |
77.19% |
72.59% |
36.79% |
76.91% |
49.62% |
16.24% |
63.15% |
56.07% |
学生モデル |
76.49% |
73.33% |
26.46% |
64.26% |
46.02% |
11.83% |
52.45% |
50.12% |
ギャップ (絶対値) |
- |
- |
- |
- |
- |
- |
- |
-5.95% |
1万件のデータを使用したテストで、GPUデバイスはV100、batch_size=16、max_seq_len=256です。
🔧 技術詳細
このモデルは、蒸留手法を用いて大規模モデルを軽量化しています。具体的には、12層のBERTから4層に蒸留することで、モデルのパラメータ数を削減し、計算リソースの消費を抑えています。
📄 ライセンス
E-mail: xiaowenbin@dmetasoul.com