bge-m3-distill-8lオープンソース埋め込みモデル - 蒸留最適化、検索が2.5倍速く、性能も維持

ホーム

Bge M3 Distill 8l

altaidevorgによって開発

BAAI/bge-m3から蒸留された8層埋め込みモデルで、検索性能を維持しながら2.5倍の速度向上を実現

テキスト埋め込み

Safetensors

#高効率な意味検索 #多言語埋め込み #知識蒸留最適化

ダウンロード数 249

リリース時間 : 1/19/2025

モデル概要

このモデルは知識蒸留技術を用いて元の24層モデルを8層に圧縮、パラメータ数3.66億、意味的類似度計算と検索タスクに適している

モデル特徴

効率的な圧縮

24層から8層へ蒸留、パラメータ数67%削減、推論速度2.5倍向上

性能維持

STSテストセットで0.965のスピアマンコサイン類似度を維持、元モデルとの差は無視できるレベル

長文サポート

最大8192トークンのシーケンス長をサポート、長文書処理に適している

クロスランゲージ能力

トルコ語データが中心だが、英語など他の言語でも優れた性能を発揮

モデル能力

意味的類似度計算

テキスト埋め込み生成

クロスランゲージテキスト検索

長文処理

使用事例

情報検索

意味検索システム

意味的マッチングに基づく検索エンジンの構築

検索結果の関連性向上

推薦システム

コンテンツ推薦

コンテンツ類似度に基づく推薦エンジン

推薦精度の向上

RAGアプリケーション

検索拡張生成

LLMに関連するコンテキスト検索を提供

生成コンテンツの関連性向上

🚀 BAAI/bge-m3からの8層蒸留モデル：2.5倍の高速化

このモデルは、BAAI/bge-m3 を公開データセットと独自データセットを組み合わせて蒸留した埋め込みモデルです。24層ではなく8層のモデルで、パラメータサイズは366mで、検索性能をほとんど損なうことなく2.5倍の高速化を達成しています。

🚀 クイックスタート

このモデルを使用するには、まず Sentence Transformers ライブラリをインストールする必要があります。

pip install -U sentence-transformers

その後、モデルをロードして推論を実行できます。

from sentence_transformers import SentenceTransformer

# 🤗 Hubからダウンロード
model = SentenceTransformer("altaidevorg/bge-m3-distill-8l")
# 推論を実行
sentences = [
    'That is a happy person',
    'That is a happy dog',
    'That is a very happy person',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 埋め込みの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

✨ 主な機能

高速化：BAAI/bge-m3 から蒸留して層数を24層から8層に減らし、2.5倍の高速化を達成。
性能維持：検索性能をほとんど損なうことなく、多様なドメインやユースケースでの性能を維持。
多言語対応：トルコ語のデータセットで訓練しているが、英語など他の言語でも高い性能を維持。

📦 インストール

Sentence Transformers ライブラリをインストールすることで、このモデルを使用できます。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer

# 🤗 Hubからダウンロード
model = SentenceTransformer("altaidevorg/bge-m3-distill-8l")
# 推論を実行
sentences = [
    'That is a happy person',
    'That is a happy dog',
    'That is a very happy person',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 埋め込みの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	Sentence Transformer
ベースモデル	BAAI/bge-m3
最大シーケンス長	8192トークン
出力次元数	1024次元
類似度関数	コサイン類似度
訓練データセット	1000万のテキスト

モデルのソース

ドキュメント：Sentence Transformers Documentation
リポジトリ：Sentence Transformers on GitHub
Hugging Face：Sentence Transformers on Hugging Face

完全なモデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

🔧 技術詳細

評価指標

意味的類似度

データセット: sts-dev と sts-test
EmbeddingSimilarityEvaluator で評価

指標	sts-dev	sts-test
pearson_cosine	0.9691	0.9691
spearman_cosine	0.965	0.9651

知識蒸留

MSEEvaluator で評価

指標	値
negative_mse	-0.0064

訓練データセット

サイズ: 9,623,924個の訓練サンプル
列: sentence と label
最初の1000サンプルに基づく近似統計:
文ラベル
タイプ文字列リスト
詳細
最小: 5トークン
平均: 55.78トークン
最大: 468トークン
サイズ: 1024要素

	文	ラベル
タイプ	文字列	リスト
詳細	最小: 5トークン平均: 55.78トークン最大: 468トークン	サイズ: 1024要素

📄 ライセンス

本READMEにはライセンス情報が含まれていません。

📖 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MSELoss

@inproceedings{reimers-2020-multilingual-sentence-bert,
    title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2020",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/2004.09813",
}

bge-m3

@misc{bge-m3,
      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, 
      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
      year={2024},
      eprint={2402.03216},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}