ritrieve_zh_v1オープンソース文嵌入モデル - 中国語テキスト類似度計算タスクに特化！

ホーム

Ritrieve Zh V1

richinfoaiによって開発

このモデルは複数の優れた中国語ベクトルモデルを蒸留訓練して得られた文埋め込みモデルで、中国語テキストの類似度計算タスクに特化しています。

テキスト埋め込み

Safetensors

中国語オープンソースライセンス:MIT #中文意味類似度 #マルチモデル蒸留 #1792次元ベクトル

ダウンロード数 827

リリース時間 : 3/25/2025

モデル概要

これは中国語文埋め込みモデルで、複数の優れたモデルから蒸留訓練方法で学習し、中国語テキストの意味的類似度を計算するために使用されます。

モデル特徴

マルチモデル蒸留

複数の優れた中国語ベクトルモデルの知識を統合して蒸留訓練を行い、モデル性能を向上させる

2段階訓練

第1段階ではコサイン損失関数で訓練し、第2段階で次元削減処理を行う

高性能

MTEB(cmn, v1)ベンチマークテストで優れた成績を収めている

モデル能力

中国語テキスト埋め込み

意味的類似度計算

テキスト検索

使用事例

情報検索

文書類似度計算

異なる文書間の意味的類似度を計算する

意味的に類似した文書を効果的に識別できる

質問応答システム

質問マッチング

ユーザーの質問と知識ベース内の類似質問をマッチングする

質問応答システムの精度を向上させる

🚀 リトリーブモデル (richinfoai/ritrieve_zh_v1)

このモデルは、文の類似度を計算するためのバイリンガルベクトルモデルです。蒸留学習を用いて訓練され、MTEB(cmn, v1)で優れた結果を達成しています。

🚀 クイックスタート

このモデルはSentenceTransformerで使用できます。以下に使用例を示します。

import os

os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
from sentence_transformers import SentenceTransformer

text_encoder = SentenceTransformer("richinfoai/ritrieve_zh_v1")
texts = [
    "什么是人工智能",
    "介绍一下主流的LLM",
    "人工智能（AI）是模拟人类智能的计算机系统，能够执行学习、推理和决策等任务。它通过算法和大数据实现自动化，广泛应用于各行各业。"
]
vectors = text_encoder.encode(texts, normalize_embeddings=True)
print(vectors @ vectors.T)
# [[0.9999999  0.67707014 0.91421044]
#  [0.67707014 0.9999998  0.6353945 ]
#  [0.91421044 0.6353945  1.0000001 ]]

✨ 主な機能

このモデルはrichinfoaiによって訓練されました。
Stella and Jasper modelsに基づき、lier007/xiaobu-embedding-v2、dunzhang/stella-large-zh-v3-1792d、BAAI/bge-multilingual-gemma2から蒸留学習を行いました。
MTEB(cmn, v1)で優れた結果を達成しています。

📦 インストール

このモデルはSentenceTransformerを介して使用できます。SentenceTransformerのインストール方法については、公式ドキュメントを参照してください。

📚 ドキュメント

データセット

訓練方法

ステージ1

BAAI/Infinity-Instructとopencsg/chinese-fineweb-eduを訓練データとして、上記の3つのモデルから蒸留学習を行います。この段階では、コサイン損失のみを使用します。

ステージ2

ステージ2の目的は次元削減です。ステージ1と同じ訓練データを使用し、similarity lossを用いて訓練します。ステージ2の後、モデルの次元数は1792になります。

🔧 技術詳細

このモデルは蒸留学習を用いて訓練されています。蒸留学習は、大規模な教師モデルの知識を小規模な学生モデルに移す手法です。これにより、小規模なモデルでも高性能を達成することができます。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。詳細については、LICENSEを参照してください。

情報テーブル

属性	詳細
モデルタイプ	文の類似度計算モデル
訓練データ	BAAI/Infinity-Instruct、opencsg/chinese-fineweb-edu
ライブラリ名	sentence-transformers
ライセンス	MIT