m - ST5オープンソース多言語文埋め込みモデル - 無料デプロイでクロスランゲージ意味検索を支援

ホーム

M ST5

pkshatechによって開発

m-ST5はmT5エンコーダーを基に構築された多言語文埋め込みモデルで、言語間意味的テキスト類似性と文検索タスクに最適化されています。

テキスト埋め込み #多言語文埋め込み #言語間意味的類似性 #XNLIファインチューニング

ダウンロード数 30

リリース時間 : 6/26/2023

モデル概要

このモデルは文T5の多言語拡張版で、高品質な文埋め込みを生成し、言語間意味的テキスト類似性比較と文検索をサポートします。

モデル特徴

多言語サポート

mT5アーキテクチャを基に、複数言語の文埋め込み生成をサポートします。

効率的なファインチューニング

LoRA技術を使用してアダプテーションを行い、効率的なパラメータファインチューニングを実現します。

高性能

言語間意味的テキスト類似性と文検索タスクにおいて、LaBSEなどのベンチマークモデルを上回る性能を発揮します。

モデル能力

言語間文埋め込み生成

意味的テキスト類似性計算

言語間文検索

使用事例

言語間情報検索

多言語ドキュメント検索

異なる言語のドキュメントコレクションから意味的に類似した文を検索します。

BUCCタスクで97.6の精度を達成

意味的類似性分析

言語間テキスト類似性評価

異なる言語間のテキストの意味的類似度を比較します。

XSTSタスクでLaBSEモデルを上回る

🚀 peft

このライブラリは、mT5エンコーダー用のLoRA適応重みを提供します。Sentence T5の多言語拡張モデルであるm-ST5は、文章埋め込み用のエンコーダーで、クロスリンガルな意味的テキスト類似性（STS）や文章検索タスクでその性能が検証されています。

🚀 クイックスタート

このセクションでは、m-ST5モデルを使用するための基本的な手順を説明します。

✨ 主な機能

多言語対応の文章埋め込みエンコーダーです。
クロスリンガルな意味的テキスト類似性（STS）や文章検索タスクで高い性能を発揮します。

📦 インストール

まだpeftをインストールしていない場合は、以下のコマンドを実行してください。

pip install -q git+https://github.com/huggingface/transformers.git@main git+https://github.com/huggingface/peft.git

💻 使用例

基本的な使用法

# モデルのロード
from transformers import MT5EncoderModel
from peft import PeftModel

model =  MT5EncoderModel.from_pretrained("google/mt5-xxl")
model.enable_input_require_grads()
model.gradient_checkpointing_enable()
model: PeftModel = PeftModel.from_pretrained(model, "pkshatech/m-ST5")

# 文章埋め込みの取得
from transformers import AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("google/mt5-xxl", use_fast=False)
model.eval()

texts = ["I am a dog.","You are a cat."]
inputs = tokenizer(
    texts,
    padding=True,
    truncation=True,
    return_tensors="pt",
)
outputs = model(**inputs)
last_hidden_state = outputs.last_hidden_state
last_hidden_state[inputs.attention_mask == 0, :] = 0
sent_len = inputs.attention_mask.sum(dim=1, keepdim=True)
sent_emb = last_hidden_state.sum(dim=1) / sent_len