LaBSEオープンソース多言語文埋め込みモデル - 109言語のテキスト類似度計算と検索をサポート

ホーム

Labse

setu4993によって開発

LaBSEはBERTベースの多言語文埋め込みモデルで、109言語をサポートし、文類似度計算やバイリンガルテキスト検索に適しています。

テキスト埋め込み複数言語対応オープンソースライセンス:Apache-2.0 #多言語文埋め込み #言語間検索 #109言語対応

ダウンロード数 18.74k

リリース時間 : 3/2/2022

モデル概要

このモデルはマスク言語モデリングと翻訳言語モデリングを組み合わせた事前学習により、高品質な多言語文埋め込みを生成でき、特に言語間テキストマッチングタスクに最適です。

モデル特徴

多言語サポート

109言語の文埋め込みをサポートし、言語間テキストマッチングを実現

高品質埋め込み

マスク言語モデリングと翻訳言語モデリングの共同訓練により、高品質な文表現を生成

言語間検索

バイリンガルテキスト検索などの言語間アプリケーションに特に適しています

モデル能力

多言語文埋め込み

言語間テキスト類似度計算

バイリンガルテキスト検索

多言語意味マッチング

使用事例

情報検索

言語間ドキュメント検索

異なる言語のドキュメントコレクションから意味的に類似したドキュメントを検索

異なる言語で同じ概念を表現するドキュメントを効果的にマッチング可能

機械翻訳

翻訳品質評価

ソース言語とターゲット言語の文埋め込み類似度を比較して翻訳品質を評価

人的評価と高い相関を持つ自動評価指標を提供

🚀 LaBSE

LaBSE（Language-agnostic BERT Sentence Encoder）は、109言語の文章埋め込みのために学習されたBERTベースのモデルです。このモデルは、多言語の文章埋め込みを取得したり、バイテキスト検索に役立ちます。

🚀 クイックスタート

LaBSEモデルは、多言語の文章埋め込みを取得するために使用できます。以下に、このモデルの基本的な使い方を示します。

✨ 主な機能

109言語に対応した文章埋め込みを生成します。
マルチリンガルな文章埋め込みに適しており、バイテキスト検索に役立ちます。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

import torch
from transformers import BertModel, BertTokenizerFast


tokenizer = BertTokenizerFast.from_pretrained("setu4993/LaBSE")
model = BertModel.from_pretrained("setu4993/LaBSE")
model = model.eval()

english_sentences = [
    "dog",
    "Puppies are nice.",
    "I enjoy taking long walks along the beach with my dog.",
]
english_inputs = tokenizer(english_sentences, return_tensors="pt", padding=True)

with torch.no_grad():
    english_outputs = model(**english_inputs)

文章埋め込みの取得

文章埋め込みを取得するには、pooler_outputを使用します。

english_embeddings = english_outputs.pooler_output

他言語の出力

他の言語の文章に対しても同様に処理できます。

italian_sentences = [
    "cane",
    "I cuccioli sono carini.",
    "Mi piace fare lunghe passeggiate lungo la spiaggia con il mio cane.",
]
japanese_sentences = ["犬", "子犬はいいです", "私は犬と一緒にビーチを散歩するのが好きです"]
italian_inputs = tokenizer(italian_sentences, return_tensors="pt", padding=True)
japanese_inputs = tokenizer(japanese_sentences, return_tensors="pt", padding=True)

with torch.no_grad():
    italian_outputs = model(**italian_inputs)
    japanese_outputs = model(**japanese_inputs)

italian_embeddings = italian_outputs.pooler_output
japanese_embeddings = japanese_outputs.pooler_output

文章間の類似度計算

文章間の類似度を計算するには、類似度を計算する前にL2正規化を行うことをおすすめします。

import torch.nn.functional as F


def similarity(embeddings_1, embeddings_2):
    normalized_embeddings_1 = F.normalize(embeddings_1, p=2)
    normalized_embeddings_2 = F.normalize(embeddings_2, p=2)
    return torch.matmul(
        normalized_embeddings_1, normalized_embeddings_2.transpose(0, 1)
    )


print(similarity(english_embeddings, italian_embeddings))
print(similarity(english_embeddings, japanese_embeddings))
print(similarity(italian_embeddings, japanese_embeddings))

📚 ドキュメント

モデル: HuggingFaceのモデルハブ
論文: arXiv
オリジナルモデル: TensorFlow Hub
ブログ記事: Google AI Blog
TensorFlowからPyTorchへの変換: GitHub

このモデルは、TF Hubのv2モデルから移行されたもので、辞書ベースの入力を使用します。モデルの両バージョンによって生成される埋め込みは同等です。

🔧 技術詳細

データ、学習、評価、および性能指標に関する詳細は、オリジナルの論文に記載されています。

BibTeX引用

@misc{feng2020languageagnostic,
      title={Language-agnostic BERT Sentence Embedding},
      author={Fangxiaoyu Feng and Yinfei Yang and Daniel Cer and Naveen Arivazhagan and Wei Wang},
      year={2020},
      eprint={2007.01852},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📊 モデル情報

属性	详情
パイプラインタグ	文章類似度
対応言語	af, am, ar, as, az, be, bg, bn, bo, bs, ca, ceb, co, cs, cy, da, de, el, en, eo, es, et, eu, fa, fi, fr, fy, ga, gd, gl, gu, ha, haw, he, hi, hmn, hr, ht, hu, hy, id, ig, is, it, ja, jv, ka, kk, km, kn, ko, ku, ky, la, lb, lo, lt, lv, mg, mi, mk, ml, mn, mr, ms, mt, my, ne, nl, no, ny, or, pa, pl, pt, ro, ru, rw, si, sk, sl, sm, sn, so, sq, sr, st, su, sv, sw, ta, te, tg, th, tk, tl, tr, tt, ug, uk, ur, uz, vi, wo, xh, yi, yo, zh, zu
タグ	bert, 文章埋め込み, 多言語, google, 文章類似度
学習データセット	CommonCrawl, Wikipedia
ライセンス	Apache-2.0