indic - sentence - bert - nliオープンソースモデル - 様々なインド語に適した多言語ツール

ホーム

Indic Sentence Bert Nli

l3cube-puneによって開発

これはMuRILモデル(google/muril-base-cased)を基に訓練されたモデルで、10の主要なインド言語のNLIデータセットに対して最適化されています。この単一モデルは複数のインド言語に対応し、言語間能力を備えています。

テキスト埋め込み

Transformers

複数言語対応#多言語文類似度 #インド言語サポート #言語間意味マッチング

ダウンロード数 16.53k

リリース時間 : 3/4/2023

モデル概要

このモデルはMuRILモデルを基に訓練された文変換器で、10の主要なインド言語のNLIデータセットに特化して最適化されています。複数のインド言語を処理でき、言語間理解能力を備えており、文類似度計算や特徴抽出タスクに適しています。

モデル特徴

多言語サポート

ヒンディー語、マラーティー語、カンナダ語など10の主要なインド言語をサポート

言語間能力

異なる言語間の文類似度計算を処理可能

MuRILモデルベース

GoogleのMuRILモデル(muril-base-cased)を基に訓練され、NLIタスク向けに最適化

モデル能力

文特徴抽出

文類似度計算

言語間文比較

多言語テキスト処理

使用事例

テキスト類似度

言語間文比較

異なる言語で表現された類似文を比較

異なる言語表現の同一意味を正確に識別可能

単一言語文類似度

同一言語内の文の類似度を計算

意味的に類似した文を効果的に識別可能

情報検索

多言語ドキュメント検索

多言語環境で関連ドキュメントを検索

言語を跨いだクエリとドキュメントのマッチングが可能

🚀 IndicSBERT

このモデルは、10の主要なインド言語のNLIデータセットで学習されたMuRILモデル（google/muril-base-cased）です。
この単一のモデルは、英語、ヒンディー語、マラーティー語、カンナダ語、タミル語、テルグ語、グジャラート語、オリヤー語、パンジャーブ語、マラヤーラム語、ベンガル語に対応しています。また、このモデルはクロス言語の機能も備えています。
このモデルは、プロジェクトMahaNLPの一部として公開されています：https://github.com/l3cube-pune/MarathiNLP

より良い文の類似度モデル（このモデルのファインチューニング版）はこちらで公開されています：https://huggingface.co/l3cube-pune/indic-sentence-similarity-sbert

データセット、モデル、ベースラインの結果に関する詳細は、私たちの論文で確認できます。

@article{deode2023l3cube,
  title={L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence representations using multilingual BERT},
  author={Deode, Samruddhi and Gadre, Janhavi and Kajale, Aditi and Joshi, Ananya and Joshi, Raviraj},
  journal={arXiv preprint arXiv:2304.11434},
  year={2023}
}

単一言語のIndic SBERT論文
 多言語のIndic SBERT論文

他の単一言語のIndic文BERTモデルは以下の通りです：
マラーティー語SBERT
ヒンディー語SBERT
カンナダ語SBERT
テルグ語SBERT
マラヤーラム語SBERT
タミル語SBERT
グジャラート語SBERT
オリヤー語SBERT
ベンガル語SBERT
パンジャーブ語SBERT
Indic SBERT（多言語）

他の単一言語の類似度モデルは以下の通りです：
マラーティー語類似度
 ヒンディー語類似度
 カンナダ語類似度
 テルグ語類似度
 マラヤーラム語類似度
 タミル語類似度
 グジャラート語類似度
 オリヤー語類似度
 ベンガル語類似度
 パンジャーブ語類似度
 Indic類似度（多言語）

🚀 クイックスタート

📦 インストール

sentence-transformersをインストールすると、このモデルを簡単に使用できます。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('{MODEL_NAME}')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('{MODEL_NAME}')
model = AutoModel.from_pretrained('{MODEL_NAME}')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)