hindi - sentence - similarity - sbertオープンソースモデル、ヒンディー語の文章の意味的類似度計算をサポート

ホーム

Hindi Sentence Similarity Sbert

l3cube-puneによって開発

これはSTSデータセットでファインチューニングされたヒンディー語の文類似度モデルで、ヒンディー語の文間の意味的類似性を計算できます。

テキスト埋め込み

Transformers

その他#ヒンディー語文類似度 #多言語サポート #意味検索最適化

ダウンロード数 655

リリース時間 : 11/5/2022

モデル概要

このモデルはHindSBERTモデルを文類似度タスクでファインチューニングしたもので、ヒンディー語の文を768次元のベクトル空間にマッピングし、文間の意味的類似性を計算できます。

モデル特徴

ヒンディー語最適化

ヒンディー語テキストに特化して最適化されており、ヒンディー語の文の意味的特徴をより適切に処理できます。

文類似度計算

ヒンディー語の文間の意味的類似性を正確に計算でき、情報検索、質問応答システムなどのアプリケーションに適しています。

768次元ベクトル表現

文を768次元の密なベクトル表現に変換し、後続の類似度計算やクラスタリング分析を容易にします。

モデル能力

文埋め込み

意味的類似度計算

テキスト特徴抽出

使用事例

情報検索

類似ドキュメント検索

クエリ文に基づいて意味的に類似したドキュメントや段落を検索

検索結果の関連性を向上

質問応答システム

質問マッチング

ユーザーの質問とナレッジベース内の類似質問をマッチング

質問応答システムの精度向上

テキストクラスタリング

ドキュメントクラスタリング

文ベクトルに基づいてドキュメントをクラスタリング分析

テキストデータ内のトピック分布を発見

## 🚀 HindSBERT-STS

このモデルは、STSデータセットでファインチューニングされたHindSBERTモデル（<a href = 'https://huggingface.co/l3cube-pune/hindi-sentence-bert-nli'> l3cube-pune/hindi-sentence-bert-nli </a>）です。<br>
プロジェクトMahaNLPの一部として公開されています: https://github.com/l3cube-pune/MarathiNLP <br>
主要なインド言語をサポートし、クロス言語の文の類似性を扱う多言語バージョンのモデルはこちらに公開されています <a href='https://huggingface.co/l3cube-pune/indic-sentence-similarity-sbert'> indic-sentence-similarity-sbert </a> <br>

データセット、モデル、およびベースラインの結果に関する詳細は、当社の[論文] (https://arxiv.org/abs/2211.11187) で確認できます。

@article{joshi2022l3cubemahasbert, title={L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking BERT Sentence Representations for Hindi and Marathi}, author={Joshi, Ananya and Kajale, Aditi and Gadre, Janhavi and Deode, Samruddhi and Joshi, Raviraj}, journal={arXiv preprint arXiv:2211.11187}, year={2022} }


<a href='https://arxiv.org/abs/2211.11187'> 単言語のインドSBERT論文 </a> <br>
<a href='https://arxiv.org/abs/2304.11434'> 多言語のインドSBERT論文 </a>

### その他の単言語類似性モデル
- <a href='https://huggingface.co/l3cube-pune/marathi-sentence-similarity-sbert'> マラーティ語類似性 </a> <br>
- <a href='https://huggingface.co/l3cube-pune/hindi-sentence-similarity-sbert'> ヒンディー語類似性 </a> <br>
- <a href='https://huggingface.co/l3cube-pune/kannada-sentence-similarity-sbert'> カンナダ語類似性 </a> <br>
- <a href='https://huggingface.co/l3cube-pune/telugu-sentence-similarity-sbert'> テルグ語類似性 </a> <br>
- <a href='https://huggingface.co/l3cube-pune/malayalam-sentence-similarity-sbert'> マラヤーラム語類似性 </a> <br>
- <a href='https://huggingface.co/l3cube-pune/tamil-sentence-similarity-sbert'> タミル語類似性 </a> <br>
- <a href='https://huggingface.co/l3cube-pune/gujarati-sentence-similarity-sbert'> グジャラート語類似性 </a> <br>
- <a href='https://huggingface.co/l3cube-pune/odia-sentence-similarity-sbert'> オリヤー語類似性 </a> <br>
- <a href='https://huggingface.co/l3cube-pune/bengali-sentence-similarity-sbert'> ベンガル語類似性 </a> <br>
- <a href='https://huggingface.co/l3cube-pune/punjabi-sentence-similarity-sbert'> パンジャーブ語類似性 </a> <br>
- <a href='https://huggingface.co/l3cube-pune/indic-sentence-similarity-sbert'> インド語類似性（多言語）</a> <br>

### その他の単言語インド文BERTモデル
- <a href='https://huggingface.co/l3cube-pune/marathi-sentence-bert-nli'> マラーティ語SBERT</a> <br>
- <a href='https://huggingface.co/l3cube-pune/hindi-sentence-bert-nli'> ヒンディー語SBERT</a> <br>
- <a href='https://huggingface.co/l3cube-pune/kannada-sentence-bert-nli'> カンナダ語SBERT</a> <br>
- <a href='https://huggingface.co/l3cube-pune/telugu-sentence-bert-nli'> テルグ語SBERT</a> <br>
- <a href='https://huggingface.co/l3cube-pune/malayalam-sentence-bert-nli'> マラヤーラム語SBERT</a> <br>
- <a href='https://huggingface.co/l3cube-pune/tamil-sentence-bert-nli'> タミル語SBERT</a> <br>
- <a href='https://huggingface.co/l3cube-pune/gujarati-sentence-bert-nli'> グジャラート語SBERT</a> <br>
- <a href='https://huggingface.co/l3cube-pune/odia-sentence-bert-nli'> オリヤー語SBERT</a> <br>
- <a href='https://huggingface.co/l3cube-pune/bengali-sentence-bert-nli'> ベンガル語SBERT</a> <br>
- <a href='https://huggingface.co/l3cube-pune/punjabi-sentence-bert-nli'> パンジャーブ語SBERT</a> <br>
- <a href='https://huggingface.co/l3cube-pune/indic-sentence-bert-nli'> インド語SBERT（多言語）</a> <br>

これは [sentence-transformers](https://www.SBERT.net) モデルです。文や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。

## 🚀 クイックスタート
### ✨ 主な機能
このモデルは、ヒンディー語の文の類似性を計算するために、HindSBERTモデルをSTSデータセットでファインチューニングしたものです。また、多言語版のモデルも提供されており、主要なインド言語の文の類似性を計算することができます。

### 📦 インストール

pip install -U sentence-transformers


### 💻 使用例
#### 基本的な使用法 (Sentence-Transformers)
```python
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('{MODEL_NAME}')
embeddings = model.encode(sentences)
print(embeddings)

高度な使用法 (HuggingFace Transformers)

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('{MODEL_NAME}')
model = AutoModel.from_pretrained('{MODEL_NAME}')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)