Tooka-SBERTオープンソースペルシア語埋め込みモデル - 無料でテキストの意味的類似度計算を実現

ホーム

Tooka SBERT

PartAIによって開発

これはTookaBERT-Largeを基にしたペルシャ語の文埋め込みモデルで、テキストを1024次元ベクトル空間にマッピングし、意味類似度計算などのタスクに使用できます。

テキスト埋め込み

Safetensors

その他オープンソースライセンス:Apache-2.0 #ペルシャ語文類似度 #1024次元ベクトル埋め込み #意味検索最適化

ダウンロード数 2,847

リリース時間 : 12/3/2024

モデル概要

このモデルはペルシャ語専用に設計された文変換器で、文や段落を密なベクトル表現に変換でき、意味的テキスト類似性、意味検索、テキスト分類、クラスタリングなどのタスクに適しています。

モデル特徴

ペルシャ語最適化

ペルシャ語テキストに特化して最適化されており、ペルシャ語の意味的特徴を正確に捉えることができます

効率的な類似度計算

コサイン類似度を使用して文間の意味的類似度を迅速に計算します

大規模事前学習

TookaBERT-Large事前学習モデルを基にしており、強力な意味表現能力を持っています

モデル能力

意味的テキスト類似度計算

意味検索

言い換えマイニング

テキスト分類

テキストクラスタリング

使用事例

情報検索

類似ドキュメント検索

ペルシャ語ドキュメントライブラリで意味的に類似したドキュメントを検索

コンテンツ推薦

🚀 SentenceTransformer

このモデルは、sentence-transformers を使用して学習されたものです。文章や段落を1024次元の密ベクトル空間にマッピングし、意味的な文章の類似性、意味検索、言い換えマイニング、テキスト分類、クラスタリングなどに利用できます。

✨ 主な機能

このモデルは、文章や段落を1024次元の密ベクトル空間にマッピングすることができ、以下のようなタスクに使用できます。

意味的な文章の類似性の計算
意味検索
言い換えマイニング
テキスト分類
クラスタリング

📚 ドキュメント

モデルの詳細

モデルの説明

属性	详情
モデルタイプ	Sentence Transformer
ベースモデル	TookaBERT-Large
最大シーケンス長	512トークン
出力次元数	1024トークン
類似度関数	コサイン類似度
言語	ペルシア語

💻 使用例

基本的な使用法

まず、Sentence Transformersライブラリをインストールします。

pip install -U sentence-transformers

次に、このモデルをロードして推論を実行することができます。

from sentence_transformers import SentenceTransformer

# 🤗 Hubからダウンロード
model = SentenceTransformer("PartAI/Tooka-SBERT")
# 推論の実行
sentences = [
    'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
    'درناها با قامتی بلند و بال‌های پهن، از زیباترین پرندگان مهاجر به شمار می‌روند.',
    'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمی‌کنند.'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 埋め込みベクトルの類似度スコアを取得
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で公開されています。

📚 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup}, 
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}