Muffakir_Embeddingオープンソースモデル - アラビア語の意味対比と情報検索タスクに特化した最適化

ホーム

Muffakir Embedding

mohamed2811によって開発

エジプトの法律書籍と合成データで訓練されたアラビア語センテンストランスフォーマーで、意味的テキスト類似度と情報検索タスクに最適化されています。

テキスト埋め込み

Safetensors

アラビア語#アラビア語法律検索 #合成データ拡張 #マトリョーシカベクトル埋め込み

ダウンロード数 332

リリース時間 : 2/20/2025

モデル概要

このモデルはアラビア語の文を768次元の密なベクトルにマッピングし、法律文書検索、テキストクラスタリング、類似度計算などのタスクに適しています。

モデル特徴

法律分野最適化

エジプトの法律書籍とLLM生成の合成データを使用して訓練され、法律文書検索タスクで優れた性能を発揮します

効率的なベクトル表現

768次元のコンパクトなベクトル表現を生成し、計算効率と意味表現能力のバランスを取ります

二重損失関数

MatryoshkaLossとMultipleNegativesRankingLossを組み合わせて埋め込み空間を最適化します

モデル能力

意味的類似度計算

法律文書検索

テキストクラスタリング

Q&Aシステムサポート

使用事例

法律テクノロジー

法律条文検索

ユーザークエリに基づいて関連する法律条項を迅速に特定します

高精度な意味マッチング

判例分析

類似ケース検索を通じて法律研究を支援します

法律専門家の効率向上

情報検索

アラビア語文書検索

効率的なアラビア語検索エンジンを構築します

検索結果の関連性改善

🚀 アラビア語用文書埋め込みモデル

このモデルは、自然言語処理タスクに特化したアラビア語用の文書埋め込みモデルです。文書を密なベクトル表現に変換し、検索やクラスタリングなどのタスクに利用できます。

🚀 クイックスタート

このモデルは、特定のアラビア語の自然言語処理タスクに最適化されています。以下に主な情報をまとめます。

プロパティ	詳細
言語	アラビア語
ベースモデル	Omartificial-Intelligence-Space/Arabic-Triplet-Matryoshka-V2
タグ	sentence-transformers、sentence-similarity

✨ 主な機能

ベクトル表現：768次元の埋め込みを提供します。
トレーニング損失：MatryoshkaLossとMultipleNegativesRankingLossを使用してトレーニングされています。
評価指標：コサイン類似度に基づく指標（Accuracy、Precision、Recall、NDCG）を使用して評価されています。

📦 インストール

READMEに具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

READMEに具体的なコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデル概要

このモデルは、Omartificial-Intelligence-Space/Arabic-Triplet-Matryoshka-V2 をベースにした Sentence Transformer です。意味的なテキスト類似性 と 情報検索 タスクにファインチューニングされています。検索、クラスタリング、テキスト分類などのタスクのために、文を密なベクトル表現にマッピングします。