Muffakir_Embedding開源模型 - 專為阿語語義對比與信息檢索任務優化

Home

Muffakir Embedding

Developed by mohamed2811

基於埃及法律書籍和合成數據訓練的阿拉伯語句子轉換器，專為語義文本相似度和信息檢索任務優化。

文本嵌入

Safetensors

Arabic#阿拉伯語法律檢索 #合成數據增強 #套娃向量嵌入

Downloads 332

Release Time : 2/20/2025

Model Overview

本模型將阿拉伯語句子映射為768維密集向量，適用於法律文檔檢索、文本聚類和相似度計算等任務。

Model Features

法律領域優化

使用埃及法律書籍和LLM生成的合成數據進行訓練，在法律文檔檢索任務中表現優異

高效向量表示

生成768維的緊湊向量表示，平衡計算效率和語義表達能力

雙重損失函數

結合MatryoshkaLoss和MultipleNegativesRankingLoss優化嵌入空間

Model Capabilities

語義相似度計算

法律文檔檢索

文本聚類

問答系統支持

Use Cases

法律科技

法律條文檢索

根據用戶查詢快速定位相關法律條款

高準確率的語義匹配

判例分析

通過相似案例檢索輔助法律研究

提升法律工作者效率

信息檢索

阿拉伯語文檔搜索

構建高效的阿拉伯語搜索引擎

改善搜索結果相關性

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Muffakir Embedding

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 阿拉伯語語義文本相似度模型

✨ 主要特性

📦 安裝指南

💻 使用示例

📚 詳細文檔

模型概述

數據集

適用場景

🔧 技術細節

📄 許可證