A

Araeurobert 210M

由Omartificial-Intelligence-Space開發
基於EuroBERT-210m微調的阿拉伯語語義嵌入模型,支持Matryoshka嵌入技術
下載量 304
發布時間 : 3/11/2025

模型概述

專為阿拉伯語文本優化的句子轉換模型,可將句子映射到768維向量空間,支持多種嵌入維度以適應不同效率需求

模型特點

Matryoshka嵌入技術
支持靈活調整嵌入維度(768/512/256/128/64),無需重新訓練即可平衡性能與效率
長文本支持
最大序列長度達8,192個標記,適合處理長文檔
阿拉伯語優化
針對阿拉伯語特性進行專門優化,相比基礎模型在STS任務上有顯著提升
多損失函數訓練
結合MatryoshkaLoss與MultipleNegativesRankingLoss進行訓練

模型能力

語義文本相似度計算
語義搜索
信息檢索
文檔聚類
問答系統
複述檢測
零樣本分類

使用案例

信息檢索
阿拉伯語搜索引擎
用於構建阿拉伯語內容的語義搜索引擎
提高搜索結果的相關性和準確性
文本分析
文檔相似度分析
分析阿拉伯語文檔間的語義相似度
在STS17任務上相對提升73.5%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase