Araeurobert 210M
基于EuroBERT-210m微调的阿拉伯语语义嵌入模型,支持Matryoshka嵌入技术
下载量 304
发布时间 : 3/11/2025
模型简介
专为阿拉伯语文本优化的句子转换模型,可将句子映射到768维向量空间,支持多种嵌入维度以适应不同效率需求
模型特点
Matryoshka嵌入技术
支持灵活调整嵌入维度(768/512/256/128/64),无需重新训练即可平衡性能与效率
长文本支持
最大序列长度达8,192个标记,适合处理长文档
阿拉伯语优化
针对阿拉伯语特性进行专门优化,相比基础模型在STS任务上有显著提升
多损失函数训练
结合MatryoshkaLoss与MultipleNegativesRankingLoss进行训练
模型能力
语义文本相似度计算
语义搜索
信息检索
文档聚类
问答系统
复述检测
零样本分类
使用案例
信息检索
阿拉伯语搜索引擎
用于构建阿拉伯语内容的语义搜索引擎
提高搜索结果的相关性和准确性
文本分析
文档相似度分析
分析阿拉伯语文档间的语义相似度
在STS17任务上相对提升73.5%
🚀 Ara - EuroBERT:针对阿拉伯语优化的句子转换器
Ara - EuroBERT是一个基于sentence - transformers的模型,它从[EuroBERT/EuroBERT - 210m](https://huggingface.co/EuroBERT/EuroBERT - 210m)微调而来,专门针对阿拉伯语语义文本嵌入进行了优化。该模型能将句子和段落映射到一个768维的密集向量空间,并且最大序列长度可达8192个标记。
你可以在https://huggingface.co/EuroBERT/EuroBERT - 210m找到关于基础模型的更多信息。

与基础模型相比,我们微调后的模型有显著改进。与基础的EuroBERT - 210M相比,在STS17上实现了73.5%的相对提升,在STS22.v2上实现了21.6%的相对提升。
✨ 主要特性
- 语义文本嵌入:专门为阿拉伯语语义文本嵌入进行优化,能将句子和段落映射到768维的密集向量空间。
- 长序列处理:最大序列长度可达8192个标记,可处理较长的文本。
- 灵活的嵌入维度:采用Matryoshka表示学习进行训练,无需重新训练即可灵活调整嵌入维度。
- 性能提升:与基础模型相比,在STS17和STS22.v2上有显著的相对提升。
📦 安装指南
pip install -U sentence-transformers
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
# 加载模型
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-210M")
# 编码阿拉伯语句子
sentences = [
'التقدم العلمي في مجال الذكاء الاصطناعي يتسارع بشكل ملحوظ في السنوات الأخيرة',
'تطوير نماذج لغوية متقدمة يساهم في تحسين فهم اللغة العربية آليًا',
'أصبحت تقنيات معالجة اللغات الطبيعية جزءًا أساسيًا من التطبيقات الحديثة',
'يعاني الشرق الأوسط من تحديات مناخية متزايدة تهدد الأمن المائي والغذائي',
'تراث الأدب العربي غني بالقصائد والروايات التي تعكس تاريخ وثقافة المنطقة',
]
embeddings = model.encode(sentences)
print(embeddings.shape) # [3, 768]
# 获取相似度分数
from sentence_transformers import util
similarities = util.cos_sim(embeddings, embeddings)
print(similarities)
高级用法
# 获取不同维度的嵌入
embeddings_768 = model.encode(sentences) # 默认:完整的768维
embeddings_256 = model.encode(sentences, truncate_dim=256) # 仅使用256维
embeddings_64 = model.encode(sentences, truncate_dim=64) # 仅使用64维
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | 带有Matryoshka嵌入的句子转换器 |
基础模型 | [EuroBERT/EuroBERT - 210m](https://huggingface.co/EuroBERT/EuroBERT - 210m) |
最大序列长度 | 8192个标记 |
输出维度 | 维度为[768, 512, 256, 128, 64]的Matryoshka嵌入 |
相似度函数 | 余弦相似度 |
语言 | 针对阿拉伯语进行优化 |
许可证 | 与EuroBERT相同(MIT) |
Matryoshka嵌入
该模型采用Matryoshka表示学习进行训练,允许在不重新训练的情况下灵活调整嵌入维度。你可以为了提高效率使用较小的维度(64、128、256、512),或者为了获得最佳性能使用完整的768维。即使在降低维度的情况下,模型仍能保持较强的性能:
维度 | Spearman相关性(STS Dev) |
---|---|
768 | 0.8101 |
512 | 0.8088 |
256 | 0.8081 |
128 | 0.8055 |
64 | 0.7976 |
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: EuroBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
用例
该模型在各种阿拉伯语NLP任务中表现出色:
- 语义文本相似度
- 语义搜索和信息检索
- 文档聚类和分类
- 问答系统
- 释义检测
- 零样本分类
训练方法
- 损失函数:带有MultipleNegativesRankingLoss的MatryoshkaLoss
- Matryoshka维度:[768, 512, 256, 128, 64]
- 批量大小:32
- 轮数:1(带有提前停止机制)
- 优化器:AdamW
- 学习率:5e - 05,采用线性调度器和10%的热身
- 硬件:多个NVIDIA GPU,采用混合精度(fp16)
基础模型:EuroBERT
EuroBERT是一个新的多语言编码器模型家族,专门为欧洲和广泛使用的全球语言设计。与传统的多语言编码器相比,它具有以下优势:
- 广泛的多语言覆盖:在包含15种语言的5万亿标记数据集上进行训练。
- 先进的架构:使用分组查询注意力、旋转位置嵌入和RMS归一化。
- 长上下文支持:原生支持处理多达8192个标记。
- 专业知识:包含数学和编程语言数据,以提高推理能力。
局限性和建议
⚠️ 重要提示
- 该模型主要针对阿拉伯语文本进行优化,在其他语言上的性能可能不佳。
- 对于训练数据中未充分体现的专业领域,性能可能会有所不同。
💡 使用建议
- 对于短文本(<5个单词),考虑添加上下文以获得更好的表示。
- 对于极长的文档,考虑在编码之前将其拆分为有意义的块。
引用
如果您在研究中使用了该模型,请引用以下作品:
@misc{boizard2025eurobertscalingmultilingualencoders,
title={EuroBERT: Scaling Multilingual Encoders for European Languages},
author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
year={2025},
eprint={2503.05500},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.05500},
}
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
模型索引
名称 | 任务类型 | 数据集 | 指标 | 值 |
---|---|---|---|---|
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 语义相似度 | sts dev 768 | Pearson Cosine | 0.8111988062913815 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 语义相似度 | sts dev 768 | Spearman Cosine | 0.8100586279907306 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 语义相似度 | sts dev 512 | Pearson Cosine | 0.8092891955563192 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 语义相似度 | sts dev 512 | Spearman Cosine | 0.8087644228771842 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 语义相似度 | sts dev 256 | Pearson Cosine | 0.8076510620939634 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 语义相似度 | sts dev 256 | Spearman Cosine | 0.8080588277305082 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 语义相似度 | sts dev 128 | Pearson Cosine | 0.8028710019029521 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 语义相似度 | sts dev 128 | Spearman Cosine | 0.8054855987917489 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 语义相似度 | sts dev 64 | Pearson Cosine | 0.7923252906438638 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 语义相似度 | sts dev 64 | Spearman Cosine | 0.7975941111911333 |
小部件示例
源句子 | 对比句子 |
---|---|
امرأة شقراء تطل على مشهد (سياتل سبيس نيدل) | 1. رجل يستمتع بمناظر جسر البوابة الذهبية 2. فتاة بالخارج تلعب في الثلج 3. شخص ما يأخذ في نظرة إبرة الفضاء. |
سوق الشرق الأوسط | 1. مسرح أمريكي 2. متجر في الشرق الأوسط 3. البالغون صغار |
رجلين يتنافسان في ملابس فنون الدفاع عن النفس | 1. هناك العديد من الناس الحاضرين. 2. الكلب الأبيض على الشاطئ 3. هناك شخص واحد فقط موجود. |
مجموعة من الناس تمشي بجانب شاحنة. | 1. الناس يقفون 2. بعض الناس بالخارج 3. بعض الرجال يقودون على الطريق |
لاعبة كرة ناعمة ترمي الكرة إلى زميلتها في الفريق | 1. شخصان يلعبان كرة البيسبول 2. الرجل ينظف 3. لاعبين لكرة البيسبول يجلسان على مقعد |
许可证
本模型使用的许可证与EuroBERT相同,为MIT许可证。
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98