Araeurobert 210M
基於EuroBERT-210m微調的阿拉伯語語義嵌入模型,支持Matryoshka嵌入技術
下載量 304
發布時間 : 3/11/2025
模型概述
專為阿拉伯語文本優化的句子轉換模型,可將句子映射到768維向量空間,支持多種嵌入維度以適應不同效率需求
模型特點
Matryoshka嵌入技術
支持靈活調整嵌入維度(768/512/256/128/64),無需重新訓練即可平衡性能與效率
長文本支持
最大序列長度達8,192個標記,適合處理長文檔
阿拉伯語優化
針對阿拉伯語特性進行專門優化,相比基礎模型在STS任務上有顯著提升
多損失函數訓練
結合MatryoshkaLoss與MultipleNegativesRankingLoss進行訓練
模型能力
語義文本相似度計算
語義搜索
信息檢索
文檔聚類
問答系統
複述檢測
零樣本分類
使用案例
信息檢索
阿拉伯語搜索引擎
用於構建阿拉伯語內容的語義搜索引擎
提高搜索結果的相關性和準確性
文本分析
文檔相似度分析
分析阿拉伯語文檔間的語義相似度
在STS17任務上相對提升73.5%
🚀 Ara - EuroBERT:針對阿拉伯語優化的句子轉換器
Ara - EuroBERT是一個基於sentence - transformers的模型,它從[EuroBERT/EuroBERT - 210m](https://huggingface.co/EuroBERT/EuroBERT - 210m)微調而來,專門針對阿拉伯語語義文本嵌入進行了優化。該模型能將句子和段落映射到一個768維的密集向量空間,並且最大序列長度可達8192個標記。
你可以在https://huggingface.co/EuroBERT/EuroBERT - 210m找到關於基礎模型的更多信息。

與基礎模型相比,我們微調後的模型有顯著改進。與基礎的EuroBERT - 210M相比,在STS17上實現了73.5%的相對提升,在STS22.v2上實現了21.6%的相對提升。
✨ 主要特性
- 語義文本嵌入:專門為阿拉伯語語義文本嵌入進行優化,能將句子和段落映射到768維的密集向量空間。
- 長序列處理:最大序列長度可達8192個標記,可處理較長的文本。
- 靈活的嵌入維度:採用Matryoshka表示學習進行訓練,無需重新訓練即可靈活調整嵌入維度。
- 性能提升:與基礎模型相比,在STS17和STS22.v2上有顯著的相對提升。
📦 安裝指南
pip install -U sentence-transformers
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
# 加載模型
model = SentenceTransformer("Omartificial-Intelligence-Space/AraEuroBert-210M")
# 編碼阿拉伯語句子
sentences = [
'التقدم العلمي في مجال الذكاء الاصطناعي يتسارع بشكل ملحوظ في السنوات الأخيرة',
'تطوير نماذج لغوية متقدمة يساهم في تحسين فهم اللغة العربية آليًا',
'أصبحت تقنيات معالجة اللغات الطبيعية جزءًا أساسيًا من التطبيقات الحديثة',
'يعاني الشرق الأوسط من تحديات مناخية متزايدة تهدد الأمن المائي والغذائي',
'تراث الأدب العربي غني بالقصائد والروايات التي تعكس تاريخ وثقافة المنطقة',
]
embeddings = model.encode(sentences)
print(embeddings.shape) # [3, 768]
# 獲取相似度分數
from sentence_transformers import util
similarities = util.cos_sim(embeddings, embeddings)
print(similarities)
高級用法
# 獲取不同維度的嵌入
embeddings_768 = model.encode(sentences) # 默認:完整的768維
embeddings_256 = model.encode(sentences, truncate_dim=256) # 僅使用256維
embeddings_64 = model.encode(sentences, truncate_dim=64) # 僅使用64維
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 帶有Matryoshka嵌入的句子轉換器 |
基礎模型 | [EuroBERT/EuroBERT - 210m](https://huggingface.co/EuroBERT/EuroBERT - 210m) |
最大序列長度 | 8192個標記 |
輸出維度 | 維度為[768, 512, 256, 128, 64]的Matryoshka嵌入 |
相似度函數 | 餘弦相似度 |
語言 | 針對阿拉伯語進行優化 |
許可證 | 與EuroBERT相同(MIT) |
Matryoshka嵌入
該模型採用Matryoshka表示學習進行訓練,允許在不重新訓練的情況下靈活調整嵌入維度。你可以為了提高效率使用較小的維度(64、128、256、512),或者為了獲得最佳性能使用完整的768維。即使在降低維度的情況下,模型仍能保持較強的性能:
維度 | Spearman相關性(STS Dev) |
---|---|
768 | 0.8101 |
512 | 0.8088 |
256 | 0.8081 |
128 | 0.8055 |
64 | 0.7976 |
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: EuroBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
用例
該模型在各種阿拉伯語NLP任務中表現出色:
- 語義文本相似度
- 語義搜索和信息檢索
- 文檔聚類和分類
- 問答系統
- 釋義檢測
- 零樣本分類
訓練方法
- 損失函數:帶有MultipleNegativesRankingLoss的MatryoshkaLoss
- Matryoshka維度:[768, 512, 256, 128, 64]
- 批量大小:32
- 輪數:1(帶有提前停止機制)
- 優化器:AdamW
- 學習率:5e - 05,採用線性調度器和10%的熱身
- 硬件:多個NVIDIA GPU,採用混合精度(fp16)
基礎模型:EuroBERT
EuroBERT是一個新的多語言編碼器模型家族,專門為歐洲和廣泛使用的全球語言設計。與傳統的多語言編碼器相比,它具有以下優勢:
- 廣泛的多語言覆蓋:在包含15種語言的5萬億標記數據集上進行訓練。
- 先進的架構:使用分組查詢注意力、旋轉位置嵌入和RMS歸一化。
- 長上下文支持:原生支持處理多達8192個標記。
- 專業知識:包含數學和編程語言數據,以提高推理能力。
侷限性和建議
⚠️ 重要提示
- 該模型主要針對阿拉伯語文本進行優化,在其他語言上的性能可能不佳。
- 對於訓練數據中未充分體現的專業領域,性能可能會有所不同。
💡 使用建議
- 對於短文本(<5個單詞),考慮添加上下文以獲得更好的表示。
- 對於極長的文檔,考慮在編碼之前將其拆分為有意義的塊。
引用
如果您在研究中使用了該模型,請引用以下作品:
@misc{boizard2025eurobertscalingmultilingualencoders,
title={EuroBERT: Scaling Multilingual Encoders for European Languages},
author={Nicolas Boizard and Hippolyte Gisserot-Boukhlef and Duarte M. Alves and André Martins and Ayoub Hammal and Caio Corro and Céline Hudelot and Emmanuel Malherbe and Etienne Malaboeuf and Fanny Jourdan and Gabriel Hautreux and João Alves and Kevin El-Haddad and Manuel Faysse and Maxime Peyrard and Nuno M. Guerreiro and Patrick Fernandes and Ricardo Rei and Pierre Colombo},
year={2025},
eprint={2503.05500},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.05500},
}
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
模型索引
名稱 | 任務類型 | 數據集 | 指標 | 值 |
---|---|---|---|---|
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 語義相似度 | sts dev 768 | Pearson Cosine | 0.8111988062913815 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 語義相似度 | sts dev 768 | Spearman Cosine | 0.8100586279907306 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 語義相似度 | sts dev 512 | Pearson Cosine | 0.8092891955563192 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 語義相似度 | sts dev 512 | Spearman Cosine | 0.8087644228771842 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 語義相似度 | sts dev 256 | Pearson Cosine | 0.8076510620939634 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 語義相似度 | sts dev 256 | Spearman Cosine | 0.8080588277305082 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 語義相似度 | sts dev 128 | Pearson Cosine | 0.8028710019029521 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 語義相似度 | sts dev 128 | Spearman Cosine | 0.8054855987917489 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 語義相似度 | sts dev 64 | Pearson Cosine | 0.7923252906438638 |
SentenceTransformer based on EuroBERT/EuroBERT - 210m | 語義相似度 | sts dev 64 | Spearman Cosine | 0.7975941111911333 |
小部件示例
源句子 | 對比句子 |
---|---|
امرأة شقراء تطل على مشهد (سياتل سبيس نيدل) | 1. رجل يستمتع بمناظر جسر البوابة الذهبية 2. فتاة بالخارج تلعب في الثلج 3. شخص ما يأخذ في نظرة إبرة الفضاء. |
سوق الشرق الأوسط | 1. مسرح أمريكي 2. متجر في الشرق الأوسط 3. البالغون صغار |
رجلين يتنافسان في ملابس فنون الدفاع عن النفس | 1. هناك العديد من الناس الحاضرين. 2. الكلب الأبيض على الشاطئ 3. هناك شخص واحد فقط موجود. |
مجموعة من الناس تمشي بجانب شاحنة. | 1. الناس يقفون 2. بعض الناس بالخارج 3. بعض الرجال يقودون على الطريق |
لاعبة كرة ناعمة ترمي الكرة إلى زميلتها في الفريق | 1. شخصان يلعبان كرة البيسبول 2. الرجل ينظف 3. لاعبين لكرة البيسبول يجلسان على مقعد |
許可證
本模型使用的許可證與EuroBERT相同,為MIT許可證。
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98