Persian Sentence Embedding V3
模型概述
該模型能夠將句子和段落轉換為密集向量表示,適用於語義相似度計算、語義搜索、文本分類等多種自然語言處理任務。
模型特點
多語言支持
支持包括波斯語、英語、阿拉伯語等16種語言的語義理解
高質量語義表示
基於xlm-roberta-large微調,生成1024維的高質量句子嵌入
多功能應用
適用於相似度計算、語義搜索、文本分類等多種下游任務
模型能力
語義文本相似度計算
語義搜索
釋義挖掘
文本分類
文本聚類
使用案例
信息檢索
跨語言文檔檢索
在多語言文檔庫中查找語義相似的文檔
文本分析
問答系統
匹配問題與候選答案的語義相似度
🚀 基於FacebookAI/xlm - roberta - large的句子轉換器
本項目基於sentence-transformers
庫,微調自[FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large)模型。它能將句子和段落映射到1024維的密集向量空間,可用於語義文本相似度計算、語義搜索、釋義挖掘、文本分類、聚類等任務。
🚀 快速開始
直接使用(Sentence Transformers)
首先,安裝Sentence Transformers庫:
pip install -U sentence-transformers
然後,加載模型並進行推理:
from sentence_transformers import SentenceTransformer
# 從🤗 Hub下載
model = SentenceTransformer("sentence_transformers_model_id")
# 進行推理
sentences = [
'چه اتفاقی در مسجد الحرام برای عبدالمطلب و پسرش رخ داد؟',
'در مسجد الحرام، عبدالمطلب و پسرش توسط ده مرد پابرهنه و شمشیر به دست، مورد حمله قرار گرفتند و از کشتن فرزند عبدالمطلب جلوگیری کردند. این حادثه باعث شد که مردم در مسجد الحرام غرق در هیاهو شوند و صداها درهم آمیخته و صدای زنان محو شود.',
'قائم آل محمد (ص) به اراده الهی قیام کرده و زمانی که او قیام کند، دیگر از شرک و شرک\u200cگرایی اثری نخواهد ماند و دین حق همه دلها را نورباران می\u200cسازد. این مطلب از آیاتی که پیرامون وجود گرانمایه او تأویل شده است بسنده می\u200cشود و این امر در قرآن و روایات به طور جامع بیان شده است.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# 獲取嵌入向量的相似度分數
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
✨ 主要特性
- 支持多種語言,包括波斯語(fa)、英語(en)、阿拉伯語(ar)等。
- 基於
FacebookAI/xlm - roberta - large
模型微調,具有良好的語義表示能力。 - 可用於多種自然語言處理任務,如語義文本相似度計算、語義搜索等。
📚 詳細文檔
模型詳情
模型描述
屬性 | 詳情 |
---|---|
模型類型 | 句子轉換器(Sentence Transformer) |
基礎模型 | [FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) |
最大序列長度 | 512個詞元 |
輸出維度 | 1024個詞元 |
相似度函數 | 餘弦相似度 |
訓練數據集 | 1. parsinlu_qqp_pair2class 2. parsinlu_entail_pair3class 3. pquad_pair 4. [alpaca_persian_pair](https://huggingface.co/datasets/sinarashidi/alpaca - persian) 5. ghaemiyeh_pair 6. wiki_triplet 7. wiki_DSimilar_pair2class 8. [miracle_triplet](https://huggingface.co/datasets/sentence - transformers/miracl) 9. Estef_pair 10. all_resaleh_pair 11. persianQA_pair |
支持語言 | fa, en, ar, bn, es, fi, fr, hi, id, ja, ko, ru, sw, te, th, zh |
模型來源
- 文檔:Sentence Transformers Documentation
- 代碼倉庫:[Sentence Transformers on GitHub](https://github.com/UKPLab/sentence - transformers)
- Hugging Face:[Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence - transformers)
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
訓練詳情
parsinlu_qqp_pair2class
- 數據集:parsinlu_qqp_pair2class
- 大小:4,644個訓練樣本
- 列:
sentence1
、sentence2
和label
- 基於前1000個樣本的近似統計:
| | sentence1 | sentence2 | label |
| ---- | ---- | ---- | ---- |
| 類型 | 字符串 | 字符串 | 整數 |
| 詳情 |
- 最小:5個詞元
- 平均:15.58個詞元
- 最大:50個詞元
- 最小:5個詞元
- 平均:15.91個詞元
- 最大:100個詞元
- 0:約61.70%
- 1:約38.30%
- 樣本:
| sentence1 | sentence2 | label |
| ---- | ---- | ---- |
|
چگونه می توانم کم کم وزن خود را کاهش دهم؟
|چگونه وزن کم کنم؟
|1
| |چگونه استمناء بر قدرت تمرکز شخص تأثیر می گذارد؟
|آیا چرک روی لوزه ها می تواند نشانه ای از STD باشد؟
|0
| |وقتی خواب کسی را دیدم و گفتم آنها در حال مرگ هستند ، چه معنایی دارد؟
|وقتی خواب می بینم که کسی در حال مرگ باشد معنی اش چیست؟
|0
| - 損失函數:
ContrastiveLoss
,參數如下:
{
"distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
"margin": 0.5,
"size_average": true
}
parsinlu_entail_pair3class
- 數據集:parsinlu_entail_pair3class,版本為c49b2d8
- 大小:2,697個訓練樣本
- 列:
sentence1
、sentence2
和label
- 基於前1000個樣本的近似統計:
| | sentence1 | sentence2 | label |
| ---- | ---- | ---- | ---- |
| 類型 | 字符串 | 字符串 | 整數 |
| 詳情 |
- 最小:3個詞元
- 平均:34.16個詞元
- 最大:203個詞元
- 最小:3個詞元
- 平均:17.89個詞元
- 最大:73個詞元
- 0:約39.30%
- 1:約31.60%
- 2:約29.10%
- 樣本:
| sentence1 | sentence2 | label |
| ---- | ---- | ---- |
|
زنان به قدری بخش بزرگی از نیروی کار را تشکیل می دهند که به سختی می توان باور داشت که اگر این امر در مورد زنان صادق نباشد ، این امر می تواند صادق باشد.
|مردان بخش عظیمی از نیروی کار هستند بنابراین تنها افراد مهم هستند.
|2
| |سالها است که کنگره در تلاش است تا اثربخشی مدیریت اطلاعات و فناوری را در دولت فدرال افزایش دهد.
|کنگره بودجه ویژه ای برای مدیریت اطلاعات و فناوری در دولت فدرال دارد.
|1
| |سرامیکهای زیست خنثی پس از قرارگیری در بدن میزبان خواص فیزیکی و مکانیکی خود را حفظ میکند.
|خواص فیزیکی سرامیکها قابل اندازه گیری است.
|1
| - 損失函數:
SoftmaxLoss
pquad_pair
- 數據集:pquad_pair
- 大小:79,972個訓練樣本
- 列:
positive
和anchor
- 基於前1000個樣本的近似統計:
| | positive | anchor |
| ---- | ---- | ---- |
| 類型 | 字符串 | 字符串 |
| 詳情 |
- 最小:19個詞元
- 平均:183.65個詞元
- 最大:366個詞元
- 最小:5個詞元
- 平均:13.95個詞元
- 最大:36個詞元
- 樣本: | positive | anchor | | ---- | ---- | | (此處原文positive內容過長,未完整展示) | |
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98