Jina Embeddings V3
J
Jina Embeddings V3
由arkohut開發
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度計算和特徵提取任務。
下載量 506
發布時間 : 10/23/2024
模型概述
該模型主要用於生成高質量的句子嵌入,適用於多語言環境下的文本相似度計算、信息檢索和語義搜索等任務。
模型特點
多語言支持
支持超過100種語言的句子嵌入計算,包括主流語言和部分小眾語言
高效特徵提取
能夠快速生成高質量的句子嵌入表示
句子相似度計算
專門優化用於計算句子間的語義相似度
模型能力
多語言文本嵌入
句子相似度計算
語義特徵提取
信息檢索
使用案例
信息檢索
跨語言文檔搜索
在多語言文檔庫中實現語義搜索功能
文本相似度
問答系統匹配
計算用戶問題與知識庫問題的語義相似度
許可證:cc-by-nc-4.0
標籤:
- 特徵提取
- 句子相似度
- mteb
- sentence-transformers
支持語言:
- 多語言
- 南非荷蘭語 (af)
- 阿姆哈拉語 (am)
- 阿拉伯語 (ar)
- 阿薩姆語 (as)
- 阿塞拜疆語 (az)
- 白俄羅斯語 (be)
- 保加利亞語 (bg)
- 孟加拉語 (bn)
- 布列塔尼語 (br)
- 波斯尼亞語 (bs)
- 加泰羅尼亞語 (ca)
- 捷克語 (cs)
- 威爾士語 (cy)
- 丹麥語 (da)
- 德語 (de)
- 希臘語 (el)
- 英語 (en)
- 世界語 (eo)
- 西班牙語 (es)
- 愛沙尼亞語 (et)
- 巴斯克語 (eu)
- 波斯語 (fa)
- 芬蘭語 (fi)
- 法語 (fr)
- 西弗里斯語 (fy)
- 愛爾蘭語 (ga)
- 蘇格蘭蓋爾語 (gd)
- 加利西亞語 (gl)
- 古吉拉特語 (gu)
- 豪薩語 (ha)
- 希伯來語 (he)
- 印地語 (hi)
- 克羅地亞語 (hr)
- 匈牙利語 (hu)
- 亞美尼亞語 (hy)
- 印尼語 (id)
- 冰島語 (is)
- 意大利語 (it)
- 日語 (ja)
- 爪哇語 (jv)
- 格魯吉亞語 (ka)
- 哈薩克語 (kk)
- 高棉語 (km)
- 卡納達語 (kn)
- 韓語 (ko)
- 庫爾德語 (ku)
- 吉爾吉斯語 (ky)
- 拉丁語 (la)
- 老撾語 (lo)
- 立陶宛語 (lt)
- 拉脫維亞語 (lv)
- 馬爾加什語 (mg)
- 馬其頓語 (mk)
- 馬拉雅拉姆語 (ml)
- 蒙古語 (mn)
- 馬拉地語 (mr)
- 馬來語 (ms)
- 緬甸語 (my)
- 尼泊爾語 (ne)
- 荷蘭語 (nl)
- 挪威語 (no)
- 奧羅莫語 (om)
- 奧里亞語 (or)
- 旁遮普語 (pa)
- 波蘭語 (pl)
- 普什圖語 (ps)
- 葡萄牙語 (pt)
- 羅馬尼亞語 (ro)
- 俄語 (ru)
- 梵語 (sa)
- 信德語 (sd)
- 僧伽羅語 (si)
- 斯洛伐克語 (sk)
- 斯洛文尼亞語 (sl)
- 索馬里語 (so)
- 阿爾巴尼亞語 (sq)
- 塞爾維亞語 (sr)
- 巽他語 (su)
- 瑞典語 (sv)
- 斯瓦希里語 (sw)
- 泰米爾語 (ta)
- 泰盧固語 (te)
- 泰語 (th)
- 他加祿語 (tl)
- 土耳其語 (tr)
- 維吾爾語 (ug)
- 烏克蘭語 (uk)
- 烏爾都語 (ur)
- 烏茲別克語 (uz)
- 越南語 (vi)
- 科薩語 (xh)
- 意第緒語 (yi)
- 中文 (zh)
推理:false
庫名稱:transformers
模型索引:
- 名稱:jina-embeddings-v3
結果:-
數據集:
配置:默認
名稱:MTEB AFQMC(默認)
版本:b44c3b011063adb25877c13823db83bb193913c4
拆分:驗證
類型:C-MTEB/AFQMC
指標:- 類型:餘弦皮爾遜
值:41.74237700998808 - 類型:餘弦斯皮爾曼
值:43.4726782647566 - 類型:歐幾里得皮爾遜
值:42.244585459479964 - 類型:歐幾里得斯皮爾曼
值:43.525070045169606 - 類型:主要分數
值:43.4726782647566 - 類型:曼哈頓皮爾遜
值:42.04616728224863 - 類型:曼哈頓斯皮爾曼
值:43.308828270754645 - 類型:皮爾遜
值:41.74237700998808 - 類型:斯皮爾曼
值:43.4726782647566
任務:
類型:STS
- 類型:餘弦皮爾遜
-
數據集:
配置:默認
名稱:MTEB ArguAna-PL(默認)
版本:63fc86750af76253e8c760fc9e534bbf24d260a2
拆分:測試
類型:clarin-knext/arguana-pl
指標:- 類型:主要分數
值:50.117999999999995 - 類型:map_at_1
值:24.253 - 類型:map_at_10
值:40.725 - 類型:map_at_100
值:41.699999999999996 - 類型:map_at_1000
值:41.707 - 類型:map_at_20
值:41.467999999999996 - 類型:map_at_3
值:35.467 - 類型:map_at_5
值:38.291 - 類型:mrr_at_1
值:24.751066856330013 - 類型:mrr_at_10
值:40.91063808169072 - 類型:mrr_at_100
值:41.885497923928675 - 類型:mrr_at_1000
值:41.89301098419842 - 類型:mrr_at_20
值:41.653552355442514 - 類型:mrr_at_3
值:35.656709340919775 - 類型:mrr_at_5
值:38.466097676623946 - 類型:nauc_map_at_1000_diff1
值:7.503000359807567 - 類型:nauc_map_at_1000_max
值:-11.030405164830546 - 類型:nauc_map_at_1000_std
值:-8.902792782585117 - 類型:nauc_map_at_100_diff1
值:7.509899249593199 - 類型:nauc_map_at_100_max
值:-11.023581259404406 - 類型:nauc_map_at_100_std
值:-8.892241185067272 - 類型:nauc_map_at_10_diff1
值:7.24369711881512 - 類型:nauc_map_at_10_max
值:-10.810000200433278 - 類型:nauc_map_at_10_std
值:-8.987230542165776 - 類型:nauc_map_at_1_diff1
值:11.37175831832417 - 類型:nauc_map_at_1_max
值:-13.315221903223055 - 類型:nauc_map_at_1_std
值:-9.398199605510275 - 類型:nauc_map_at_20_diff1
值:7.477364530860648 - 類型:nauc_map_at_20_max
值:-10.901251218105566 - 類型:nauc_map_at_20_std
值:-8.868148116405925 - 類型:nauc_map_at_3_diff1
值:6.555548802174882 - 類型:nauc_map_at_3_max
值:-12.247274800542934 - 類型:nauc_map_at_3_std
值:-9.879475250984811 - 類型:nauc_map_at_5_diff1
值:7.426588563355882 - 類型:nauc_map_at_5_max
值:-11.347695686001805 - 類型:nauc_map_at_5_std
值:-9.34441892203972 - 類型:nauc_mrr_at_1000_diff1
值:5.99737552143614 - 類型:nauc_mrr_at_1000_max
值:-11.327205136505727 - 類型:nauc_mrr_at_1000_std
值:-8.791079115519503 - 類型:nauc_mrr_at_100_diff1
值:6.004622525255784 - 類型:nauc_mrr_at_100_max
值:-11.320336759899723 - 類型:nauc_mrr_at_100_std
值:-8.780602249831777 - 類型:nauc_mrr_at_10_diff1
值:5.783623516930227 - 類型:nauc_mrr_at_10_max
值:-11.095971693467078 - 類型:nauc_mrr_at_10_std
值:-8.877242032013582 - 類型:nauc_mrr_at_1_diff1
值:9.694937537703797 - 類型:nauc_mrr_at_1_max
值:-12.531905083727912 - 類型:nauc_mrr_at_1_std
值:-8.903992940100146 - 類型:nauc_mrr_at_20_diff1
值:5.984841206233873 - 類型:nauc_mrr_at_20_max
值:-11.195236951048969 - 類型:nauc_mrr_at_20_std
值:-8.757266039186018 - 類型:nauc_mrr_at_3_diff1
值:5.114333824261379 - 類型:nauc_mrr_at_3_max
值:-12.64809799843464 - 類型:nauc_mrr_at_3_std
值:-9.791146138025184 - 類型:nauc_mrr_at_5_diff1
值:5.88941606224512 - 類型:nauc_mrr_at_5_max
值:-11.763903418071918 - 類型:nauc_mrr_at_5_std
值:-9.279175712709446 - 類型:nauc_ndcg_at_1000_diff1
值:7.076950652226086 - 類型:nauc_ndcg_at_1000_max
值:-10.386482092087371 - 類型:nauc_ndcg_at_1000_std
值:-8.309190917074046 - 類型:nauc_ndcg_at_100_diff1
值:7.2329220284865245 - 類型:nauc_ndcg_at_100_max
值:-10.208048403220337 - 類型:nauc_ndcg_at_100_std
值:-7.997975874274613 - 類型:nauc_ndcg_at_10_diff1
值:6.065391100006953 - 類型:nauc_ndcg_at_10_max
值:-9.046164377601153 - 類型:nauc_ndcg_at_10_std
值:-8.34724889697153 - 類型:nauc_ndcg_at_1_diff1
值:11.37175831832417 - 類型:nauc_ndcg_at_1_max
值:-13.315221903223055 - 類型:nauc_ndcg_at_1_std
值:-9.398199605510275 - 類型:nauc_ndcg_at_20_diff1
值:6.949389989202601 - 類型:nauc_ndcg_at_20_max
值:-9.35740451760307 - 類型:nauc_ndcg_at_20_std
值:-7.761295171828212 - 類型:nauc_ndcg_at_3_diff1
值:5.051471796151364 - 類型:nauc_ndcg_at_3_max
值:-12.158763333711653 - 類型:nauc_ndcg_at_3_std
值:-10.078902544421926 - 類型:nauc_ndcg_at_5_diff1
值:6.527454512611454 - 類型:nauc_ndcg_at_5_max
值:-10.525118233848586 - 類型:nauc_ndcg_at_5_std
值:-9.120055125584031 - 類型:nauc_precision_at_1000_diff1
值:-10.6495668199151 - 類型:nauc_precision_at_1000_max
值:12.070656425217841 - 類型:nauc_precision_at_1000_std
值:55.844551709649004 - 類型:nauc_precision_at_100_diff1
值:19.206967129266285 - 類型:nauc_precision_at_100_max
值:16.296851020813456 - 類型:nauc_precision_at_100_std
值:45.60378984257811 - 類型:nauc_precision_at_10_diff1
值:0.6490335354304879 - 類型:nauc_precision_at_10_max
值:0.5757198255366447 - 類型:nauc_precision_at_10_std
值:-4.875847131691451 - 類型:nauc_precision_at_1_diff1
值:11.37175831832417 - 類型:nauc_precision_at_1_max
值:-13.315221903223055 - 類型:nauc_precision_at_1_std
值:-9.398199605510275 - 類型:nauc_precision_at_20_diff1
值:4.899369866929203 - 類型:nauc_precision_at_20_max
值:5.988537297189552 - 類型:nauc_precision_at_20_std
值:4.830900387582837 - 類型:nauc_precision_at_3_diff1
值:0.8791156910997744 - 類型:nauc_precision_at_3_max
值:-11.983373635905993 - 類型:nauc_precision_at_3_std
值:-10.646185111581257 - 類型:nauc_precision_at_5_diff1
值:3.9314486166548432 - 類型:nauc_precision_at_5_max
值:-7.798591396895839 - 類型:nauc_precision_at_5_std
值:-8.293043407234125 - 類型:nauc_recall_at_1000_diff1
值:-10.649566819918673 - 類型:nauc_recall_at_1000_max
值:12.070656425214647 - 類型:nauc_recall_at_1000_std
值:55.84455170965023 - 類型:nauc_recall_at_100_diff1
值:19.206967129265127 - 類型:nauc_recall_at_100_max
值:16.296851020813722 - 類型:nauc_recall_at_100_std
值:45.60378984257728 - 類型:nauc_recall_at_10_diff1
值:0.6490335354304176 - 類型:nauc_recall_at_10_max
值:0.5757198255366095 - 類型:nauc_recall_at_10_std
值:-4.875847131691468 - 類型:nauc_recall_at_1_diff1
值:11.37175831832417 - 類型:nauc_recall_at_1_max
值:-13.315221903223055 - 類型:nauc_recall_at_1_std
值:-9.398199605510275 - 類型:nauc_recall_at_20_diff1
值:4.899369866929402 - 類型:nauc_recall_at_20_max
值:5.98853729718968 - 類型:nauc_recall_at_20_std
值:4.830900387582967 - 類型:nauc_recall_at_3_diff1
值:0.8791156910997652 - 類型:nauc_recall_at_3_max
值:-11.983373635905997 - 類型:nauc_recall_at_3_std
值:-10.64618511158124 - 類型:nauc_recall_at_5_diff1
值:3.9314486166548472 - 類型:nauc_recall_at_5_max
值:-7.7985913968958585 - 類型:nauc_recall_at_5_std
值:-8.293043407234132 - 類型:ndcg_at_1
值:24.253 - 類型:ndcg_at_10
值:50.117999999999995 - 類型:ndcg_at_100
值:54.291999999999994 - 類型:ndcg_at_1000
值:54.44799999999999 - 類型:ndcg_at_20
值:52.771 - 類型:ndcg_at_3
值:39.296 - 類型:ndcg_at_5
值:44.373000000000005 - 類型:precision_at_1
值:24.253 - 類型:precision_at_10
值:8.016 - 類型:precision_at_100
值:0.984 - 類型:precision_at_1000
值:0.1
- 類型:主要分數
-
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98