French Document Embedding
F
French Document Embedding
由dangvantuan開發
基於sentence-transformers庫的多語言句子嵌入模型,支持法語和英語的句子相似度計算和特徵提取。
下載量 6,028
發布時間 : 8/16/2024
模型概述
該模型專注於生成高質量的句子嵌入,用於計算句子間的語義相似度,支持法語和英語。適用於聚類、重排序和檢索等任務。
模型特點
多語言支持
支持法語和英語的句子嵌入生成,適用於多語言場景。
高性能聚類
在AlloProfClusteringP2P任務上達到59.69的v_measure分數,表現優異。
精準重排序
在AlloprofReranking任務上map值達到73.52,mrr值達到74.86,重排序效果顯著。
模型能力
句子相似度計算
特徵提取
文本聚類
檢索結果重排序
多語言處理
使用案例
教育
教育內容聚類
對教育相關的文本內容進行自動聚類,便於內容管理和檢索。
在AlloProfClusteringP2P任務上v_measure達到59.69
信息檢索
檢索結果重排序
對搜索引擎返回的結果進行語義重排序,提升結果相關性。
在AlloprofReranking任務上map值達到73.52
庫名稱: sentence-transformers
流水線標籤: 句子相似度
標籤:
- sentence-transformers
- 特徵提取
- 句子相似度
- transformers
- 法語
- 英語
- 句子嵌入
- mteb
模型索引:
- 名稱: 7eff199d41ff669fad99d83cad9249c393c3f14b
結果:-
任務:
類型: 聚類
數據集:
類型: lyon-nlp/alloprof
名稱: MTEB AlloProfClusteringP2P
配置: 默認
拆分: 測試
版本: 392ba3f5bcc8c51f578786c1fc3dae648662cb9b
指標:- 類型: v_measure
值: 59.69196295449414 - 類型: v_measures
值: [0.6355772777559684, 0.4980707615440343, 0.5851538838323186, 0.6567709175938427, 0.5712405288636999]
- 類型: v_measure
-
任務:
類型: 聚類
數據集:
類型: lyon-nlp/alloprof
名稱: MTEB AlloProfClusteringS2S
配置: 默認
拆分: 測試
版本: 392ba3f5bcc8c51f578786c1fc3dae648662cb9b
指標:- 類型: v_measure
值: 45.607106996926426 - 類型: v_measures
值: [0.45846869913649535, 0.42657120373128293, 0.45507356125930876, 0.4258913306353704, 0.4779122207000794]
- 類型: v_measure
-
任務:
類型: 重排序
數據集:
類型: lyon-nlp/mteb-fr-reranking-alloprof-s2p
名稱: MTEB AlloprofReranking
配置: 默認
拆分: 測試
版本: 65393d0d7a08a10b4e348135e824f385d420b0fd
指標:- 類型: map
值: 73.51836428087765 - 類型: mrr
值: 74.8550285111166 - 類型: nAUC_map_diff1
值: 56.006169898728466 - 類型: nAUC_map_max
值: 27.886037223407506 - 類型: nAUC_mrr_diff1
值: 56.68072778248672 - 類型: nAUC_mrr_max
值: 29.362681962243276
- 類型: map
-
任務:
類型: 檢索
數據集:
類型: lyon-nlp/alloprof
名稱: MTEB AlloprofRetrieval
配置: 默認
拆分: 測試
版本: fcf295ea64c750f41fadbaa37b9b861558e1bfbd
指標:- 類型: map_at_1
值: 32.080999999999996 - 類型: map_at_10
值: 43.582 - 類型: map_at_100
值: 44.381 - 類型: map_at_1000
值: 44.426 - 類型: map_at_20
值: 44.061 - 類型: map_at_3
值: 40.602 - 類型: map_at_5
值: 42.381 - 類型: mrr_at_1
值: 32.08117443868739 - 類型: mrr_at_10
值: 43.5823429832498 - 類型: mrr_at_100
值: 44.38068560877513 - 類型: mrr_at_1000
值: 44.426194305504026 - 類型: mrr_at_20
值: 44.06128094655753 - 類型: mrr_at_3
值: 40.60161197466903 - 類型: mrr_at_5
值: 42.380541162924715 - 類型: nauc_map_at_1000_diff1
值: 37.22997629352391 - 類型: nauc_map_at_1000_max
值: 38.65090969900466 - 類型: nauc_map_at_100_diff1
值: 37.22644507166512 - 類型: nauc_map_at_100_max
值: 38.67447923917633 - 類型: nauc_map_at_10_diff1
值: 37.02440573022942 - 類型: nauc_map_at_10_max
值: 38.52972171430789 - 類型: nauc_map_at_1_diff1
值: 41.18101653444774 - 類型: nauc_map_at_1_max
值: 34.87383192583458 - 類型: nauc_map_at_20_diff1
值: 37.14172285932024 - 類型: nauc_map_at_20_max
值: 38.66753159239803 - 類型: nauc_map_at_3_diff1
值: 37.53556306862998 - 類型: nauc_map_at_3_max
值: 37.86008195327724 - 類型: nauc_map_at_5_diff1
值: 37.14904081229067 - 類型: nauc_map_at_5_max
值: 38.267819714061105 - 類型: nauc_mrr_at_1000_diff1
值: 37.22997629352391 - 類型: nauc_mrr_at_1000_max
值: 38.65090969900466 - 類型: nauc_mrr_at_100_diff1
值: 37.22644507166512 - 類型: nauc_mrr_at_100_max
值: 38.67447923917633 - 類型: nauc_mrr_at_10_diff1
值: 37.02440573022942 - 類型: nauc_mrr_at_10_max
值: 38.52972171430789 - 類型: nauc_mrr_at_1_diff1
值: 41.18101653444774 - 類型: nauc_mrr_at_1_max
值: 34.87383192583458 - 類型: nauc_mrr_at_20_diff1
值: 37.14172285932024 - 類型: nauc_mrr_at_20_max
值: 38.66753159239803 - 類型: nauc_mrr_at_3_diff1
值: 37.53556306862998 - 類型: nauc_mrr_at_3_max
值: 37.86008195327724 - 類型: nauc_mrr_at_5_diff1
值: 37.14904081229067 - 類型: nauc_mrr_at_5_max
值: 38.267819714061105 - 類型: nauc_ndcg_at_1000_diff1
值: 36.313082263552204 - 類型: nauc_ndcg_at_1000_max
值: 40.244406213773765 - 類型: nauc_ndcg_at_100_diff1
值: 36.17060946689135 - 類型: nauc_ndcg_at_100_max
值: 41.069278488584416 - 類型: nauc_ndcg_at_10_diff1
值: 35.2775471480974 - 類型: nauc_ndcg_at_10_max
值: 40.33902753007036 - 類型: nauc_ndcg_at_1_diff1
值: 41.18101653444774 - 類型: nauc_ndcg_at_1_max
值: 34.87383192583458 - 類型: nauc_ndcg_at_20_diff1
值: 35.71067272175871 - 類型: nauc_ndcg_at_20_max
值: 40.94374381572908 - 類型: nauc_ndcg_at_3_diff1
值: 36.45082651868188 - 類型: nauc_ndcg_at_3_max
值: 38.87195110158222 - 類型: nauc_ndcg_at_5_diff1
值: 35.683568481780505 - 類型: nauc_ndcg_at_5_max
值: 39.606933866599 - 類型: nauc_precision_at_1000_diff1
值: 15.489726515767439 - 類型: nauc_precision_at_1000_max
值: 75.94259161180715 - 類型: nauc_precision_at_100_diff1
值: 30.033605095284656 - 類型: nauc_precision_at_100_max
值: 62.40786465750442 - 類型: nauc_precision_at_10_diff1
值: 28.617170969915 - 類型: nauc_precision_at_10_max
值: 47.35884745487521 - 類型: nauc_precision_at_1_diff1
值: 41.18101653444774 - 類型: nauc_precision_at_1_max
值: 34.87383192583458 - 類型: nauc_precision_at_20_diff1
值: 29.730952749557144 - 類型: nauc_precision_at_20_max
值: 52.09696741873719 - 類型: nauc_precision_at_3_diff1
值: 33.30844921569695 - 類型: nauc_precision_at_3_max
值: 41.84496633792437 - 類型: nauc_precision_at_5_diff1
值: 31.000246292430838 - 類型: nauc_precision_at_5_max
值: 43.88721507465343 - 類型: nauc_recall_at_1000_diff1
值: 15.48972651576705 - 類型: nauc_recall_at_1000_max
值: 75.94259161180725 - 類型: nauc_recall_at_100_diff1
值: 30.033605095284816 - 類型: nauc_recall_at_100_max
值: 62.40786465750426 - 類型: nauc_recall_at_10_diff1
值: 28.617170969914984 - 類型: nauc_recall_at_10_max
值: 47.35884745487525 - 類型: nauc_recall_at_1_diff1
值: 41.18101653444774 - 類型: nauc_recall_at_1_max
值: 34.87383192583458 - 類型: nauc_recall_at_20_diff1
值: 29.730952749557087 - 類型: nauc_recall_at_20_max
值: 52.09696741873715 - 類型: nauc_recall_at_3_diff1
值: 33.30844921569694 - 類型: nauc_recall_at_3_max
值: 41.84496633792433 - 類型: nauc_recall_at_5_diff1
值: 31.000246292430838 - 類型: nauc_recall_at_5_max
值: 43.88721507465339 - 類型: ndcg_at_1
值: 32.080999999999996 - 類型: ndcg_at_10
值: 49.502 - 類型: ndcg_at_100
值: 53.52 - 類型: ndcg_at_1000
值: 54.842 - 類型: ndcg_at_20
值: 51.219 - 類型: ndcg_at_3
值: 43.381 - 類型: ndcg_at_5
值: 46.603 - 類型: precision_at_1
值: 32.080999999999996 - 類型: precision_at_
- 類型: map_at_1
-
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98