2025年最佳 1365 款文本嵌入工具

Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入 Transformers 支持多種語言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入 Transformers 英語
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入 Transformers 支持多種語言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入 Transformers 支持多種語言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入 Transformers
P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入 Transformers 其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入 英語
G
avsolatorio
945.68k
29
Gte Large En V1.5
Apache-2.0
GTE-Large是一個高性能的英文文本嵌入模型,在多個文本相似度和分類任務上表現優異。
文本嵌入 Transformers 支持多種語言
G
Alibaba-NLP
891.76k
213
Snowflake Arctic Embed M
Apache-2.0
Snowflake Arctic Embed M 是一個專注於句子相似度任務的句子轉換器模型,能夠高效提取文本特徵並計算句子間的相似度。
文本嵌入 Transformers
S
Snowflake
722.08k
154
Splade Cocondenser Ensembledistil
用於段落檢索的SPLADE模型,通過知識蒸餾提升稀疏神經信息檢索效果
文本嵌入 Transformers 英語
S
naver
606.73k
42
Text2vec Base Chinese
Apache-2.0
基於CoSENT(餘弦句子)模型的中文文本嵌入模型,可將句子映射到768維稠密向量空間,適用於句子嵌入、文本匹配或語義搜索等任務。
文本嵌入 中文
T
shibing624
605.98k
718
Rubert Tiny2
MIT
基於BERT的小型俄語編碼器,能生成高質量的句子嵌入向量
文本嵌入 Transformers 其他
R
cointegrated
585.48k
135
Ms Marco MiniLM L2 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分。
文本嵌入 英語
M
cross-encoder
533.42k
11
Ruri Base
Apache-2.0
Ruri是一個針對日語的通用文本嵌入模型,專注於句子相似度和特徵提取任務。
文本嵌入 Safetensors 日語
R
cl-nagoya
523.56k
9
KR SBERT V40K Kluenli Augsts
這是一個基於sentence-transformers的韓語句子嵌入模型,能夠將句子和段落映射到768維稠密向量空間,適用於聚類或語義搜索等任務。
文本嵌入 Transformers 韓語
K
snunlp
500.73k
61
Gte Small
MIT
GTE-small是由阿里巴巴達摩院訓練的通用文本嵌入模型,基於BERT框架,適用於信息檢索、語義文本相似度等任務。
文本嵌入 Transformers 英語
G
Supabase
481.27k
89
Ms Marco MiniLM L12 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的相關性排序。
文本嵌入 英語
M
cross-encoder
469.35k
71
All Minilm L6 V2 With Attentions
Apache-2.0
這是sentence-transformers/all-MiniLM-L6-v2的ONNX移植版本,已調整為可返回注意力權重,專為BM42搜索場景設計。
文本嵌入 Transformers 英語
A
Qdrant
450.93k
10
Gte Small
MIT
GTE-small 是一個小型通用文本嵌入模型,適用於多種自然語言處理任務,包括句子相似度計算、文本分類和檢索等。
文本嵌入 英語
G
thenlper
450.86k
158
Sbert Large Nlu Ru
MIT
這是一個基於BERT架構的大型俄語模型,專門用於生成句子嵌入,支持無大小寫區分處理。
文本嵌入 Transformers 其他
S
ai-forever
386.96k
84
Labse En Ru
基於LaBSE模型精簡的英語和俄語專用版本,保留原始嵌入質量的同時大幅減小模型體積
文本嵌入 Transformers 支持多種語言
L
cointegrated
375.34k
51
Sentence Similarity Spanish Es
Apache-2.0
這是一個基於sentence-transformers的西班牙語句子相似度計算模型,能夠將句子和段落映射到768維的向量空間。
文本嵌入 Transformers 西班牙語
S
hiiamsid
349.51k
48
Roberta Base Bne Finetuned Msmarco Qa Es Mnrl Mn
Apache-2.0
這是一個基於西班牙語的sentence-transformers模型,專為問答場景設計,能夠將句子和段落映射到768維向量空間,適用於語義搜索和聚類任務。
文本嵌入 西班牙語
R
dariolopez
347.38k
5
USER Bge M3
Apache-2.0
俄語通用句子編碼器,基於sentence-transformers框架,專門為俄語文本提取1024維稠密向量
文本嵌入 其他
U
deepvk
339.46k
58
Bge Small En V1.5 Onnx Q
Apache-2.0
BAAI/bge-small-en-v1.5模型的量化ONNX版本,用於文本分類和相似性搜索。
文本嵌入 Transformers
B
Qdrant
329.03k
1
Gte Base
MIT
GTE-Base 是一個通用的文本嵌入模型,專注於句子相似度和文本檢索任務,在多個基準測試中表現良好。
文本嵌入 英語
G
thenlper
317.05k
117
Bge M3 Onnx O4
MIT
這是BAAI/bge-m3模型的ONNX量化版本,支持稠密檢索、多向量檢索和稀疏檢索三種功能,覆蓋100多種語言。
文本嵌入 Transformers
B
hooman650
285.96k
10
Sup Simcse Roberta Large
基於RoBERTa-large的有監督SimCSE模型,用於句子嵌入和特徵提取任務。
文本嵌入
S
princeton-nlp
276.47k
25
GIST Embedding V0
MIT
GIST-Embedding-v0 是一個基於 sentence-transformers 的句子嵌入模型,主要用於句子相似度計算和特徵提取任務。
文本嵌入 英語
G
avsolatorio
252.21k
26
Bge Micro V2
MIT
bge_micro 是一個專注於句子相似度計算的輕量級模型,適用於多種自然語言處理任務。
文本嵌入 Transformers
B
TaylorAI
248.53k
46
Ms Marco TinyBERT L2 V2
Apache-2.0
基於MS Marco段落排序任務訓練的輕量級交叉編碼器,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
247.59k
25
Sapbert From PubMedBERT Fulltext Mean Token
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入
S
cambridgeltl
244.39k
0
Nomic Embed Text V2 Moe
Apache-2.0
Nomic Embed v2 是一款高性能多語言專家混合(MoE)文本嵌入模型,支持約100種語言,在多語言檢索任務中表現卓越。
文本嵌入 支持多種語言
N
nomic-ai
242.32k
357
Gte Qwen2 1.5B Instruct
Apache-2.0
基於Qwen2-1.5B構建的通用文本嵌入模型,支持多語言和長文本處理
文本嵌入 Transformers
G
Alibaba-NLP
242.12k
207
Gte Multilingual Reranker Base
Apache-2.0
GTE系列中的首個多語言重排序模型,支持70+語言,具備高性能和長文本處理能力。
文本嵌入 Transformers 支持多種語言
G
Alibaba-NLP
239.91k
122
Amber Large
Apache-2.0
基於 modernbert-ja-310m 的日英雙語句子特徵提取模型,支持句子相似度計算和文本分類任務
文本嵌入 支持多種語言
A
retrieva-jp
239.28k
7
Mmlw Retrieval Roberta Large
Apache-2.0
MMLW(我必須得到更好的消息)是波蘭語的神經文本編碼器,針對信息檢索任務進行了優化。
文本嵌入 Transformers 其他
M
sdadas
237.90k
12
Ms Marco MiniLM L4 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢與段落相關性評分
文本嵌入 英語
M
cross-encoder
234.18k
10
Snowflake Arctic Embed L V2.0
Apache-2.0
Snowflake Arctic Embed v2.0 是一個多語言句子嵌入模型,支持超過100種語言的文本特徵提取和句子相似度計算。
文本嵌入 Transformers 支持多種語言
S
Snowflake
231.00k
156
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase