2025年最佳的 1365 个文本嵌入工具

Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入 Transformers 支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入 Transformers 英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入 Transformers 支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入 Transformers 支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入 Transformers
P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入 Transformers 其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入 英语
G
avsolatorio
945.68k
29
Gte Large En V1.5
Apache-2.0
GTE-Large是一个高性能的英文文本嵌入模型,在多个文本相似度和分类任务上表现优异。
文本嵌入 Transformers 支持多种语言
G
Alibaba-NLP
891.76k
213
Snowflake Arctic Embed M
Apache-2.0
Snowflake Arctic Embed M 是一个专注于句子相似度任务的句子转换器模型,能够高效提取文本特征并计算句子间的相似度。
文本嵌入 Transformers
S
Snowflake
722.08k
154
Splade Cocondenser Ensembledistil
用于段落检索的SPLADE模型,通过知识蒸馏提升稀疏神经信息检索效果
文本嵌入 Transformers 英语
S
naver
606.73k
42
Text2vec Base Chinese
Apache-2.0
基于CoSENT(余弦句子)模型的中文文本嵌入模型,可将句子映射到768维稠密向量空间,适用于句子嵌入、文本匹配或语义搜索等任务。
文本嵌入 中文
T
shibing624
605.98k
718
Rubert Tiny2
MIT
基于BERT的小型俄语编码器,能生成高质量的句子嵌入向量
文本嵌入 Transformers 其他
R
cointegrated
585.48k
135
Ms Marco MiniLM L2 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分。
文本嵌入 英语
M
cross-encoder
533.42k
11
Ruri Base
Apache-2.0
Ruri是一个针对日语的通用文本嵌入模型,专注于句子相似度和特征提取任务。
文本嵌入 Safetensors 日语
R
cl-nagoya
523.56k
9
KR SBERT V40K Kluenli Augsts
这是一个基于sentence-transformers的韩语句子嵌入模型,能够将句子和段落映射到768维稠密向量空间,适用于聚类或语义搜索等任务。
文本嵌入 Transformers 韩语
K
snunlp
500.73k
61
Gte Small
MIT
GTE-small是由阿里巴巴达摩院训练的通用文本嵌入模型,基于BERT框架,适用于信息检索、语义文本相似度等任务。
文本嵌入 Transformers 英语
G
Supabase
481.27k
89
Ms Marco MiniLM L12 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的相关性排序。
文本嵌入 英语
M
cross-encoder
469.35k
71
All Minilm L6 V2 With Attentions
Apache-2.0
这是sentence-transformers/all-MiniLM-L6-v2的ONNX移植版本,已调整为可返回注意力权重,专为BM42搜索场景设计。
文本嵌入 Transformers 英语
A
Qdrant
450.93k
10
Gte Small
MIT
GTE-small 是一个小型通用文本嵌入模型,适用于多种自然语言处理任务,包括句子相似度计算、文本分类和检索等。
文本嵌入 英语
G
thenlper
450.86k
158
Sbert Large Nlu Ru
MIT
这是一个基于BERT架构的大型俄语模型,专门用于生成句子嵌入,支持无大小写区分处理。
文本嵌入 Transformers 其他
S
ai-forever
386.96k
84
Labse En Ru
基于LaBSE模型精简的英语和俄语专用版本,保留原始嵌入质量的同时大幅减小模型体积
文本嵌入 Transformers 支持多种语言
L
cointegrated
375.34k
51
Sentence Similarity Spanish Es
Apache-2.0
这是一个基于sentence-transformers的西班牙语句子相似度计算模型,能够将句子和段落映射到768维的向量空间。
文本嵌入 Transformers 西班牙语
S
hiiamsid
349.51k
48
Roberta Base Bne Finetuned Msmarco Qa Es Mnrl Mn
Apache-2.0
这是一个基于西班牙语的sentence-transformers模型,专为问答场景设计,能够将句子和段落映射到768维向量空间,适用于语义搜索和聚类任务。
文本嵌入 西班牙语
R
dariolopez
347.38k
5
USER Bge M3
Apache-2.0
俄语通用句子编码器,基于sentence-transformers框架,专门为俄语文本提取1024维稠密向量
文本嵌入 其他
U
deepvk
339.46k
58
Bge Small En V1.5 Onnx Q
Apache-2.0
BAAI/bge-small-en-v1.5模型的量化ONNX版本,用于文本分类和相似性搜索。
文本嵌入 Transformers
B
Qdrant
329.03k
1
Gte Base
MIT
GTE-Base 是一个通用的文本嵌入模型,专注于句子相似度和文本检索任务,在多个基准测试中表现良好。
文本嵌入 英语
G
thenlper
317.05k
117
Bge M3 Onnx O4
MIT
这是BAAI/bge-m3模型的ONNX量化版本,支持稠密检索、多向量检索和稀疏检索三种功能,覆盖100多种语言。
文本嵌入 Transformers
B
hooman650
285.96k
10
Sup Simcse Roberta Large
基于RoBERTa-large的有监督SimCSE模型,用于句子嵌入和特征提取任务。
文本嵌入
S
princeton-nlp
276.47k
25
GIST Embedding V0
MIT
GIST-Embedding-v0 是一个基于 sentence-transformers 的句子嵌入模型,主要用于句子相似度计算和特征提取任务。
文本嵌入 英语
G
avsolatorio
252.21k
26
Bge Micro V2
MIT
bge_micro 是一个专注于句子相似度计算的轻量级模型,适用于多种自然语言处理任务。
文本嵌入 Transformers
B
TaylorAI
248.53k
46
Ms Marco TinyBERT L2 V2
Apache-2.0
基于MS Marco段落排序任务训练的轻量级交叉编码器,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
247.59k
25
Sapbert From PubMedBERT Fulltext Mean Token
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
S
cambridgeltl
244.39k
0
Nomic Embed Text V2 Moe
Apache-2.0
Nomic Embed v2 是一款高性能多语言专家混合(MoE)文本嵌入模型,支持约100种语言,在多语言检索任务中表现卓越。
文本嵌入 支持多种语言
N
nomic-ai
242.32k
357
Gte Qwen2 1.5B Instruct
Apache-2.0
基于Qwen2-1.5B构建的通用文本嵌入模型,支持多语言和长文本处理
文本嵌入 Transformers
G
Alibaba-NLP
242.12k
207
Gte Multilingual Reranker Base
Apache-2.0
GTE系列中的首个多语言重排序模型,支持70+语言,具备高性能和长文本处理能力。
文本嵌入 Transformers 支持多种语言
G
Alibaba-NLP
239.91k
122
Amber Large
Apache-2.0
基于 modernbert-ja-310m 的日英双语句子特征提取模型,支持句子相似度计算和文本分类任务
文本嵌入 支持多种语言
A
retrieva-jp
239.28k
7
Mmlw Retrieval Roberta Large
Apache-2.0
MMLW(我必须得到更好的消息)是波兰语的神经文本编码器,针对信息检索任务进行了优化。
文本嵌入 Transformers 其他
M
sdadas
237.90k
12
Ms Marco MiniLM L4 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询与段落相关性评分
文本嵌入 英语
M
cross-encoder
234.18k
10
Snowflake Arctic Embed L V2.0
Apache-2.0
Snowflake Arctic Embed v2.0 是一个多语言句子嵌入模型,支持超过100种语言的文本特征提取和句子相似度计算。
文本嵌入 Transformers 支持多种语言
S
Snowflake
231.00k
156
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase