文本嵌入

2025年最佳的 1365 个文本嵌入工具

Jina Embeddings V3

Jina Embeddings V3 是一个多语言句子嵌入模型，支持超过100种语言，专注于句子相似度和特征提取任务。

Transformers 支持多种语言

Ms Marco MiniLM L6 V2

基于MS Marco段落排序任务训练的交叉编码器模型，用于信息检索中的查询-段落相关性评分

文本嵌入英语

Opensearch Neural Sparse Encoding Doc V2 Distill

基于蒸馏技术的稀疏检索模型，专为OpenSearch优化，支持免推理文档编码，在搜索相关性和效率上优于V1版本

Transformers 英语

opensearch-project

Sapbert From PubMedBERT Fulltext

基于PubMedBERT的生物医学实体表征模型，通过自对齐预训练优化语义关系捕捉

文本嵌入英语

GTE-Large 是一个强大的句子转换器模型，专注于句子相似度和文本嵌入任务，在多个基准测试中表现出色。

文本嵌入英语

Gte Base En V1.5

GTE-base-en-v1.5 是一个英文句子转换器模型，专注于句子相似度任务，在多个文本嵌入基准测试中表现优异。

Transformers 支持多种语言

Gte Multilingual Base

GTE Multilingual Base 是一个多语言的句子嵌入模型，支持超过50种语言，适用于句子相似度计算等任务。

Transformers 支持多种语言

polyBERT是一个化学语言模型，旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹，以数值形式表示聚合物化学结构。

Bert Base Turkish Cased Mean Nli Stsb Tr

基于土耳其语BERT的句子嵌入模型，专为语义相似度任务优化

Transformers 其他

GIST Small Embedding V0

基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型，通过MEDI数据集与MTEB分类任务数据集训练，优化了检索任务的查询编码能力。

文本嵌入英语

Gte Large En V1.5

GTE-Large是一个高性能的英文文本嵌入模型，在多个文本相似度和分类任务上表现优异。

Transformers 支持多种语言

Snowflake Arctic Embed M

Snowflake Arctic Embed M 是一个专注于句子相似度任务的句子转换器模型，能够高效提取文本特征并计算句子间的相似度。

Splade Cocondenser Ensembledistil

用于段落检索的SPLADE模型，通过知识蒸馏提升稀疏神经信息检索效果

Transformers 英语

Text2vec Base Chinese

基于CoSENT（余弦句子）模型的中文文本嵌入模型，可将句子映射到768维稠密向量空间，适用于句子嵌入、文本匹配或语义搜索等任务。

文本嵌入中文

基于BERT的小型俄语编码器，能生成高质量的句子嵌入向量

Transformers 其他

Ms Marco MiniLM L2 V2

基于MS Marco段落排序任务训练的交叉编码器模型，用于信息检索中的查询-段落相关性评分。

文本嵌入英语

Ruri是一个针对日语的通用文本嵌入模型，专注于句子相似度和特征提取任务。

Safetensors 日语

KR SBERT V40K Kluenli Augsts

这是一个基于sentence-transformers的韩语句子嵌入模型，能够将句子和段落映射到768维稠密向量空间，适用于聚类或语义搜索等任务。

Transformers 韩语

GTE-small是由阿里巴巴达摩院训练的通用文本嵌入模型，基于BERT框架，适用于信息检索、语义文本相似度等任务。

Transformers 英语

Ms Marco MiniLM L12 V2

基于MS Marco段落排序任务训练的交叉编码器模型，用于信息检索中的相关性排序。

文本嵌入英语

All Minilm L6 V2 With Attentions

这是sentence-transformers/all-MiniLM-L6-v2的ONNX移植版本，已调整为可返回注意力权重，专为BM42搜索场景设计。

Transformers 英语

GTE-small 是一个小型通用文本嵌入模型，适用于多种自然语言处理任务，包括句子相似度计算、文本分类和检索等。

文本嵌入英语

Sbert Large Nlu Ru

这是一个基于BERT架构的大型俄语模型，专门用于生成句子嵌入，支持无大小写区分处理。

Transformers 其他

基于LaBSE模型精简的英语和俄语专用版本，保留原始嵌入质量的同时大幅减小模型体积

Transformers 支持多种语言

Sentence Similarity Spanish Es

这是一个基于sentence-transformers的西班牙语句子相似度计算模型，能够将句子和段落映射到768维的向量空间。

Transformers 西班牙语

Roberta Base Bne Finetuned Msmarco Qa Es Mnrl Mn

这是一个基于西班牙语的sentence-transformers模型，专为问答场景设计，能够将句子和段落映射到768维向量空间，适用于语义搜索和聚类任务。

文本嵌入西班牙语

俄语通用句子编码器，基于sentence-transformers框架，专门为俄语文本提取1024维稠密向量

文本嵌入其他

Bge Small En V1.5 Onnx Q

BAAI/bge-small-en-v1.5模型的量化ONNX版本，用于文本分类和相似性搜索。

GTE-Base 是一个通用的文本嵌入模型，专注于句子相似度和文本检索任务，在多个基准测试中表现良好。

文本嵌入英语

这是BAAI/bge-m3模型的ONNX量化版本，支持稠密检索、多向量检索和稀疏检索三种功能，覆盖100多种语言。

Sup Simcse Roberta Large

基于RoBERTa-large的有监督SimCSE模型，用于句子嵌入和特征提取任务。

GIST Embedding V0

GIST-Embedding-v0 是一个基于 sentence-transformers 的句子嵌入模型，主要用于句子相似度计算和特征提取任务。

文本嵌入英语

bge_micro 是一个专注于句子相似度计算的轻量级模型，适用于多种自然语言处理任务。

Ms Marco TinyBERT L2 V2

基于MS Marco段落排序任务训练的轻量级交叉编码器，用于信息检索中的查询-段落相关性评分

文本嵌入英语

Sapbert From PubMedBERT Fulltext Mean Token

基于PubMedBERT的生物医学实体表征模型，通过自对齐预训练优化语义关系捕捉

Nomic Embed Text V2 Moe

Nomic Embed v2 是一款高性能多语言专家混合(MoE)文本嵌入模型，支持约100种语言，在多语言检索任务中表现卓越。

文本嵌入支持多种语言

Gte Qwen2 1.5B Instruct

基于Qwen2-1.5B构建的通用文本嵌入模型，支持多语言和长文本处理

Gte Multilingual Reranker Base

GTE系列中的首个多语言重排序模型，支持70+语言，具备高性能和长文本处理能力。

Transformers 支持多种语言

基于 modernbert-ja-310m 的日英双语句子特征提取模型，支持句子相似度计算和文本分类任务

文本嵌入支持多种语言

Mmlw Retrieval Roberta Large

MMLW（我必须得到更好的消息）是波兰语的神经文本编码器，针对信息检索任务进行了优化。

Transformers 其他

Ms Marco MiniLM L4 V2

基于MS Marco段落排序任务训练的交叉编码器模型，用于信息检索中的查询与段落相关性评分

文本嵌入英语

Snowflake Arctic Embed L V2.0

Snowflake Arctic Embed v2.0 是一个多语言句子嵌入模型，支持超过100种语言的文本特征提取和句子相似度计算。

Transformers 支持多种语言

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase