文本嵌入

2025年最佳 1365 款文本嵌入工具

Jina Embeddings V3

Jina Embeddings V3 是一個多語言句子嵌入模型，支持超過100種語言，專注於句子相似度和特徵提取任務。

Transformers 支持多種語言

Ms Marco MiniLM L6 V2

基於MS Marco段落排序任務訓練的交叉編碼器模型，用於信息檢索中的查詢-段落相關性評分

文本嵌入英語

Opensearch Neural Sparse Encoding Doc V2 Distill

基於蒸餾技術的稀疏檢索模型，專為OpenSearch優化，支持免推理文檔編碼，在搜索相關性和效率上優於V1版本

Transformers 英語

opensearch-project

Sapbert From PubMedBERT Fulltext

基於PubMedBERT的生物醫學實體表徵模型，通過自對齊預訓練優化語義關係捕捉

文本嵌入英語

GTE-Large 是一個強大的句子轉換器模型，專注於句子相似度和文本嵌入任務，在多個基準測試中表現出色。

文本嵌入英語

Gte Base En V1.5

GTE-base-en-v1.5 是一個英文句子轉換器模型，專注於句子相似度任務，在多個文本嵌入基準測試中表現優異。

Transformers 支持多種語言

Gte Multilingual Base

GTE Multilingual Base 是一個多語言的句子嵌入模型，支持超過50種語言，適用於句子相似度計算等任務。

Transformers 支持多種語言

polyBERT是一個化學語言模型，旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋，以數值形式表示聚合物化學結構。

Bert Base Turkish Cased Mean Nli Stsb Tr

基於土耳其語BERT的句子嵌入模型，專為語義相似度任務優化

Transformers 其他

GIST Small Embedding V0

基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型，通過MEDI數據集與MTEB分類任務數據集訓練，優化了檢索任務的查詢編碼能力。

文本嵌入英語

Gte Large En V1.5

GTE-Large是一個高性能的英文文本嵌入模型，在多個文本相似度和分類任務上表現優異。

Transformers 支持多種語言

Snowflake Arctic Embed M

Snowflake Arctic Embed M 是一個專注於句子相似度任務的句子轉換器模型，能夠高效提取文本特徵並計算句子間的相似度。

Splade Cocondenser Ensembledistil

用於段落檢索的SPLADE模型，通過知識蒸餾提升稀疏神經信息檢索效果

Transformers 英語

Text2vec Base Chinese

基於CoSENT（餘弦句子）模型的中文文本嵌入模型，可將句子映射到768維稠密向量空間，適用於句子嵌入、文本匹配或語義搜索等任務。

文本嵌入中文

基於BERT的小型俄語編碼器，能生成高質量的句子嵌入向量

Transformers 其他

Ms Marco MiniLM L2 V2

基於MS Marco段落排序任務訓練的交叉編碼器模型，用於信息檢索中的查詢-段落相關性評分。

文本嵌入英語

Ruri是一個針對日語的通用文本嵌入模型，專注於句子相似度和特徵提取任務。

Safetensors 日語

KR SBERT V40K Kluenli Augsts

這是一個基於sentence-transformers的韓語句子嵌入模型，能夠將句子和段落映射到768維稠密向量空間，適用於聚類或語義搜索等任務。

Transformers 韓語

GTE-small是由阿里巴巴達摩院訓練的通用文本嵌入模型，基於BERT框架，適用於信息檢索、語義文本相似度等任務。

Transformers 英語

Ms Marco MiniLM L12 V2

基於MS Marco段落排序任務訓練的交叉編碼器模型，用於信息檢索中的相關性排序。

文本嵌入英語

All Minilm L6 V2 With Attentions

這是sentence-transformers/all-MiniLM-L6-v2的ONNX移植版本，已調整為可返回注意力權重，專為BM42搜索場景設計。

Transformers 英語

GTE-small 是一個小型通用文本嵌入模型，適用於多種自然語言處理任務，包括句子相似度計算、文本分類和檢索等。

文本嵌入英語

Sbert Large Nlu Ru

這是一個基於BERT架構的大型俄語模型，專門用於生成句子嵌入，支持無大小寫區分處理。

Transformers 其他

基於LaBSE模型精簡的英語和俄語專用版本，保留原始嵌入質量的同時大幅減小模型體積

Transformers 支持多種語言

Sentence Similarity Spanish Es

這是一個基於sentence-transformers的西班牙語句子相似度計算模型，能夠將句子和段落映射到768維的向量空間。

Transformers 西班牙語

Roberta Base Bne Finetuned Msmarco Qa Es Mnrl Mn

這是一個基於西班牙語的sentence-transformers模型，專為問答場景設計，能夠將句子和段落映射到768維向量空間，適用於語義搜索和聚類任務。

文本嵌入西班牙語

俄語通用句子編碼器，基於sentence-transformers框架，專門為俄語文本提取1024維稠密向量

文本嵌入其他

Bge Small En V1.5 Onnx Q

BAAI/bge-small-en-v1.5模型的量化ONNX版本，用於文本分類和相似性搜索。

GTE-Base 是一個通用的文本嵌入模型，專注於句子相似度和文本檢索任務，在多個基準測試中表現良好。

文本嵌入英語

這是BAAI/bge-m3模型的ONNX量化版本，支持稠密檢索、多向量檢索和稀疏檢索三種功能，覆蓋100多種語言。

Sup Simcse Roberta Large

基於RoBERTa-large的有監督SimCSE模型，用於句子嵌入和特徵提取任務。

GIST Embedding V0

GIST-Embedding-v0 是一個基於 sentence-transformers 的句子嵌入模型，主要用於句子相似度計算和特徵提取任務。

文本嵌入英語

bge_micro 是一個專注於句子相似度計算的輕量級模型，適用於多種自然語言處理任務。

Ms Marco TinyBERT L2 V2

基於MS Marco段落排序任務訓練的輕量級交叉編碼器，用於信息檢索中的查詢-段落相關性評分

文本嵌入英語

Sapbert From PubMedBERT Fulltext Mean Token

基於PubMedBERT的生物醫學實體表徵模型，通過自對齊預訓練優化語義關係捕捉

Nomic Embed Text V2 Moe

Nomic Embed v2 是一款高性能多語言專家混合(MoE)文本嵌入模型，支持約100種語言，在多語言檢索任務中表現卓越。

文本嵌入支持多種語言

Gte Qwen2 1.5B Instruct

基於Qwen2-1.5B構建的通用文本嵌入模型，支持多語言和長文本處理

Gte Multilingual Reranker Base

GTE系列中的首個多語言重排序模型，支持70+語言，具備高性能和長文本處理能力。

Transformers 支持多種語言

基於 modernbert-ja-310m 的日英雙語句子特徵提取模型，支持句子相似度計算和文本分類任務

文本嵌入支持多種語言

Mmlw Retrieval Roberta Large

MMLW（我必須得到更好的消息）是波蘭語的神經文本編碼器，針對信息檢索任務進行了優化。

Transformers 其他

Ms Marco MiniLM L4 V2

基於MS Marco段落排序任務訓練的交叉編碼器模型，用於信息檢索中的查詢與段落相關性評分

文本嵌入英語

Snowflake Arctic Embed L V2.0

Snowflake Arctic Embed v2.0 是一個多語言句子嵌入模型，支持超過100種語言的文本特徵提取和句子相似度計算。

Transformers 支持多種語言

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase