gte-multilingual-reranker-base開源ONNX版 - 免費部署，適合GPU文本分類任務

首頁

Gte Multilingual Reranker Base Onnx Op14 Opt Gpu Int8

由JustJaro開發

這是Alibaba-NLP/gte-multilingual-reranker-base的量化ONNX版本，採用INT8量化，針對GPU優化，適用於文本分類任務。

文本嵌入其他開源協議:MIT #多語言文本嵌入 #INT8量化推理 #GPU優化

下載量 91

發布時間 : 3/27/2025

模型概述

本模型是基於Alibaba-NLP/gte-multilingual-reranker-base的量化ONNX版本，採用ONNX操作集14，適用於GPU設備，主要用於文本分類和句子相似度任務。

模型特點

INT8量化

採用INT8量化技術，顯著提升推理速度。

GPU優化

針對GPU設備進行了專門優化，提高計算效率。

多語言支持

支持多種語言的文本處理任務。

ONNX運行時

使用ONNX運行時框架，提供高效的模型推理能力。

模型能力

文本分類

句子相似度計算

多語言文本處理

使用案例

信息檢索

文檔重排序

在信息檢索系統中對搜索結果進行重排序，提高相關性。

提升檢索結果的準確性和相關性

文本分析

文本分類

對文本進行分類，適用於情感分析、主題分類等任務。

高效準確的文本分類

🚀 gte-multilingual-reranker-base-onnx-op14-opt-gpu-int8-quantized

本模型是 Alibaba-NLP/gte-multilingual-reranker-base 的量化 ONNX 版本，採用了 ONNX opset 14。它在文本分類等任務上表現出色，適用於 GPU 設備，經過優化後能提供更高效的推理性能。

✨ 主要特性

量化類型：INT8 量化，在保證一定精度的同時提升推理速度。
ONNX Opset：採用 opset 14，確保模型的兼容性和性能。
任務支持：可用於文本分類等任務。
目標設備：針對 GPU 進行優化，充分發揮 GPU 的計算能力。
優化處理：經過多種優化，包括圖優化、特定 Transformer 優化等。
框架支持：基於 ONNX Runtime 框架運行。
原始模型：源自 Alibaba-NLP/gte-multilingual-reranker-base。

📦 安裝指南

文檔未提供具體安裝步驟，可參考相關依賴庫的官方安裝說明進行安裝。

💻 使用示例

基礎用法

from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer

# 加載模型和分詞器
model = ORTModelForSequenceClassification.from_pretrained("quantized_model")
tokenizer = AutoTokenizer.from_pretrained("quantized_model")

# 準備輸入
text = "Your text here"
inputs = tokenizer(text, return_tensors="pt")

# 運行推理
outputs = model(**inputs)

📚 詳細文檔

模型詳情

屬性	詳情
量化類型	INT8
ONNX Opset	14
任務	文本分類
目標設備	GPU
是否優化	是
框架	ONNX Runtime
原始模型	Alibaba-NLP/gte-multilingual-reranker-base
量化日期	2025-03-27

環境和包版本

包名	版本
transformers	4.48.3
optimum	1.24.0
onnx	1.17.0
onnxruntime	1.21.0
torch	2.5.1
numpy	1.26.4
huggingface_hub	0.28.1
python	3.12.9
系統	Darwin 24.3.0

應用的優化設置

優化項	設置
圖優化級別	擴展
針對 GPU 優化	是
使用 FP16	否
啟用 Transformer 特定優化	是
啟用 Gelu 融合	是
啟用層歸一化融合	是
啟用注意力融合	是
啟用跳過層歸一化融合	是
啟用 Gelu 近似	是