S

Sgpt Bloom 7b1 Msmarco

由bigscience開發
SGPT-Bloom-7b1-msmarco 是一個基於 BLOOM 架構的句子轉換器模型,主要用於句子相似度計算和特徵提取任務。
下載量 31
發布時間 : 8/26/2022

模型概述

該模型基於 BLOOM-7b1 架構,專門針對句子相似度和特徵提取任務進行了優化。它在 MTEB (Massive Text Embedding Benchmark) 的各種任務上進行了評估,包括分類、聚類、檢索和雙語文本挖掘等。

模型特點

多語言支持
支持多種語言處理,包括英文、德文、西班牙文、法文、日文和中文等。
多功能任務處理
能夠處理多種自然語言處理任務,包括句子相似度計算、特徵提取、分類、聚類和檢索等。
大規模基準測試
在 MTEB (Massive Text Embedding Benchmark) 的各種任務上進行了全面評估。

模型能力

句子相似度計算
特徵提取
文本分類
文本聚類
信息檢索
雙語文本挖掘

使用案例

電子商務
產品評論分類
對亞馬遜等電商平臺的產品評論進行分類和分析。
在 MTEB Amazon 評論分類任務中,英文準確率達到 33.86%,德文 29.70%,西班牙文 35.97%,法文 35.92%,日文 27.64%,中文 32.63%
反事實分類
識別和分析電商平臺上的反事實評論。
在 MTEB Amazon 反事實分類任務中,英文準確率 68.06%,德文 61.35%,日文 58.23%
學術研究
學術論文聚類
對 arXiv 和 Biorxiv 上的學術論文進行聚類分析。
在 Arxiv 聚類 P2P 任務中 V 度量 44.59,S2S 任務中 38.03;Biorxiv 聚類 P2P 任務中 V 度量 36.03,S2S 任務中 32.48
問答系統
重複問題識別
識別問答平臺上的重複問題。
在 AskUbuntu 重複問題重排序任務中,平均精度 59.97%,平均倒數排名 73.18%
跨語言信息檢索
雙語文本對齊
識別不同語言間的平行文本。
在 BUCC 雙語文本挖掘任務中,德-英準確率 54.28%,法-英 97.34%,俄-英 46.05%,中-英 98.10%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase