Sgpt Bloom 7b1 Msmarco
模型概述
該模型基於 BLOOM-7b1 架構,專門針對句子相似度和特徵提取任務進行了優化。它在 MTEB (Massive Text Embedding Benchmark) 的各種任務上進行了評估,包括分類、聚類、檢索和雙語文本挖掘等。
模型特點
多語言支持
支持多種語言處理,包括英文、德文、西班牙文、法文、日文和中文等。
多功能任務處理
能夠處理多種自然語言處理任務,包括句子相似度計算、特徵提取、分類、聚類和檢索等。
大規模基準測試
在 MTEB (Massive Text Embedding Benchmark) 的各種任務上進行了全面評估。
模型能力
句子相似度計算
特徵提取
文本分類
文本聚類
信息檢索
雙語文本挖掘
使用案例
電子商務
產品評論分類
對亞馬遜等電商平臺的產品評論進行分類和分析。
在 MTEB Amazon 評論分類任務中,英文準確率達到 33.86%,德文 29.70%,西班牙文 35.97%,法文 35.92%,日文 27.64%,中文 32.63%
反事實分類
識別和分析電商平臺上的反事實評論。
在 MTEB Amazon 反事實分類任務中,英文準確率 68.06%,德文 61.35%,日文 58.23%
學術研究
學術論文聚類
對 arXiv 和 Biorxiv 上的學術論文進行聚類分析。
在 Arxiv 聚類 P2P 任務中 V 度量 44.59,S2S 任務中 38.03;Biorxiv 聚類 P2P 任務中 V 度量 36.03,S2S 任務中 32.48
問答系統
重複問題識別
識別問答平臺上的重複問題。
在 AskUbuntu 重複問題重排序任務中,平均精度 59.97%,平均倒數排名 73.18%
跨語言信息檢索
雙語文本對齊
識別不同語言間的平行文本。
在 BUCC 雙語文本挖掘任務中,德-英準確率 54.28%,法-英 97.34%,俄-英 46.05%,中-英 98.10%
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98