A

All Datasets V3 Roberta Large

由flax-sentence-embeddings開發
基於RoBERTa-large的句子嵌入模型,通過自監督對比學習在10億句對數據集上訓練,用於生成語義豐富的句子向量表示
下載量 987
發布時間 : 3/2/2022

模型概述

該模型是一個句子編碼器,能夠將輸入句子轉換為蘊含語義信息的向量表示,適用於信息檢索、文本聚類和句子相似度計算等任務

模型特點

大規模對比學習訓練
在超過10億句對的超大規模數據集上進行對比學習訓練,優化句子表示能力
多源數據整合
整合了來自23個不同來源的數據集,涵蓋問答、搜索、學術引用等多種文本類型
高效硬件優化
使用7塊TPU v3-8芯片訓練,獲得Google團隊在JAX/Flax框架上的優化支持

模型能力

句子向量化
語義相似度計算
信息檢索
文本聚類

使用案例

信息檢索
文檔搜索
將查詢語句和文檔轉換為向量,實現基於語義的文檔檢索
文本分析
句子相似度計算
計算兩個句子之間的語義相似度分數
文本聚類
將相似語義的文本自動分組
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase