M

Multilingual SimCSE

由WENGSYX開發
一種利用平行語言對訓練的對比學習模型,通過不同語言的平行句對將文本映射到相同向量空間
下載量 84
發布時間 : 3/2/2022

模型概述

基於mDeBERTa架構的多語言句子嵌入模型,使用對比學習在平行語料上訓練,支持跨語言語義相似度計算

模型特點

跨語言對齊
通過平行語料訓練使不同語言句子映射到統一語義空間
對比學習優化
採用SimCSE風格的對比損失函數增強語義表示
大規模訓練
使用1億組平行句對進行預訓練

模型能力

跨語言句子嵌入
語義相似度計算
多語言文本對齊

使用案例

跨語言檢索
多語言文檔匹配
在不同語言的文檔庫中查找語義相似的文檔
餘弦相似度0.87(示例中'Hello,world'與'你好,世界'的相似度)
機器翻譯輔助
翻譯質量評估
通過嵌入相似度評估翻譯結果的質量
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase