M

Moco Sentencebertv2.0

由bongsoo開發
基於韓語和英語優化的句子嵌入模型,支持語義相似度計算和文本特徵提取
下載量 17
發布時間 : 9/19/2022

模型概述

該模型是基於multilingual BERT改進的句子嵌入模型,通過師生蒸餾訓練優化,適用於韓語和英語的句子相似度計算、語義搜索和文本聚類任務。

模型特點

雙語優化
專門針對韓語和英語進行優化,在兩種語言的語義理解任務中表現優異
知識蒸餾
採用paraphrase-multilingual-mpnet-base-v2作為教師模型進行蒸餾訓練,提升模型性能
擴展詞彙
在原始multilingual BERT基礎上新增32,989個詞彙,總詞彙量達152,537個
高效推理
支持最大128 token長度輸入,在單GPU上推理顯存佔用約9GB

模型能力

句子嵌入生成
語義相似度計算
文本特徵提取
跨語言語義匹配

使用案例

信息檢索
相似問題匹配
在問答系統中查找與用戶提問語義相似的問題
在korsts測試集上達到0.824的餘弦相似度得分
內容推薦
相關文章推薦
基於內容語義相似度推薦相關文章或新聞
多語言應用
韓英跨語言搜索
支持韓語和英語之間的跨語言語義匹配
在stsb_multi_mt數據集上達到0.843的相似度得分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase