M

Moco Sentencedistilbertv2.0

由bongsoo開發
這是一個基於sentence-transformers的韓英雙語句子嵌入模型,可將句子映射到768維向量空間,適用於語義搜索和聚類任務。
下載量 39
發布時間 : 9/5/2022

模型概述

該模型基於mdistilbertV1.1改進,使用3.2M句子的moco-corpus訓練,通過STS師生蒸餾訓練而成,支持韓語和英語的句子相似度計算。

模型特點

雙語支持
同時支持韓語和英語的句子嵌入表示
高效蒸餾
通過師生蒸餾訓練提高模型性能
大規模訓練
使用3.2M句子的moco-corpus進行訓練
優化詞彙
詞彙量擴展至164,314個,比原模型增加17,870個新詞彙

模型能力

句子嵌入
語義相似度計算
文本聚類
跨語言檢索

使用案例

信息檢索
跨語言文檔檢索
在韓語和英語混合文檔庫中查找語義相似的文檔
可有效識別不同語言間語義相似的文檔
問答系統
問題匹配
匹配用戶問題與知識庫中的相似問題
如示例中所示,能準確識別'韓國的首都是?'與'首爾是韓國的首都'的語義相似性
內容推薦
相似內容推薦
基於內容語義相似性推薦相關文章或產品
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase