V

Vietnamese Document Embedding

由dangvantuan開發
針對越南語的文檔嵌入模型,支持最長8096個標記的上下文,基於gte-multilingual訓練
下載量 77.61k
發布時間 : 8/15/2024

模型概述

這是一個專門為越南語訓練的長文本嵌入模型,能夠生成精確且上下文相關的句子嵌入,適用於越南語文本的語義相似度計算和文檔檢索等任務。

模型特點

長文本支持
支持最長8096個標記的上下文,適合處理越南語長文檔
多階段訓練
經過XNLI自然語言推理和STS語義相似性兩階段訓練,提升模型性能
先進損失函數
採用多負例排序損失、Matryoshka2dLoss和相似度損失進行訓練

模型能力

越南語文本嵌入
句子相似度計算
文檔檢索
語義特徵提取

使用案例

文本檢索
越南語文檔檢索
使用該模型為越南語文檔生成嵌入,實現高效的文檔檢索系統
語義分析
越南語句子相似度計算
計算越南語句子之間的語義相似度,用於問答系統或聊天機器人
在STS Benchmark上達到82.45的平均斯皮爾曼得分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase