V

Vietnamese Document Embedding

Developed by dangvantuan
针对越南语的文档嵌入模型,支持最长8096个标记的上下文,基于gte-multilingual训练
Downloads 77.61k
Release Time : 8/15/2024

Model Overview

这是一个专门为越南语训练的长文本嵌入模型,能够生成精确且上下文相关的句子嵌入,适用于越南语文本的语义相似度计算和文档检索等任务。

Model Features

长文本支持
支持最长8096个标记的上下文,适合处理越南语长文档
多阶段训练
经过XNLI自然语言推理和STS语义相似性两阶段训练,提升模型性能
先进损失函数
采用多负例排序损失、Matryoshka2dLoss和相似度损失进行训练

Model Capabilities

越南语文本嵌入
句子相似度计算
文档检索
语义特征提取

Use Cases

文本检索
越南语文档检索
使用该模型为越南语文档生成嵌入,实现高效的文档检索系统
语义分析
越南语句子相似度计算
计算越南语句子之间的语义相似度,用于问答系统或聊天机器人
在STS Benchmark上达到82.45的平均斯皮尔曼得分
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase