V

Vietnamese Document Embedding

由 dangvantuan 开发
针对越南语的文档嵌入模型,支持最长8096个标记的上下文,基于gte-multilingual训练
下载量 77.61k
发布时间 : 8/15/2024

模型简介

这是一个专门为越南语训练的长文本嵌入模型,能够生成精确且上下文相关的句子嵌入,适用于越南语文本的语义相似度计算和文档检索等任务。

模型特点

长文本支持
支持最长8096个标记的上下文,适合处理越南语长文档
多阶段训练
经过XNLI自然语言推理和STS语义相似性两阶段训练,提升模型性能
先进损失函数
采用多负例排序损失、Matryoshka2dLoss和相似度损失进行训练

模型能力

越南语文本嵌入
句子相似度计算
文档检索
语义特征提取

使用案例

文本检索
越南语文档检索
使用该模型为越南语文档生成嵌入,实现高效的文档检索系统
语义分析
越南语句子相似度计算
计算越南语句子之间的语义相似度,用于问答系统或聊天机器人
在STS Benchmark上达到82.45的平均斯皮尔曼得分
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase