V

Vietnamese Embedding

由dangvantuan開發
專為越南語設計的嵌入模型,基於PhoBERT優化,能將越南語句子編碼為768維向量空間,適用於語義搜索、文本聚類等多種場景。
下載量 6,063
發布時間 : 4/20/2024

模型概述

該模型基於PhoBERT(採用RoBERTa架構的預訓練語言模型)進行優化,能夠精準捕捉越南語的詞彙和上下文語義層次,生成高質量的句子嵌入向量。

模型特點

越南語優化
專門針對越南語設計和優化,能夠更好地處理越南語的詞彙和語法結構。
多階段訓練
通過四個階段的訓練流程逐步優化,包括初始訓練、持續微調、STS基準微調和高級數據增強微調。
高性能
在越南語STS數據集上表現出色,皮爾遜和斯皮爾曼相關係數均超過88%。
語義捕捉能力強
能夠精準捕捉越南語句子的語義層次和上下文關係。

模型能力

句子嵌入
語義搜索
文本聚類
句子相似度計算

使用案例

自然語言處理
語義搜索
用於構建越南語語義搜索引擎,提高搜索結果的相關性。
能夠更準確地匹配查詢和文檔的語義
文本聚類
對越南語文本進行聚類分析,發現文本中的主題和模式。
生成高質量的文本聚類結果
句子相似度計算
計算兩個越南語句子之間的語義相似度。
皮爾遜相關係數達到88.33%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase