N

Nase

由aiana94開發
NaSE是一個新聞領域專用的多語言句子編碼器,基於LaBSE進行領域專業化訓練,支持100+種語言的句子嵌入和相似度計算。
下載量 14
發布時間 : 6/17/2024

模型概述

該模型是一個領域適配的多語言句子編碼器,專門針對新聞文本優化,通過去噪自編碼和機器翻譯目標訓練,適用於句子相似度、信息檢索等任務。

模型特點

新聞領域適配
通過Polynews和PolyNewsParallel數據集進行領域專業化訓練,優化新聞文本的語義表示。
多語言支持
支持100+種語言的句子嵌入,包括多種低資源語言,採用語言分佈平滑採樣策略。
雙重訓練目標
結合去噪自編碼(DAE)和機器翻譯(MT)目標,提升跨語言語義捕獲能力。

模型能力

多語言句子嵌入
跨語言句子相似度計算
新聞文本語義檢索
多語言文本聚類

使用案例

信息檢索
跨語言新聞推薦
利用句子嵌入計算不同語言新聞的語義相似度,實現跨語言內容推薦。
文本分析
多語言新聞聚類
對全球新聞進行語義聚類,識別跨語言的相似事件報道。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase