R

Ruri V3 310m

由cl-nagoya開發
Ruri v3是基於ModernBERT-Ja構建的通用日語文本嵌入模型,在日語文本嵌入任務中實現業界領先性能,支持長達8192個標記的序列。
下載量 3,395
發布時間 : 4/9/2025

模型概述

Ruri v3是一個高性能的日語文本嵌入模型,專為處理日語文本而設計,適用於語義編碼、分類/聚類/主題編碼、檢索任務等多種場景。

模型特點

長序列支持
支持長達8192個標記的序列,相比前代版本(512個標記)有顯著提升
擴展詞彙表
詞彙表擴展至10萬標記(前代為3.2萬),可縮短輸入序列,提升效率
FlashAttention技術
集成FlashAttention技術,實現更快的推理和微調
純SentencePiece分詞器
僅需SentencePiece即可完成分詞,無需外部詞語分割工具

模型能力

日語文本嵌入
句子相似度計算
語義編碼
主題編碼
檢索任務處理

使用案例

信息檢索
文檔檢索
使用'検索クエリ:'和'検索文書:'前綴進行檢索任務處理
在JMTEB評估中檢索任務得分81.89
文本分類
主題分類
使用'トピック:'前綴進行分類/聚類/主題編碼
在JMTEB評估中分類任務得分78.66
語義分析
句子相似度計算
使用空字符串前綴進行語義編碼
在JMTEB評估中STS任務得分81.22
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase