R

Ruri V3 30m

由cl-nagoya開發
Ruri v3是基於ModernBERT-Ja構建的日語通用文本嵌入模型,支持長達8192個標記的序列處理,具備日語文本嵌入任務的頂尖性能。
下載量 1,135
發布時間 : 4/7/2025

模型概述

Ruri v3是一款日語通用文本嵌入模型,主要用於句子相似度計算和特徵提取,支持多種文本類型編碼。

模型特點

長序列處理
支持長達8192個標記的序列處理,相比前代版本(512標記)有顯著提升。
擴展詞彙表
10萬標記的擴展詞彙表(前代為3.2萬),可縮短輸入序列,提升效率。
FlashAttention技術
集成FlashAttention技術,實現更快的推理和微調速度。
純SentencePiece分詞器
無需外部分詞工具,僅需SentencePiece即可完成分詞。

模型能力

日語文本嵌入
句子相似度計算
特徵提取
長文本處理

使用案例

文本檢索
文檔檢索
使用'検索文ド'前綴編碼待檢索文檔,實現高效文檔檢索。
查詢檢索
使用'検索クエリ'前綴編碼查詢語句,提高檢索準確性。
文本分類
主題分類
使用'トピック'前綴編碼文本,實現主題分類和聚類。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase