R

Ruri V3 70m

由cl-nagoya開發
瑠璃v3是基於ModernBERT-Ja構建的日語通用文本嵌入模型,支持長達8192個標記的序列,在日語文本嵌入任務中達到最先進的性能。
下載量 865
發布時間 : 4/9/2025

模型概述

瑠璃v3是一個高性能的日語文本嵌入模型,專為處理日語文本相似度、檢索、分類等任務而設計。它採用純SentencePiece分詞器,支持長序列處理,並集成了FlashAttention技術以提高效率。

模型特點

長序列支持
支持長達8192個標記的序列處理,遠超前代512標記的限制
擴展詞彙表
詞彙表擴展至10萬標記(前代為3.2萬),提高處理效率
FlashAttention集成
繼承ModernBERT架構的FlashAttention技術,實現更快的推理和微調
純SentencePiece分詞
無需外部分詞工具,簡化預處理流程
多任務前綴方案
採用1+3前綴方案區分不同文本輸入類型(語義、主題、查詢、文檔)

模型能力

日語文本嵌入
句子相似度計算
文本檢索
文本分類
聚類分析
重排序任務

使用案例

信息檢索
文檔檢索
使用'検索クエリ'和'検索文書'前綴構建高效的檢索系統
在JMTEB檢索任務中達到79.96分
文本分析
主題分類
使用'トピック'前綴進行文本主題編碼和分類
在JMTEB分類任務中達到76.97分
語義分析
句子相似度計算
計算兩個日語句子之間的語義相似度
在JMTEB STS任務中達到79.82分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase