L

Llm Jp 3 8x13b Instruct3

由llm-jp開發
由日本國立信息學研究所開發的大規模日語-英語混合MoE語言模型,支持8x13B參數規模,經過指令微調優化
下載量 162
發布時間 : 3/5/2025

模型概述

基於Transformer架構的混合專家(MoE)模型,專注於日語和英語的文本生成任務,經過監督微調和直接偏好優化對齊

模型特點

混合專家架構
採用8專家路由設計,每個前向傳播僅激活2個專家,平衡計算效率與模型容量
雙語優化
針對日語和英語進行專門優化,在日語任務表現尤其突出
安全對齊
通過AnswerCarefully等安全數據集進行偏好優化,違規率低於2.2%
長上下文支持
4096 tokens的上下文窗口長度,適合處理長文檔

模型能力

日語文本生成
英語文本生成
多輪對話
指令跟隨
知識問答
文本摘要

使用案例

智能助手
日語客服機器人
處理日語用戶的諮詢和問題解答
在llm-jp-eval測試中閱讀理解得分0.904
教育應用
語言學習輔助
生成日語和英語的學習材料與練習題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase