M

Modularstarencoder

由modularStarEncoder開發
基於The Stack v2數據集預訓練的10億參數代碼編碼器,採用模塊化設計和雙向自注意力機制
下載量 147
發布時間 : 2/18/2025

模型概述

專為代碼處理設計的預訓練編碼器,支持600+種編程語言,具有多出口點模塊化架構和2048token的上下文長度

模型特點

模塊化設計
包含五個出口點,支持根據下游任務進行多出口微調
高效架構
將StarCoder-2的150億參數縮減至10億,採用分組查詢注意力(GQA)和雙向自注意力機制
長上下文支持
最大輸入長度擴展至2048token,優於前代代碼編碼器
多語言支持
支持600+種編程語言的代碼處理
訓練優化
採用MLM+上下文內損失的多層損失函數,使用FlashAttention V2加速

模型能力

代碼片段嵌入
代碼表徵學習
多語言代碼處理
長序列代碼分析

使用案例

代碼分析
代碼相似性檢測
通過嵌入表示比較代碼片段的語義相似度
代碼搜索增強
為代碼搜索引擎提供高質量的嵌入表示
編程輔助
IDE智能補全
作為底層模型支持代碼自動補全功能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase