V

Vietnamese Llama2 7b 120GB

由bkai-foundation-models開發
基於Llama-2-7B優化的越南語大語言模型,通過持續預訓練在124GB多領域越南語和英語數據上增強語言理解能力
下載量 65
發布時間 : 12/20/2023

模型概述

這是一個專門針對越南語優化的7B參數大語言模型,通過LoRA技術在多領域越南語數據上進行持續預訓練,顯著提升了越南語文本處理效率

模型特點

優化的越南語分詞器
在廣泛越南語語料上訓練的SentencePiece分詞器,比ChatGPT減少50%token數量,比原始Llama2減少約70%
多領域預訓練數據
整合124GB高質量數據(104GB越南語+20GB英語),涵蓋新聞、維基百科、書籍、法律文檔等多個領域
LoRA高效微調
採用LoRA技術進行持續預訓練,保持模型核心參數不變的同時有效提升越南語能力

模型能力

越南語文本生成
英語文本生成
跨語言理解
多領域文本處理

使用案例

內容生成
越南語新聞寫作
基於新聞語料訓練,可輔助新聞內容生成
法律文檔處理
經過法律文檔訓練,可處理相關專業文本
教育
越南語學習輔助
可作為越南語學習者的語言模型參考
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase