mallam-1.1B-4096開源預訓練模型 - 適用馬來語文本處理，長上下文支持

Mallam 1.1B 4096

由mesolitica開發

基於馬來語文本的1.1B參數預訓練模型，使用Mistral架構，支持4096上下文長度

下載量 201

發布時間 : 11/27/2023

模型概述

這是一個專門針對馬來語優化的1.1B參數大語言模型，在900億馬來語文本token上從頭預訓練，適用於馬來語文本生成和理解任務

馬來語優化

專門針對馬來語文本進行訓練和優化

長上下文支持

支持4096 tokens的長上下文處理能力

高效訓練

使用Ray集群在5個節點（每個節點4×A100 80GB）上高效完成訓練

馬來語文本生成

長文本理解

語言模型推理

文本生成

馬來語內容創作

生成馬來語文章、故事或其他創意內容

對話系統

構建馬來語聊天機器人或虛擬助手

教育

語言學習輔助

幫助學習馬來語的用戶練習和理解語言

屬性	詳情
模型類型	MaLLaM 1.1B 馬來西亞大語言模型
訓練數據	900 億馬來西亞文本標記，收集於 https://github.com/malaysia-ai/dedup-text-dataset/tree/main/pretrain-llm
訓練環境	使用 Ray 集群在 5 個節點（每個節點配備 4 個 A100 80GB GPU）上進行訓練，配置參考 https://github.com/malaysia-ai/jupyter-gpu/tree/main/ray
WandB 項目	https://wandb.ai/mesolitica/pretrain-mistral-1.1b?workspace=user-husein-mesolitica
WandB 報告	https://wandb.ai/mesolitica/pretrain-mistral-3b/reports/Pretrain-Larger-Malaysian-Mistral--Vmlldzo2MDkyOTgz
技術報告	https://github.com/mesolitica/malaya/wiki/MaLLaM-%F0%9F%8C%99-Malaysia-Large-Language-Model