MyanBERTa開源緬甸語語言模型 - 助力緬甸語內容處理與理解

首頁

Myanberta

由UCSYNLP開發

MyanBERTa是基於BERT架構的緬甸語預訓練語言模型，在包含5,992,299個句子的緬甸語數據集上進行了預訓練。

大型語言模型

Transformers

其他開源協議:Apache-2.0 #緬甸語BERT #小語種NLP #字節級BPE分詞

下載量 91

發布時間 : 7/25/2022

模型概述

該模型是一個專門針對緬甸語的預訓練語言模型，採用BERT架構和字節級BPE分詞器，適用於各種緬甸語自然語言處理任務。

模型特點

緬甸語專用

專門針對緬甸語設計和優化，能夠更好地處理緬甸語的語言特性。

大規模預訓練

在包含5,992,299個句子(1.36億詞)的大規模緬甸語數據集上進行預訓練。

高效分詞

採用字節級BPE分詞器，學習得到30,522個子詞單元作為分詞工具。

模型能力

緬甸語文本理解

緬甸語文本生成

緬甸語語言特徵提取

使用案例

自然語言處理

緬甸語文本分類

對緬甸語文本進行情感分析或主題分類

緬甸語問答系統

構建基於緬甸語的智能問答應用

屬性	詳情
模型類型	基於BERT的緬甸語預訓練語言模型
訓練數據	MyCorpus和網絡數據

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Myanberta

模型概述

模型特點

模型能力

使用案例

🚀 MyanBERTa - 緬甸語預訓練語言模型

🚀 快速開始

模型信息

模型描述

引用信息

論文下載

📄 許可證