MyanBERTaオープンソースビルマ語言語モデル - ビルマ語コンテンツの処理と理解を支援

ホーム

Myanberta

UCSYNLPによって開発

MyanBERTaはBERTアーキテクチャに基づくビルマ語事前学習言語モデルで、5,992,299のビルマ語文を含むデータセットで事前学習されています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #ビルマ語BERT #少数言語NLP #バイトレベルBPEトークン化

ダウンロード数 91

リリース時間 : 7/25/2022

モデル概要

このモデルはビルマ語専用の事前学習言語モデルで、BERTアーキテクチャとバイトレベルBPEトークナイザーを採用し、様々なビルマ語自然言語処理タスクに適しています。

モデル特徴

ビルマ語専用

ビルマ語に特化して設計・最適化されており、ビルマ語の言語特性をより適切に処理できます。

大規模事前学習

5,992,299文(1.36億語)を含む大規模ビルマ語データセットで事前学習されています。

効率的なトークン化

バイトレベルBPEトークナイザーを採用し、30,522のサブワードユニットを学習してトークン化ツールとして使用しています。

モデル能力

ビルマ語テキスト理解

ビルマ語テキスト生成

ビルマ語言語特徴抽出

使用事例

自然言語処理

ビルマ語テキスト分類

ビルマ語テキストの感情分析やトピック分類を行う

ビルマ語質問応答システム

ビルマ語ベースのインテリジェントQAアプリケーションを構築

属性	详情
モデルタイプ	MyanBERTa（ミャンマー語の事前学習済み言語モデル）
学習データ	MyCorpus、Web

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Myanberta

モデル概要

モデル特徴

モデル能力

使用事例

🚀 MyanBERTa

🚀 クイックスタート

📚 ドキュメント

引用

論文のダウンロード

📄 ライセンス

📦 モデル情報