シンハラBERToオープンソースモデル - 低リソースのシンハラ語に無料の基盤サポートを提供

ホーム

Sinhalaberto

keshanによって開発

これは、OSCARの僧伽羅語の重複除去データセットを基に訓練されたやや小さいモデルで、低リソースの僧伽羅語に基礎的なサポートを提供します。

大規模言語モデルその他#僧伽罗語の事前学習 #低リソース言語モデル #マスク言語モデリング

ダウンロード数 34

リリース時間 : 3/2/2022

モデル概要

このモデルは、Robertaアーキテクチャを基に訓練された僧伽羅語の言語モデルで、主にマスク言語モデリングタスクに使用され、下流タスクの事前学習の基礎を提供します。

モデル特徴

低リソース言語サポート

リソースが不足している僧伽羅語に特化して最適化訓練されています。

軽量アーキテクチャ

6層の隠れ層を持つシンプルなRobertaアーキテクチャを採用しており、リソースが限られた環境に適しています。

大規模事前学習データ

OSCARの重複除去データセットを基に訓練されており、広範な言語特徴を網羅しています。

モデル能力

テキスト埋め込み

言語モデリング

コンテキスト予測

使用事例

自然言語処理

テキスト補完

僧伽羅語の文章の欠落部分を自動的に補完します。

文章内のマスクされた単語を正確に予測できます。

言語モデルのファインチューニング

下流のNLPタスクの事前学習ベースモデルとして使用されます。

さまざまな僧伽羅語のNLPアプリケーションに転移学習の基礎を提供します。

属性	詳細
モデルタイプ	Roberta
語彙サイズ	52000
最大位置埋め込み	514
アテンションヘッド数	12
隠れ層数	6
タイプ語彙サイズ	1

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Sinhalaberto

モデル概要

モデル特徴

モデル能力

使用事例

🚀 シンハラ語事前学習モデル（SinhalaBERTo）

🚀 クイックスタート

✨ 主な機能

💻 使用例

基本的な使用法

📚 ドキュメント

モデル仕様