SinBERT-largeオープンソースシンハラ語言語モデル - 事前学習によるシンハラ語自然言語処理の支援

ホーム

Sinbert Large

NLPC-UOMによって開発

SinBERTはRoBERTaアーキテクチャに基づく僧伽羅語の事前学習言語モデルで、大型の僧伽羅語単言語コーパス（sin-cc-15M）で学習されています。

大規模言語モデル

Transformers

その他オープンソースライセンス:MIT #僧伽羅語の事前学習 #テキスト分類の最適化 #単言語コーパス

ダウンロード数 150

リリース時間 : 3/2/2022

モデル概要

SinBERTモデルは僧伽羅語のテキスト処理用に特別に設計されており、テキスト分類などの様々な自然言語処理タスクに適しています。

モデル特徴

僧伽羅語の最適化

僧伽羅語に特化して事前学習され、この言語のテキスト処理能力を最適化しています。

RoBERTaアーキテクチャに基づく

RoBERTaアーキテクチャを採用し、その優れた自然言語処理能力を引き継いでいます。

大規模な学習データ

sin-cc-15M大型僧伽羅語単言語コーパスを使用して学習されています。

モデル能力

テキスト分類

自然言語理解

テキスト特徴抽出

使用事例

テキスト分析

僧伽羅語のテキスト分類

僧伽羅語のテキストに対して分類タスクを行います。

LREC 2022論文で良好な分類性能が示されています。

Property	Details
Model Type	SinBERT-large
Training Data	sin-cc-15M（Sinhalaの大規模単言語コーパス）

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Sinbert Large

モデル概要

モデル特徴

モデル能力

使用事例

🚀 SinBERT-largeモデル

📚 ドキュメント

引用情報

モデル情報

📄 ライセンス