SaudiBERTオープンソース言語モデル - サウジアラビアのコーパスに基づき、サウジアラビアの方言テキストを処理するのに超実用的

ホーム

Saudibert

faisalqによって開発

SaudiBERTは、サウジアラビア方言テキストに特化した最初の事前学習大規模言語モデルで、大規模なサウジアラビアのツイッターとフォーラムのコーパスを基に訓練されています。

大規模言語モデル

Transformers

アラビア語#サウジアラビア方言処理 #ツイッターテキスト分析 #マスク言語モデリング

ダウンロード数 233

リリース時間 : 4/1/2024

モデル概要

このモデルは、サウジアラビア方言に特化して設計されており、サウジアラビア地域のソーシャルメディアやフォーラムのテキストを処理するのに適しており、マスク言語モデルなどのタスクをサポートします。

モデル特徴

サウジアラビア方言専用

サウジアラビア方言に特化して事前学習された最初の大規模言語モデル

大規模コーパス

1億4100万件のサウジアラビアのツイートと7000万件のフォーラム文からなる26.3GBの大規模コーパスを基に訓練されています

ソーシャルメディア最適化

サウジアラビア地域のツイッターとフォーラムのテキストを処理するのに特に適しています

モデル能力

サウジアラビア方言テキスト理解

マスク言語モデリング

ソーシャルメディアテキスト処理

使用事例

ソーシャルメディア分析

サウジアラビアツイッターテキスト補完

例：'اللي ما يعرف الصقر [MASK].'（ハヤブサを知らない人...）

サウジアラビア方言で欠けている単語を予測できます

方言研究

サウジアラビア方言言語モデル研究

サウジアラビア方言の言語特徴と用法を研究するために使用されます

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Saudibert

モデル概要

モデル特徴

モデル能力

使用事例

🚀 SaudiBERT

🚀 クイックスタート

📄 ライセンス

📚 ドキュメント

BibTex