A

Arbertv2

UBC-NLPによって開発
ARBERTv2は、現代標準アラビア語(MSA)をベースに訓練されたアップグレード版のBERTモデルで、訓練コーパスは243GBのテキストで、278億のトークンを含んでいます。
ダウンロード数 267
リリース時間 : 4/11/2023

モデル概要

ARBERTv2はアラビア語向けの深度双方向Transformerモデルで、現代標準アラビア語の処理に特化しており、ツイッターなどのソーシャルメディアのテキスト分析に特に適しています。

モデル特徴

大規模アラビア語訓練
243GBの現代標準アラビア語テキストをベースに訓練され、278億のトークンを含んでいます。
MSA処理に特化
現代標準アラビア語(MSA)の理解能力を特別に最適化しています。
ソーシャルメディア適応
訓練データにはツイッターのテキストが含まれており、ソーシャルメディア分析に適しています。

モデル能力

アラビア語テキスト理解
マスク言語予測
ソーシャルメディアテキスト分析

使用事例

自然言語処理
アラビア語の穴埋め問題
マスクされたアラビア語の単語を予測します。
例:「اللغة العربية هي لغة العرب」の「العربية」を正確に予測できます。
ソーシャルメディア分析
アラビア語のツイッター内容を分析します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase