🚀 afriberta_base
Hugging Faceが提供する、複数のアフリカ言語に対応した事前学習済み言語モデルです。多言語のテキスト分類や固有表現認識などの下流タスクでの活用が期待されます。
🚀 クイックスタート
AfriBERTa baseは、事前学習済みの多言語言語モデルで、約1億1100万のパラメータを持っています。このモデルは、いくつかのアフリカ言語におけるテキスト分類や固有表現認識などの下流タスクで競争力のある性能を発揮することが示されています。
✨ 主な機能
- 11種類のアフリカ言語に対応した多言語言語モデルです。
- テキスト分類や固有表現認識などの下流タスクで良好な性能を発揮します。
📦 インストール
このモデルはtransformers
ライブラリを使用して簡単に利用できます。以下のコードでモデルとトークナイザーをロードできます。
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_base")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_base")
>>> tokenizer.model_max_length = 512
💻 使用例
基本的な使用法
以下は、トークン分類タスクでこのモデルをファインチューニングする例です。
>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> model = AutoModelForTokenClassification.from_pretrained("castorini/afriberta_base")
>>> tokenizer = AutoTokenizer.from_pretrained("castorini/afriberta_base")
>>> tokenizer.model_max_length = 512
📚 ドキュメント
モデルの詳細
AfriBERTa baseは、8層、6つのアテンションヘッド、768の隠れユニット、3072のフィードフォワードサイズを持つモデルです。このモデルは、11種類のアフリカ言語で事前学習されており、それらの言語以外の言語でも下流タスクで良好な性能を発揮することが示されています。
想定される用途と制限
使い方
このモデルは、Transformersを使用して任意の下流タスクに使用できます。
制限とバイアス
- このモデルは、主に特定の期間のニュース記事から取得されたトレーニングデータセットによって制限される可能性があります。したがって、汎化性能が低い可能性があります。
- このモデルは非常に少ないデータ(1GB未満)でトレーニングされているため、非常に複雑な言語関係を学習するのに十分なデータを見ていない可能性があります。
トレーニングデータ
このモデルは、BBCニュースウェブサイトとCommon Crawlのデータセットを集約したものでトレーニングされています。
トレーニング手順
トレーニング手順に関する情報は、AfriBERTaの論文またはリポジトリを参照してください。
BibTeXエントリと引用情報
@inproceedings{ogueji-etal-2021-small,
title = "Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages",
author = "Ogueji, Kelechi and
Zhu, Yuxin and
Lin, Jimmy",
booktitle = "Proceedings of the 1st Workshop on Multilingual Representation Learning",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.mrl-1.11",
pages = "116--126",
}
プロパティ |
詳細 |
モデルタイプ |
事前学習済み多言語言語モデル |
トレーニングデータ |
BBCニュースウェブサイトとCommon Crawlのデータセットの集約 |
⚠️ 重要な注意
このモデルは、主に特定の期間のニュース記事から取得されたトレーニングデータセットによって制限される可能性があります。したがって、汎化性能が低い可能性があります。また、このモデルは非常に少ないデータ(1GB未満)でトレーニングされているため、非常に複雑な言語関係を学習するのに十分なデータを見ていない可能性があります。