ベンガル語のbengali - t5 - baseオープンソースモデル - ベンガル語のテキスト処理タスクを無料でサポート

ホーム

Bengali T5 Base

flax-communityによって開発

MT5データセットのベンガル語部分で訓練されたT5ベースモデル、HuggingFaceコミュニティによって開発

大規模言語モデル #ベンガル語T5 #ノイズ除去事前学習 #110億トークン

ダウンロード数 57

リリース時間 : 3/2/2022

モデル概要

これはベンガル語に特化して訓練されたT5ベースモデルで、ノイズ除去目標を用いた事前学習を行い、下流タスクの基盤モデルとして適しています

モデル特徴

ベンガル語専用

ベンガル語に最適化された事前学習モデル

大規模訓練

約110億トークンのベンガル語データで訓練

TPU加速訓練

Google提供のTPU演算能力を活用した効率的な訓練

モデル能力

テキストノイズ除去

言語モデル事前学習

ベンガル語テキスト処理

使用事例

自然言語処理

ベンガル語テキスト生成

微調整後にベンガル語テキスト生成の基礎モデルとして使用可能

プレフィックス言語モデルの微調整後に生成能力を獲得可能

下流タスク微調整

様々なベンガル語NLPタスクの基盤モデルとして使用可能

🚀 bengali-t5-base

bengali-t5-base は、MT5データセットのベンガル語部分を使って学習されたモデルです。このモデルには T5-base モデルを使用しています。

Flax/Jax Community Week は、HuggingFace によって主催され、TPUの使用はGoogleによって支援されています。

このモデルは、約110億トークン（バッチサイズ64、トークン数512、ステップ数35万）で学習されています。

🚀 クイックスタート

✨ 主な機能

ベンガル語部分のMT5データセットを使用した学習。
T5-base モデルをベースとしている。

📦 インストール

このセクションでは、トークナイザーとモデルの読み込み方法を説明します。

トークナイザーの読み込み

>>> tokenizer = transformers.AutoTokenizer.from_pretrained("flax-community/bengali-t5-base")
>>> tokenizer.encode("আমি বাংলার গান গাই")
>>> tokenizer.decode([93, 1912, 814, 5995, 3, 1])

[93, 1912, 814, 5995, 3, 1]
'আমি বাংলার গান গাই </s>'

モデルの読み込み

>>> config  = T5Config.from_pretrained("flax-community/bengali-t5-base")
>>> model = FlaxT5ForConditionalGeneration.from_pretrained("flax-community/bengali-t5-base", config=config)

💻 使用例

基本的な使用法

# トークナイザーの読み込み
>>> tokenizer = transformers.AutoTokenizer.from_pretrained("flax-community/bengali-t5-base")
>>> tokenizer.encode("আমি বাংলার গান গাই")
>>> tokenizer.decode([93, 1912, 814, 5995, 3, 1])

# モデルの読み込み
>>> config  = T5Config.from_pretrained("flax-community/bengali-t5-base")
>>> model = FlaxT5ForConditionalGeneration.from_pretrained("flax-community/bengali-t5-base", config=config)