オープンソースbyT5-largeモデル - 多言語処理の利器で、ノイズのあるテキスト処理にもより堅牢です！

Byt5 Large

googleによって開発

ByT5はGoogleのT5の形態素解析器なしのバージョンで、UTF - 8バイトシーケンスを直接処理し、多言語処理をサポートし、ノイズテキストに対してより強いロバスト性を持ちます。

大規模言語モデル複数言語対応オープンソースライセンス:Apache-2.0 #形態素解析器なしでの処理 #多言語対応 #ノイズテキストに対するロバスト性

ダウンロード数 29.76k

リリース時間 : 3/2/2022

モデル概要

ByT5はT5アーキテクチャに基づく形態素解析器なしの事前学習モデルで、元のUTF - 8バイトシーケンスを直接処理し、形態素解析器なしで使用できます。このモデルはmC4多言語データセットで事前学習されており、ノイズテキストと多言語タスクの処理に特に適しています。

モデル特徴

形態素解析器なしの設計

元のUTF - 8バイトシーケンスを直接処理し、形態素解析器が不要で、前処理の流れを簡素化します

多言語対応

100種以上の言語の処理をサポートし、多くの低リソース言語も含まれます

ノイズに対するロバスト性

ノイズテキスト（誤字、非標準形式など）に対してより強い処理能力を持ちます

統一アーキテクチャ

標準のTransformerアーキテクチャを使用し、バイトシーケンスを処理するために最小限の変更で済みます

モデル能力

多言語テキスト生成

機械翻訳

テキスト要約

ノイズテキスト処理

使用事例

自然言語処理

多言語機械翻訳

異なる言語間での翻訳を行い、特に非標準またはノイズテキストの処理が可能

TweetQAなどのノイズテキストデータセットで、形態素解析モデルよりも優れた性能を発揮します

テキスト生成

首尾一貫した多言語テキストを生成します

ソーシャルメディア分析

ソーシャルメディアテキスト処理

誤字、略語、非標準形式を含むソーシャルメディアテキストを処理します

ノイズテキストに対してより強いロバスト性を持ちます

🚀 ByT5 - large

ByT5は、GoogleのT5のトークナイザーを使用しないバージョンで、一般的にMT5のアーキテクチャに従っています。このモデルは、下流のタスクで使用する前にファインチューニングする必要がありますが、ノイズの多いテキストデータに対して特に良好な性能を発揮します。

🚀 クイックスタート

ByT5は、mC4でのみ事前学習され、平均20文字のUTF - 8文字のスパンマスクを使用しています。下流のタスクで使用する前にはファインチューニングが必要です。

✨ 主な機能

ByT5はトークナイザーを必要とせず、生のUTF - 8バイトで動作します。
ノイズの多いテキストデータに対して良好な性能を発揮します。例えば、google/byt5-largeはTweetQAでmt5-largeを大きく上回っています。

💻 使用例

基本的な使用法

from transformers import T5ForConditionalGeneration
import torch

model = T5ForConditionalGeneration.from_pretrained('google/byt5-large')

input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + 3  # add 3 for special tokens
labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + 3  # add 3 for special tokens

loss = model(input_ids, labels=labels).loss # forward pass

高度な使用法

from transformers import T5ForConditionalGeneration, AutoTokenizer

model = T5ForConditionalGeneration.from_pretrained('google/byt5-large')
tokenizer = AutoTokenizer.from_pretrained('google/byt5-large')

model_inputs = tokenizer(["Life is like a box of chocolates.", "Today is Monday."], padding="longest", return_tensors="pt")
labels = tokenizer(["La vie est comme une boîte de chocolat.", "Aujourd'hui c'est lundi."], padding="longest", return_tensors="pt").input_ids

loss = model(**model_inputs, labels=labels).loss # forward pass

📚 ドキュメント

論文

ByT5: Towards a token-free future with pre-trained byte-to-byte models

著者

Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel

概要

ほとんどの広く使用されている事前学習言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作します。テキストをトークンのシーケンスとしてエンコードするには、通常、モデルとは独立したアーティファクトとして作成されるトークナイザーが必要です。代わりに生のテキスト（バイトまたは文字）で直接動作するトークンフリーモデルには多くの利点があります。すなわち、どの言語のテキストもそのまま処理でき、ノイズに対してより堅牢であり、複雑でエラーが発生しやすいテキスト前処理パイプラインを削除することで技術的負債を最小限に抑えることができます。バイトまたは文字シーケンスはトークンシーケンスよりも長いため、過去のトークンフリーモデルに関する研究では、生のテキストで直接動作するコストを償却するために新しいモデルアーキテクチャが導入されることが多かったです。この論文では、標準的なTransformerアーキテクチャを最小限の変更でバイトシーケンスを処理するために使用できることを示します。パラメータ数、トレーニングFLOP、および推論速度の観点からトレードオフを慎重に分析し、バイトレベルのモデルがトークンレベルのモデルと競争力があることを示します。また、バイトレベルのモデルはノイズに対して著しく堅牢であり、綴りや発音に敏感なタスクでより良い性能を発揮することを実証します。我々の貢献の一部として、T5アーキテクチャに基づく新しい事前学習済みバイトレベルのTransformerモデルのセットと、実験で使用したすべてのコードとデータを公開します。

model image

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で提供されています。

📦 モデル情報

属性	详情
模型类型	ByT5 - largeは、トークナイザーを使用しないバージョンのT5モデルで、MT5のアーキテクチャに基づいています。
训练数据	mC4