オープンソースのByT5-baseモデル - 多言語テキスト処理をサポートし、ノイズデータに対する強いロバスト性を備える

ホーム

Byt5 Base

googleによって開発

ByT5はGoogleのT5のトークナイザーフリーバージョンで、UTF-8バイトシーケンスを直接処理し、多言語テキスト処理をサポートし、ノイズデータに対して頑健性を持ちます。

大規模言語モデル複数言語対応オープンソースライセンス:Apache-2.0 #バイトレベルの処理 #多言語サポート #ノイズ耐性

ダウンロード数 24.17k

リリース時間 : 3/2/2022

モデル概要

ByT5はトークン化を必要としない事前学習済み言語モデルで、生のバイトシーケンスを直接処理し、多言語テキスト生成や理解タスクに適しています。

モデル特徴

トークン化不要の処理

UTF-8バイトシーケンスを直接処理し、トークナイザーに依存せず、前処理の複雑さを軽減します。

多言語サポート

100以上の言語をネイティブにサポートし、あらゆる言語のテキストを即座に処理できます。

ノイズ耐性

スペルミスや非標準テキストなどのノイズテキストデータに対して優れた性能を発揮します。

統一アーキテクチャ

標準的なTransformerアーキテクチャに基づいており、バイトシーケンスを処理するために最小限の変更のみが必要です。

モデル能力

多言語テキスト生成

テキスト理解

機械翻訳

テキスト要約

使用事例

自然言語処理

多言語テキスト生成

異なる言語で一貫性のあるテキストを生成

TweetQAなどのタスクでトークン化モデルを上回る性能

ノイズテキスト処理

スペルミスや非標準テキストを含む処理

ノイズデータに対してより強い頑健性を発揮

🚀 ByT5 - Base

ByT5は、GoogleのT5のトークナイザーを使用しないバージョンで、一般的にMT5のアーキテクチャに従っています。

ByT5は、平均20 UTF - 8文字のスパンマスクを使用し、教師あり学習を一切行わず、mC4のみで事前学習されています。したがって、このモデルは下流タスクで使用する前にファインチューニングする必要があります。

ByT5は、ノイズの多いテキストデータで特に良好な性能を発揮します。例えば、google/byt5-baseはTweetQAでmt5 - baseを大幅に上回っています。

論文: ByT5: Towards a token - free future with pre - trained byte - to - byte models

著者: Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel

🚀 クイックスタート

ByT5は、生のUTF - 8バイトで動作し、トークナイザーを使用せずに利用できます。

💻 使用例

基本的な使用法

from transformers import T5ForConditionalGeneration
import torch

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')

input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + 3  # add 3 for special tokens
labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + 3  # add 3 for special tokens

loss = model(input_ids, labels=labels).loss # forward pass

高度な使用法

バッチ推論と学習の場合は、パディングのためにトークナイザークラスの使用が推奨されます。

from transformers import T5ForConditionalGeneration, AutoTokenizer

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')
tokenizer = AutoTokenizer.from_pretrained('google/byt5-base')

model_inputs = tokenizer(["Life is like a box of chocolates.", "Today is Monday."], padding="longest", return_tensors="pt")
labels = tokenizer(["La vie est comme une boîte de chocolat.", "Aujourd'hui c'est lundi."], padding="longest", return_tensors="pt").input_ids

loss = model(**model_inputs, labels=labels).loss # forward pass

📚 ドキュメント

ほとんどの広く使用されている事前学習済み言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作します。テキストをトークンのシーケンスとしてエンコードするには、通常、モデルとは独立したアーティファクトとして作成されるトークナイザーが必要です。代わりに生のテキスト（バイトまたは文字）で直接動作するトークンフリーのモデルには多くの利点があります。これらのモデルは、どの言語のテキストもそのまま処理でき、ノイズに対してより強固であり、複雑でエラーが発生しやすいテキスト前処理パイプラインを削除することで技術的負債を最小限に抑えます。バイトまたは文字シーケンスはトークンシーケンスよりも長いため、過去のトークンフリーモデルに関する研究では、生のテキストで直接動作するコストを償却するために新しいモデルアーキテクチャを導入することが多かったです。この論文では、標準的なTransformerアーキテクチャを最小限の変更でバイトシーケンスを処理するために使用できることを示します。パラメータ数、学習FLOP、および推論速度の観点からトレードオフを慎重に分析し、バイトレベルのモデルがトークンレベルのモデルと競争力があることを示します。また、バイトレベルのモデルはノイズに対して大幅に強固であり、綴りや発音に敏感なタスクでより良い性能を発揮することを実証します。我々の貢献の一部として、T5アーキテクチャに基づく新しい事前学習済みバイトレベルTransformerモデルのセットと、実験で使用したすべてのコードとデータを公開します。

model image

📄 ライセンス

このプロジェクトは、Apache - 2.0ライセンスの下で公開されています。

📦 情報

属性	详情
対応言語	multilingual, af, am, ar, az, be, bg, bn, ca, ceb, co, cs, cy, da, de, el, en, eo, es, et, eu, fa, fi, fil, fr, fy, ga, gd, gl, gu, ha, haw, hi, hmn, ht, hu, hy, ig, is, it, iw, ja, jv, ka, kk, km, kn, ko, ku, ky, la, lb, lo, lt, lv, mg, mi, mk, ml, mn, mr, ms, mt, my, ne, nl, no, ny, pa, pl, ps, pt, ro, ru, sd, si, sk, sl, sm, sn, so, sq, sr, st, su, sv, sw, ta, te, tg, th, tr, uk, und, ur, uz, vi, xh, yi, yo, zh, zu
データセット	mc4

属性

详情

対応言語

multilingual, af, am, ar, az, be, bg, bn, ca, ceb, co, cs, cy, da, de, el, en, eo, es, et, eu, fa, fi, fil, fr, fy, ga, gd, gl, gu, ha, haw, hi, hmn, ht, hu, hy, ig, is, it, iw, ja, jv, ka, kk, km, kn, ko, ku, ky, la, lb, lo, lt, lv, mg, mi, mk, ml, mn, mr, ms, mt, my, ne, nl, no, ny, pa, pl, ps, pt, ro, ru, sd, si, sk, sl, sm, sn, so, sq, sr, st, su, sv, sw, ta, te, tg, th, tr, uk, und, ur, uz, vi, xh, yi, yo, zh, zu

データセット

mc4