pyc2py_alpha2 ByT5オープンソースモデル - 形態素解析器不要、ノイズや多言語テキストの処理に超実用的

Pyc2py Alpha2

baffo32によって開発

ByT5はGoogleのT5の形態素解析器不要なバージョンで、形態素解析器に依存せずに生のUTF - 8バイトを直接処理します。ノイズテキストや多言語シナリオの処理に特に適しています。

大規模言語モデルその他オープンソースライセンス:Apache-2.0 #バイトレベル処理 #多言語対応 #ノイズテキストに対するロバスト性

ダウンロード数 15

リリース時間 : 3/2/2022

モデル概要

ByT5はバイトからバイトへの事前学習を行ったTransformerモデルで、形態素解析器を必要とせずに生のUTF - 8バイトシーケンスを直接処理します。このモデルはmC4データセットで事前学習され、多言語テキスト処理タスクに適しており、特にノイズテキストで優れた性能を発揮します。

モデル特徴

形態素解析器不要な設計

生のUTF - 8バイトを直接処理し、独立した形態素解析器に依存しないため、技術的な複雑さを低減します。

多言語対応

バイトレベルの処理に基づいており、追加の言語適応なしですべての言語のテキストを自然にサポートします。

ノイズに対するロバスト性

ノイズテキスト（誤字や非標準形式など）では、従来の形態素解析モデルよりも著しく優れた性能を発揮します。

統一アーキテクチャ

標準的なTransformerアーキテクチャを使用し、バイトシーケンスを処理するためにわずかな調整だけで済みます。

モデル能力

多言語テキスト生成

ノイズテキスト処理

言語間の転移学習

テキスト理解と変換

使用事例

自然言語処理

多言語テキスト要約

複数の言語のテキストに対して要約を生成する

言語固有の処理なしで言語間の要約を実現できます

ノイズテキスト処理

誤字や非標準形式を含むテキストを処理する

TweetQAタスクでは従来の形態素解析モデルよりも優れた性能を発揮します

機械翻訳

バイトレベルの機械翻訳

バイトシーケンスレベルで直接言語変換を行う

形態素解析による情報損失を回避できます

🚀 ByT5 - Base

ByT5は、GoogleのT5のトークナイザーなしバージョンで、全体的にMT5のアーキテクチャに従っています。トークナイザーを必要とせず、生のUTF - 8バイトデータを直接処理でき、ノイジーなテキストデータの処理に優れています。

🚀 クイックスタート

ByT5はTransformerアーキテクチャに基づくモデルで、mC4データセットで平均20個のUTF - 8文字のスパンマスクを用いて事前学習されています。このモデルは下流タスクに使用する前に微調整が必要です。

✨ 主な機能

トークナイザー不要：ByT5はトークナイザーなしのT5モデルで、生のUTF - 8バイトデータを直接処理できます。
事前学習データ：mC4のみで事前学習されており、何らかの教師付き学習は行われておらず、平均20個のUTF - 8文字のスパンマスクが適用されています。
下流タスクでは微調整が必要：このモデルは下流タスクに使用する前に微調整が必要です。
ノイジーなテキストの処理能力が高い：ノイジーなテキストデータで優れた性能を発揮します。例えば、TweetQAタスクでは、google/byt5 - baseが[mt5 - base](https://huggingface.co/google/mt5 - base)を大きく上回っています。

💻 使用例

基本的な使用法

ByT5はトークナイザーを必要とせず、生のUTF - 8バイトデータを直接処理できます。

from transformers import T5ForConditionalGeneration
import torch

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')

input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + 3  # add 3 for special tokens
labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + 3  # add 3 for special tokens

loss = model(input_ids, labels=labels).loss # forward pass

高度な使用法

バッチ推論や学習の場合は、トークナイザークラスを使用してパディングすることをおすすめします。

from transformers import T5ForConditionalGeneration, AutoTokenizer

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')
tokenizer = AutoTokenizer.from_pretrained('google/byt5-base')

model_inputs = tokenizer(["Life is like a box of chocolates.", "Today is Monday."], padding="longest", return_tensors="pt")
labels = tokenizer(["La vie est comme une boîte de chocolat.", "Aujourd'hui c'est lundi."], padding="longest", return_tensors="pt").input_ids

loss = model(**model_inputs, labels=labels).loss # forward pass

📚 ドキュメント

論文情報

タイトル：ByT5: Towards a token - free future with pre - trained byte - to - byte models
著者：Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel

モデルの利点

ほとんどの広く使用されている事前学習言語モデルは、単語またはサブワード単位のトークン列で動作し、テキストをトークン列にエンコードするためにトークナイザーが必要です。一方、トークンなしモデルは生のテキスト（バイトまたは文字）を直接処理し、多くの利点があります。任意の言語のテキストを直接処理でき、ノイズに対してよりロバストであり、複雑でエラーが発生しやすいテキスト前処理プロセスを排除することで技術的な負担を軽減します。

モデルアーキテクチャ

この論文では、標準的なTransformerアーキテクチャに最小限の変更を加えるだけで、バイト列を処理できることが示されています。研究チームは、パラメータ数、学習時のFLOPs、推論速度などのトレードオフを詳細に分析し、バイトレベルのモデルがトークンレベルのモデルと競争力があることを示しています。さらに、バイトレベルのモデルはノイズに対してよりロバストで、スペルや発音に敏感なタスクでより良い性能を発揮します。