開源byT5-large模型 - 多語言處理利器，對噪聲文本處理更穩健！

Home

Byt5 Large

Developed by google

ByT5是谷歌T5的無分詞器版本，直接處理UTF-8字節序列，支持多語言處理，對噪聲文本具有更強的魯棒性。

大型語言模型 Supports Multiple LanguagesOpen Source License:Apache-2.0 #無分詞器處理 #多語言支持 #噪聲文本魯棒

Downloads 29.76k

Release Time : 3/2/2022

Model Overview

ByT5是基於T5架構的無分詞器預訓練模型，直接處理原始UTF-8字節序列，無需分詞器即可使用。該模型在mC4多語言數據集上預訓練，特別適合處理噪聲文本和多語言任務。

Model Features

無分詞器設計

直接處理原始UTF-8字節序列，無需分詞器，簡化了預處理流程

多語言支持

支持100多種語言的處理，包括許多低資源語言

噪聲魯棒性

對噪聲文本（如拼寫錯誤、非標準格式）具有更強的處理能力

統一架構

使用標準Transformer架構，只需最小修改即可處理字節序列

Model Capabilities

多語言文本生成

機器翻譯

文本摘要

噪聲文本處理

Use Cases

自然語言處理

多語言機器翻譯

在不同語言之間進行翻譯，特別是處理非標準或噪聲文本

在TweetQA等噪聲文本數據集上表現優於分詞模型

文本生成

生成連貫的多語言文本

社交媒體分析

社交媒體文本處理

處理包含拼寫錯誤、縮寫和非標準格式的社交媒體文本

對噪聲文本具有更強的魯棒性

🚀 ByT5 - large

ByT5是谷歌T5的無分詞器版本，總體上遵循MT5的架構。它能直接處理原始文本，無需分詞器，對各種語言的文本處理具有良好的通用性和對噪聲文本的魯棒性。

🚀 快速開始

ByT5是谷歌T5的無分詞器版本，總體上遵循MT5的架構。

ByT5僅在多語言C4數據集（mC4）上進行了預訓練，平均跨度掩碼為20個UTF - 8字符，且未進行任何有監督訓練。因此，該模型在用於下游任務之前需要進行微調。

ByT5在處理噪聲文本數據時表現出色，例如，google/byt5-large在TweetQA任務上的表現顯著優於mt5-large。

論文：ByT5: Towards a token-free future with pre-trained byte-to-byte models

作者：Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel

💻 使用示例

基礎用法

ByT5可以直接處理原始的UTF - 8字節數據，無需使用分詞器：

from transformers import T5ForConditionalGeneration
import torch

model = T5ForConditionalGeneration.from_pretrained('google/byt5-large')

input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + 3  # add 3 for special tokens
labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + 3  # add 3 for special tokens

loss = model(input_ids, labels=labels).loss # forward pass

高級用法

在批量推理和訓練時，建議使用分詞器類進行填充：

from transformers import T5ForConditionalGeneration, AutoTokenizer

model = T5ForConditionalGeneration.from_pretrained('google/byt5-large')
tokenizer = AutoTokenizer.from_pretrained('google/byt5-large')

model_inputs = tokenizer(["Life is like a box of chocolates.", "Today is Monday."], padding="longest", return_tensors="pt")
labels = tokenizer(["La vie est comme une boîte de chocolat.", "Aujourd'hui c'est lundi."], padding="longest", return_tensors="pt").input_ids

loss = model(**model_inputs, labels=labels).loss # forward pass

📚 詳細文檔

摘要

大多數廣泛使用的預訓練語言模型對與單詞或子詞單元對應的標記序列進行操作。將文本編碼為標記序列需要一個分詞器，而分詞器通常是與模型獨立創建的產物。無標記模型直接對原始文本（字節或字符）進行操作，具有許多優點：它們可以直接處理任何語言的文本，對噪聲更具魯棒性，並且通過去除複雜且容易出錯的文本預處理流程，減少了技術負擔。由於字節或字符序列比標記序列更長，過去關於無標記模型的工作通常引入了新的模型架構，旨在分攤直接處理原始文本的成本。在本文中，我們表明標準的Transformer架構只需進行最小的修改就可以用於處理字節序列。我們仔細分析了在參數數量、訓練浮點運算次數和推理速度方面的權衡，並表明字節級模型與標記級模型具有競爭力。我們還證明了字節級模型對噪聲具有顯著更高的魯棒性，並且在對拼寫和發音敏感的任務上表現更好。作為我們工作的一部分，我們發佈了一組基於T5架構的新的預訓練字節級Transformer模型，以及實驗中使用的所有代碼和數據。

模型圖片