開源ByT5-base模型 - 支持多語言文本處理，對噪聲數據有強魯棒性

首頁

Byt5 Base

由google開發

ByT5是谷歌T5的無分詞器版本，直接處理UTF-8字節序列，支持多語言文本處理，對噪聲數據具有魯棒性。

大型語言模型支持多種語言開源協議:Apache-2.0 #字節級處理 #多語言支持 #噪聲魯棒

下載量 24.17k

發布時間 : 3/2/2022

模型概述

ByT5是一種無需分詞的預訓練語言模型，直接處理原始字節序列，適用於多語言文本生成和理解任務。

模型特點

無分詞處理

直接處理UTF-8字節序列，無需依賴分詞器，減少預處理複雜性。

多語言支持

原生支持超過100種語言，可立即處理任何語言的文本。

噪聲魯棒性

在噪聲文本數據上表現優異，如拼寫錯誤和非標準文本。

統一架構

基於標準Transformer架構，僅需最小修改即可處理字節序列。

模型能力

多語言文本生成

文本理解

機器翻譯

文本摘要

使用案例

自然語言處理

多語言文本生成

生成不同語言的連貫文本

在TweetQA等任務上優於分詞模型

噪聲文本處理

處理包含拼寫錯誤或非標準文本

對噪聲數據具有更強魯棒性

🚀 ByT5 - Base

ByT5 是 Google 的 T5 無分詞器版本，總體遵循 MT5 的架構。它在處理噪聲文本數據方面表現出色，能有效應對各種複雜的文本場景，為自然語言處理任務提供了強大的支持。

🚀 快速開始

ByT5 僅在 mC4 上進行了預訓練，平均跨度掩碼為 20 個 UTF - 8 字符，且未進行任何有監督訓練。因此，在下游任務中使用該模型之前，需要對其進行微調。

ByT5 在噪聲文本數據上表現尤其出色，例如，google/byt5 - base 在 TweetQA 上的表現顯著優於 [mt5 - base](https://huggingface.co/google/mt5 - base)。

作者：Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel

✨ 主要特性

無分詞器設計：ByT5 是無分詞器版本的模型，可直接處理原始 UTF - 8 字節，避免了分詞器帶來的複雜性。
處理噪聲文本能力強：在噪聲文本數據上表現出色，如在 TweetQA 任務中顯著優於 mt5 - base。
需微調使用：由於僅進行了預訓練，在下游任務使用前需進行微調。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

ByT5 可直接處理原始 UTF - 8 字節，無需分詞器：

from transformers import T5ForConditionalGeneration
import torch

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')

input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + 3  # add 3 for special tokens
labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + 3  # add 3 for special tokens

loss = model(input_ids, labels=labels).loss # forward pass

高級用法

對於批量推理和訓練，建議使用分詞器類進行填充：

from transformers import T5ForConditionalGeneration, AutoTokenizer

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')
tokenizer = AutoTokenizer.from_pretrained('google/byt5-base')

model_inputs = tokenizer(["Life is like a box of chocolates.", "Today is Monday."], padding="longest", return_tensors="pt")
labels = tokenizer(["La vie est comme une boîte de chocolat.", "Aujourd'hui c'est lundi."], padding="longest", return_tensors="pt").input_ids

loss = model(**model_inputs, labels=labels).loss # forward pass

📚 詳細文檔

大多數廣泛使用的預訓練語言模型基於對應單詞或子詞單元的標記序列進行操作。將文本編碼為標記序列需要分詞器，而分詞器通常是獨立於模型創建的。相反，直接處理原始文本（字節或字符）的無標記模型有很多優點：它們可以直接處理任何語言的文本，對噪聲更具魯棒性，並且通過去除複雜且容易出錯的文本預處理流程，減少了技術負擔。由於字節或字符序列比標記序列更長，過去關於無標記模型的工作通常引入了新的模型架構，旨在分攤直接處理原始文本的成本。

在本文中，作者表明標準的 Transformer 架構只需進行最小的修改即可處理字節序列。作者仔細分析了在參數數量、訓練浮點運算次數和推理速度方面的權衡，並表明字節級模型與其標記級對應模型具有競爭力。作者還證明了字節級模型對噪聲更具魯棒性，並且在對拼寫和發音敏感的任務上表現更好。作為貢獻的一部分，作者發佈了一組基於 T5 架構的新的預訓練字節級 Transformer 模型，以及實驗中使用的所有代碼和數據。

模型圖片

📄 許可證

本項目採用 Apache - 2.0 許可證。

📦 相關信息

屬性	詳情
支持語言	multilingual, af, am, ar, az, be, bg, bn, ca, ceb, co, cs, cy, da, de, el, en, eo, es, et, eu, fa, fi, fil, fr, fy, ga, gd, gl, gu, ha, haw, hi, hmn, ht, hu, hy, ig, is, it, iw, ja, jv, ka, kk, km, kn, ko, ku, ky, la, lb, lo, lt, lv, mg, mi, mk, ml, mn, mr, ms, mt, my, ne, nl, no, ny, pa, pl, ps, pt, ro, ru, sd, si, sk, sl, sm, sn, so, sq, sr, st, su, sv, sw, ta, te, tg, th, tr, uk, und, ur, uz, vi, xh, yi, yo, zh, zu
數據集	mc4
許可證	apache - 2.0