🚀 IT5 Cased Small Efficient EL32によるニュース要約 ✂️🗞️ 🇮🇹
事前学習済みの効率的なモデルを提供してくれた Stefan Schweter に感謝します!
このリポジトリには、IT5 Cased Small Efficient EL32 モデルのチェックポイントが含まれています。このモデルは、Fanpage と Il Post コーパスのニュース要約タスクでファインチューニングされています。これは、Gabriele Sarti と Malvina Nissim による論文 IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation の実験の一部として行われました。
効率的なIT5モデルは、大文字小文字を区別したテキスト生成を可能にする独自の語彙と、最適化されたモデルアーキテクチャ を採用することで、標準のモデルとは異なります。これにより、パラメータ数を削減しながら性能を向上させることができます。Small-EL32は、T5 Smallアーキテクチャの元のエンコーダを32層の深いエンコーダに置き換えることで、ベースモデルよりも性能が向上しています。
他の公開された資料の包括的な概要は、gsarti/it5 リポジトリで提供されています。報告されたスコアと評価アプローチに関する追加の詳細については、論文を参照してください。
🚀 クイックスタート
モデルのチェックポイントは、Tensorflow、Pytorch、JAXで使用できます。パイプラインを使って直接利用することができます。
from transformers import pipelines
newsum = pipeline("summarization", model='it5/it5-efficient-small-el32-news-summarization')
newsum("Dal 31 maggio è infine partita la piattaforma ITsART, a più di un anno da quando – durante il primo lockdown – il ministro della Cultura Dario Franceschini ne aveva parlato come di «una sorta di Netflix della cultura», pensata per «offrire a tutto il mondo la cultura italiana a pagamento». È presto per dare giudizi definitivi sulla piattaforma, e di certo sarà difficile farlo anche più avanti senza numeri precisi. Al momento, l’unica cosa che si può fare è guardare com’è fatto il sito, contare quanti contenuti ci sono (circa 700 “titoli”, tra film, documentari, spettacoli teatrali e musicali e altri eventi) e provare a dare un giudizio sul loro valore e sulla loro varietà. Intanto, una cosa notata da più parti è che diversi contenuti di ITsART sono a pagamento sulla piattaforma sebbene altrove, per esempio su RaiPlay, siano invece disponibili gratuitamente.")
>>> [{"generated_text": "ITsART, la Netflix della cultura italiana, parte da maggio. Film, documentari, spettacoli teatrali e musicali disponibili sul nuovo sito a pagamento."}]
または、オートクラスを使ってロードすることもできます。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-efficient-small-el32-news-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-efficient-small-el32-news-summarization")
もしあなたがこのモデルを研究で使用する場合は、以下のように我々の研究を引用してください。
@article{sarti-nissim-2022-it5,
title={{IT5}: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv preprint 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={mar}
}
✨ 主な機能
- 大文字小文字を区別したテキスト生成が可能です。
- 最適化されたモデルアーキテクチャにより、パラメータ数を削減しながら性能を向上させています。
- Small-EL32は、32層の深いエンコーダを採用しており、ベースモデルよりも性能が向上しています。
💻 使用例
基本的な使用法
from transformers import pipelines
newsum = pipeline("summarization", model='it5/it5-efficient-small-el32-news-summarization')
newsum("Dal 31 maggio è infine partita la piattaforma ITsART, a più di un anno da quando – durante il primo lockdown – il ministro della Cultura Dario Franceschini ne aveva parlato come di «una sorta di Netflix della cultura», pensata per «offrire a tutto il mondo la cultura italiana a pagamento». È presto per dare giudizi definitivi sulla piattaforma, e di certo sarà difficile farlo anche più avanti senza numeri precisi. Al momento, l’unica cosa che si può fare è guardare com’è fatto il sito, contare quanti contenuti ci sono (circa 700 “titoli”, tra film, documentari, spettacoli teatrali e musicali e altri eventi) e provare a dare un giudizio sul loro valore e sulla loro varietà. Intanto, una cosa notata da più parti è che diversi contenuti di ITsART sono a pagamento sulla piattaforma sebbene altrove, per esempio su RaiPlay, siano invece disponibili gratuitamente.")
>>> [{"generated_text": "ITsART, la Netflix della cultura italiana, parte da maggio. Film, documentari, spettacoli teatrali e musicali disponibili sul nuovo sito a pagamento."}]
高度な使用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("it5/it5-efficient-small-el32-news-summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("it5/it5-efficient-small-el32-news-summarization")
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。