mT5_ru_XLSum開源文本生成模型 - 免費實現俄英雙語摘要高效生成

首頁

Mt5 Ru XLSum

由Nehc開發

基於mT5_multilingual_XLSum的修改版，專為俄英雙語摘要生成任務優化的文本到文本生成模型

文本生成

Transformers

支持多種語言#俄英雙語摘要 #多語言文本壓縮 #學術文獻摘要

下載量 43

發布時間 : 2/28/2024

模型概述

這是一個針對俄語和英語文本摘要生成任務優化的多語言T5模型，通過精簡分詞器提升在俄語任務上的表現。

模型特點

雙語優化

專門針對俄語和英語進行優化，分詞器精簡至32K詞彙量

摘要生成

能夠從俄語或英語文本中生成高質量的摘要

多領域適用

可處理從學術論文到新聞文章等多種文本類型的摘要生成

模型能力

文本摘要生成

對話摘要

文本壓縮

多語言處理

使用案例

學術研究

論文摘要生成

自動生成學術論文的簡明摘要

幫助研究者快速瞭解論文核心內容

新聞媒體

新聞簡報生成

從長篇新聞報道中提取關鍵信息生成簡報

提高新聞閱讀效率

商業分析

報告摘要

自動生成商業報告的執行摘要

幫助決策者快速掌握報告要點

🚀 mT5_ru_XLSum

mT5_ru_XLSum 是對 https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum 的改進版本。它依據 David's Dale 的指南，將分詞器縮減至 32K（俄語 + 英語）。

🚀 快速開始

模型使用說明

你可以在 transformers 庫中使用該模型進行文本摘要生成，以下是具體的使用示例：

import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))

article_text = """
С точки зрения банальной эрудиции, в аспекте призматической парадоксальности,
цинизм ваших слов в данной конспекции ассоциируется мистификацией парадоксальных иллюзий.
Разложим его семилинейным функционалом в матpицy пpямоyгольнyю тpоеpанговyю обводимyю
собственной неодноpодностью непpеpывно интегpиpyемой в pазpыв попеpек интеpвала
pасходимости кpиволинейным экстpемyмом чеpез область целостности!
"""

model_name = "Nehc/mT5_ru_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=3
)[0]

summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)

print(summary)

✨ 主要特性

語言支持：支持俄語和英語兩種語言。
分詞器優化：將分詞器縮減至 32K（俄語 + 英語），提升了模型在特定語言上的性能。
文本摘要功能：可用於生成文本的摘要，適用於不同領域的文本。

📄 許可證

本模型使用的許可證為 cc-by-nc-sa-4.0。

🔍 示例展示

俄語笑話示例

原文：С точки зрения банальной эрудиции, в аспекте призматической парадоксальности, цинизм ваших слов в данной конспекции ассоциируется мистификацией парадоксальных иллюзий. Разложим его семилинейным функционалом в матpицy пpямоyгольнyю тpоеpанговyю обводимyю собственной неодноpодностью непpеpывно интегpиpyемой в pазpыв попеpек интеpвала pасходимости кpиволинейным экстpемyмом чеpез область целостности!

學位論文引言示例

原文：'Актуальность проблемы. Электронная информация играет все большую роль во всех сферах жизни современного общества. В последние годы объем научно-технической текстовой информации в электронном виде возрос настолько, что возникает угроза обесценивания этой информации в связи с трудностями поиска необходимых сведений среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными становятся методы автоматизации реферирования текстовой информации, то есть методы получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка проблемы автоматического реферирования текста и соответственно попытки ее решения с использованием различных подходов предпринимались многими исследователями. История применения вычислительной техники для реферирования насчитывает уже более 50 лет и связана с именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления: автоматическое реферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт; автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), содержательно обобщающих первичные документы.

生物信息示例

原文：Первую многоножку, у которой более тысячи ног, обнаружили в австралийских пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по количеству ног была 700-ногая многоножка. Новый вид имеет длинное тонкое тело, похожее на нить, и большое количество конечностей, по-видимому, дает преимущества для быстрого перемещения и проникновения в труднодоступные места — ученые полагают, такая многоножка может спокойно перемещаться по трещинам в камнях. Австралия известна своими огромными и жутковатыми животными вроде 25-сантиметровых пауков. Теперь список пугающих членистоногих пополнился самой «многоногой» в мире многоножкой, у которой более тысячи ног. Необычное животное обнаружила группа исследователей из Австралии и США в пещерах на западе страны. Подробнее многоножку ученые описали в статье в журнале Scientific Reports. Исследователи занимались оценкой воздействия подземных вод на окружающую среду в зоне добычи полезных ископаемых на западе страны, когда наткнулись на новый вид многоножек. В отличие от большинства сородичей, живущих на поверхности, эти многоножки обитали в пещерах на глубине до 60 метров. Новый вид исследователи назвали Eumillipes persephone, в честь Персефоны — древнегреческой богини подземного мира. У многоножки оказалось 1306 ног — больше, чем у любого другого известного вида. Предыдущей рекордсменкой была калифорнийская Illacme plenipes, у которой насчитывалось до 750 ног. «Эти животные были настолько уникальны, — говорит биолог Бруно Бузатто. — Как только я понял, какой длины они были... Стало ясно, что это что-то совершенно новое». У Е. persephone нитевидное тело длиной около 9,5 см и шириной всего миллиметр, состоящее из 330 сегментов, короткие ноги и конусообразная голова. Как и другие животные, живущие в постоянной темноте, эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее с белой нитью, выдернутой из рубашки. Чтобы посчитать количество ног, ученым пришлось сначала снять многоножку в высоком разрешении, а затем закрашивать на фото каждый десяток ног другим цветом. (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)