mT5_ru_XLSum開源文本生成模型 - 免費實現俄英雙語摘要高效生成

Home

Mt5 Ru XLSum

Developed by Nehc

基於mT5_multilingual_XLSum的修改版，專為俄英雙語摘要生成任務優化的文本到文本生成模型

文本生成

Transformers

Supports Multiple Languages#俄英雙語摘要 #多語言文本壓縮 #學術文獻摘要

Downloads 43

Release Time : 2/28/2024

Model Overview

這是一個針對俄語和英語文本摘要生成任務優化的多語言T5模型，通過精簡分詞器提升在俄語任務上的表現。

Model Features

雙語優化

專門針對俄語和英語進行優化，分詞器精簡至32K詞彙量

摘要生成

能夠從俄語或英語文本中生成高質量的摘要

多領域適用

可處理從學術論文到新聞文章等多種文本類型的摘要生成

Model Capabilities

文本摘要生成

對話摘要

文本壓縮

多語言處理

Use Cases

學術研究

論文摘要生成

自動生成學術論文的簡明摘要

幫助研究者快速瞭解論文核心內容

新聞媒體

新聞簡報生成

從長篇新聞報道中提取關鍵信息生成簡報

提高新聞閱讀效率

商業分析

報告摘要

自動生成商業報告的執行摘要

幫助決策者快速掌握報告要點

🚀 mT5_ru_XLSum

mT5_ru_XLSum 是對 https://huggingface.co/csebuetnlp/mT5_multilingual_XLSum 的改進版本。它依據 David's Dale 的指南，將分詞器縮減至 32K（俄語 + 英語）。

🚀 快速開始

模型使用說明

你可以在 transformers 庫中使用該模型進行文本摘要生成，以下是具體的使用示例：

import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))

article_text = """
С точки зрения банальной эрудиции, в аспекте призматической парадоксальности,
цинизм ваших слов в данной конспекции ассоциируется мистификацией парадоксальных иллюзий.
Разложим его семилинейным функционалом в матpицy пpямоyгольнyю тpоеpанговyю обводимyю
собственной неодноpодностью непpеpывно интегpиpyемой в pазpыв попеpек интеpвала
pасходимости кpиволинейным экстpемyмом чеpез область целостности!
"""

model_name = "Nehc/mT5_ru_XLSum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=3
)[0]

summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)

print(summary)

✨ 主要特性

語言支持：支持俄語和英語兩種語言。
分詞器優化：將分詞器縮減至 32K（俄語 + 英語），提升了模型在特定語言上的性能。
文本摘要功能：可用於生成文本的摘要，適用於不同領域的文本。

📄 許可證

本模型使用的許可證為 cc-by-nc-sa-4.0。

🔍 示例展示

俄語笑話示例

原文：С точки зрения банальной эрудиции, в аспекте призматической парадоксальности, цинизм ваших слов в данной конспекции ассоциируется мистификацией парадоксальных иллюзий. Разложим его семилинейным функционалом в матpицy пpямоyгольнyю тpоеpанговyю обводимyю собственной неодноpодностью непpеpывно интегpиpyемой в pазpыв попеpек интеpвала pасходимости кpиволинейным экстpемyмом чеpез область целостности!

學位論文引言示例

原文：'Актуальность проблемы. Электронная информация играет все большую роль во всех сферах жизни современного общества. В последние годы объем научно-технической текстовой информации в электронном виде возрос настолько, что возникает угроза обесценивания этой информации в связи с трудностями поиска необходимых сведений среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными становятся методы автоматизации реферирования текстовой информации, то есть методы получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка проблемы автоматического реферирования текста и соответственно попытки ее решения с использованием различных подходов предпринимались многими исследователями. История применения вычислительной техники для реферирования насчитывает уже более 50 лет и связана с именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления: автоматическое реферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт; автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), содержательно обобщающих первичные документы.

生物信息示例

原文：Первую многоножку, у которой более тысячи ног, обнаружили в австралийских пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по количеству ног была 700-ногая многоножка. Новый вид имеет длинное тонкое тело, похожее на нить, и большое количество конечностей, по-видимому, дает преимущества для быстрого перемещения и проникновения в труднодоступные места — ученые полагают, такая многоножка может спокойно перемещаться по трещинам в камнях. Австралия известна своими огромными и жутковатыми животными вроде 25-сантиметровых пауков. Теперь список пугающих членистоногих пополнился самой «многоногой» в мире многоножкой, у которой более тысячи ног. Необычное животное обнаружила группа исследователей из Австралии и США в пещерах на западе страны. Подробнее многоножку ученые описали в статье в журнале Scientific Reports. Исследователи занимались оценкой воздействия подземных вод на окружающую среду в зоне добычи полезных ископаемых на западе страны, когда наткнулись на новый вид многоножек. В отличие от большинства сородичей, живущих на поверхности, эти многоножки обитали в пещерах на глубине до 60 метров. Новый вид исследователи назвали Eumillipes persephone, в честь Персефоны — древнегреческой богини подземного мира. У многоножки оказалось 1306 ног — больше, чем у любого другого известного вида. Предыдущей рекордсменкой была калифорнийская Illacme plenipes, у которой насчитывалось до 750 ног. «Эти животные были настолько уникальны, — говорит биолог Бруно Бузатто. — Как только я понял, какой длины они были... Стало ясно, что это что-то совершенно новое». У Е. persephone нитевидное тело длиной около 9,5 см и шириной всего миллиметр, состоящее из 330 сегментов, короткие ноги и конусообразная голова. Как и другие животные, живущие в постоянной темноте, эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее с белой нитью, выдернутой из рубашки. Чтобы посчитать количество ног, ученым пришлось сначала снять многоножку в высоком разрешении, а затем закрашивать на фото каждый десяток ног другим цветом. (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)