Rut5 Base Summarizer
基於ai-forever/ruT5-base微調的俄語文本摘要模型,訓練數據約6萬條樣本,適用於新聞等文本的摘要生成任務。
下載量 713
發布時間 : 2/28/2024
模型概述
該模型是基於T5架構的俄語文本摘要生成器,專門針對俄語新聞文本進行優化,能夠生成簡潔準確的摘要。
模型特點
俄語優化
專門針對俄語文本進行微調,能夠更好地處理俄語語法和表達習慣。
新聞摘要優化
訓練數據主要來自新聞文本,特別適合新聞類內容的摘要生成。
T5架構優勢
基於強大的T5文本到文本轉換架構,具有良好的生成能力和靈活性。
模型能力
俄語文本摘要生成
新聞內容濃縮
關鍵信息提取
使用案例
新聞媒體
新聞自動摘要
為新聞機構自動生成新聞文章的簡短摘要
可快速生成準確反映文章核心內容的摘要
內容分析
俄語文檔分析
從長篇俄語文檔中提取關鍵信息
幫助用戶快速瞭解文檔主要內容
🚀 俄語文本摘要生成器
本項目是一個俄語文本摘要生成器,基於ai-forever/ruT5-base
模型微調而來,能有效對俄語文本進行摘要提取,為用戶提供便捷的文本信息提煉服務。
🚀 快速開始
本俄語文本摘要生成器基於ai-forever/ruT5-base
模型微調,並在約60k行樣本的數據集上進行訓練。
🔧 安裝依賴
運行代碼前,請確保你已經安裝了torch
和transformers
庫。可以使用以下命令進行安裝:
pip install torch transformers
💻 使用示例
以下是一個使用該模型進行文本摘要生成的示例代碼:
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
model_name = "sarahai/ruT5-base-summarizer"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
device = torch.device("cpu") #if you are using cpu
input_text = "Похоже, в Солнечной системе вскоре могут снова произойти изменения, связанные с переклассификацией известных науке тел. По мнению ученых, в ближайшем будущем возможно увеличение числа так называемых карликовых планет — тел, из-за которых возникает наибольшее число споров в астрономической среде. Чтобы относиться к карликовым планетам, по правилам Международного астрономического союза телу Солнечной системы необходимо удовлетворять сразу четырем критериям. Во-первых, оно должно вращаться вокруг Солнца, при этом оно не должно быть спутником одной из планет. Пространство вокруг тела должно быть «очищено» от других объектов, и, наконец, тело должно быть достаточно массивным, чтобы быть в состоянии гидростатического равновесия — иначе говоря, оно должно быть относительно круглым. Внутри Солнечной системы есть огромное число тел, удовлетворяющих первым трем критериям, особенно, находящихся внутри Главного пояса астероидов между орбитами Марса и Юпитера. Всем четырем критериям до последнего времени, как считалось, удовлетворяли пять тел Солнечной системы — транснептуновые объекты Плутон, Эрида, Макемаке, Хаумеа и наименьшая из известных карликовых планет Церера, находящаяся в поясе астероидов. Однако последние наблюдения показали, что к карликовым планетам стоит отнести еще одно тело – Гигею, четвертый по величине объект пояса астероидов после Цереры, Весты и Паллады. До недавнего времени этот астероид был мало изучен — астрономы знали, что он имеет продолговатую форму размером более 400 километров. Наблюдения, проведенные в Чили на одном из крупнейших телескопов мира Very Large Telescope (Очень большой телескоп), смогли качественно изменить представление о форме этого тела. «Благодаря уникальным возможностям инструмента SPHERE на телескопе VLT, остающемся одной из мощнейших строящих изображение систем в мире, мы смогли рассмотреть форму Гигеи, которая оказалась почти сферической, — пояснил астроном Пьер Вернацца из Астрофизической лаборатории в Марселе. — Благодаря этим снимкам Гигея может быть переклассифицирована в карликовую планету, самую маленькую в Солнечной системе». Согласно новым наблюдениям, диаметр Гигеи составляет свыше 430 километров, а период вращения вокруг собственной оси — 13,8 часа. Ученые и раньше знали, что поверхность Гигеи схожа с поверхностью Цереры и имеет такую же низкую плотность. Однако теперь стало очевидно, что Гигея почти такая же круглая, как и Церера, и потому имеет полное право тоже называться карликовой планетой. Немало удивило астрономов и другое обстоятельство — отсутствие на поверхности Гигеи крупных ударных кратеров. Дело в то, что примерно на одной орбите с Гигеей находится порядка 7 тыс. небольших астероидов схожего состава. Гигея — наиболее массивное из этих тел, принадлежащих к одному семейству. Считается, что вся группа образовалась порядка 2 миллиардов лет назад, когда удар крупного тела выбил из Гигеи множество осколков, вылетевших в окружающее пространство. Похожее событие пережила в далеком прошлом Веста, создав вокруг себя аналогичное семейство астероидов. Правда, на теле Весты до сих пор присутствуют следы этого бурного прошлого. Снимки 95% поверхности Гигеи позволили обнаружить лишь два мелких кратера на ее поверхности, которые не идут ни в какое сравнение с «ранами» на поверхности Гигеи. «Ни один из этих кратеров не мог быть вызван ударом, образовавшим семейство астероидов Гигеи, чей объем соответствует объему тела диаметром сто километров. Они слишком маленькие», — пояснил интригу Мирослав Броз, астроном из Карлова Университета в Чехии. На помощь в решении этой загадки пришло численное моделирование, часто используемое астрофизиками для описания эволюции различных астрономических систем. С его помощью астрономы показали, что округлая форма современной Гигеи и наличие рядом с ней роя астероидов — следствие сильнейшего лобового столкновения Гигеи с крупным телом, имевшим в поперечнике от 75 до 150 километров. Моделирование показало, что это соударение, произошедшее 2 млрд лет назад, почти полностью разнесло на части Гигею. Образовавшиеся после этого осколки, слипшись под действием гравитации, заново сформировали Гигею, дав ей почти идеально круглую форму. «Такие столкновения между двумя крупными телами в поясе астероидов уникальны для последних 3-4 миллиардов лет», — пояснил Равел Севечек, соавтор исследования , опубликованного в журнале Nature Astronomy. Ранее астрономы объявили об открытии, которое в очередной раз заставит авторов переписывать учебники астрономии. С конца 1990-х годов считалось, что планетой Солнечной системы, имеющей наибольшее число спутников, является Юпитер, у которого их в настоящее время насчитывается 79 штук. Вторым после него по этому показателю был Сатурн, третьим – Уран. Однако теперь рекордсменом стал именно Сатурн, которому астрономы добавили сразу 20 небольших, ранее неизвестных спутников. Теперь их у него как минимум 82 штуки. Новые спутники были открыты при помощи телескопа Subaru, расположенного на горе Мауна-Кеа на Гавайях. Обнаружить объекты позволили новые компьютерные алгоритмы, примененные для обработки данных, полученных еще в 2004-2004 годы." #your input in russian
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to(device)
outputs = model.generate(input_ids, max_length=100, min_length=50, length_penalty=2.0, num_beams=4, early_stopping=True) #change according to your preferences
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(summary)
代碼解釋
- 導入必要的庫:導入
torch
和transformers
庫中的T5Tokenizer
和T5ForConditionalGeneration
。 - 加載模型和分詞器:使用
T5Tokenizer.from_pretrained
和T5ForConditionalGeneration.from_pretrained
加載預訓練的分詞器和模型。 - 準備輸入文本:定義要進行摘要生成的俄語輸入文本。
- 編碼輸入文本:使用分詞器將輸入文本編碼為模型可以接受的輸入ID。
- 生成摘要:使用模型的
generate
方法生成摘要。 - 解碼摘要:使用分詞器將生成的摘要ID解碼為文本。
- 打印摘要:將生成的摘要打印輸出。
注意事項
- 你可以根據需要調整
generate
方法中的參數,如max_length
、min_length
、length_penalty
、num_beams
和early_stopping
,以獲得不同長度和質量的摘要。 - 模型的性能可能會受到微調數據的質量和代表性的影響。建議用戶評估模型是否適合其特定的應用和數據集。
📚 參考資料
📄 許可證
本項目採用Apache 2.0許可證。
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一個基於T5的釋義框架,專為加速訓練自然語言理解(NLU)模型而設計,通過生成高質量釋義實現數據增強。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸餾版本,專門針對文本摘要任務進行了優化,在保持較高性能的同時顯著提升了推理速度。
文本生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基於T5架構的模型,專門用於從摘要文本中提取原子聲明,是摘要事實性評估流程的關鍵組件。
文本生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一個統一的多維評估器,用於自然語言生成任務的自動評估,支持多個可解釋維度的評估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基於PEGASUS架構微調的文本複述模型,能夠生成語義相同但表達不同的句子。
文本生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
這是一個基於T5架構的韓語文本摘要模型,專為韓語文本摘要任務設計,通過微調paust/pko-t5-base模型在多個韓語數據集上訓練而成。
文本生成
Transformers 韓語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一種基於Transformer的預訓練模型,專門用於抽象文本摘要任務。
文本生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基於BART-large架構的對話摘要模型,專為SAMSum語料庫微調,適用於生成對話摘要。
文本生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
基於KoBART架構的韓語文本摘要模型,能夠生成韓語新聞文章的簡潔摘要。
文本生成
Transformers 韓語

K
gogamza
119.18k
12
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98