🚀 愛沙尼亞議會速記摘要模型
這是一個用於愛沙尼亞議會速記摘要的模型。該模型旨在解決長輸入序列的愛沙尼亞語文本摘要問題,具有較高的應用價值。
🚀 快速開始
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")
model = AutoModelForSeq2SeqLM.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")
text="""Varasematest uuringutest on teada, et punetav nägu võib märku anda erutusest näiteks aaradel ja raisakotkastel. Sestap huvitas Tours'i Ülikooli etoloog Delphine Soulet'd ja tema kolleege, kas sarnast tundemärki võib näha ka kodukanade (Gallus gallus domesticus) nägudel.
Töörühm filmis esmalt kuut Sussexi tõugu kana erinevates olukordades. Mõnes olukorras toimetasid kanad loomulikult omasoodu, teistes aga juhtisid uurijad lindude tegevust. Põnevates ja autasu tõotavates olukordades lasi töörühm kanadel võtta tolmuvanni või söötis neid ussikestega. Hirmuga seotud olukordades püüdsid uurijad linde käsitsi kinni.
Katsete järel oli töörühma päralt videosalvestistest võetud tuhandeid üksikkaadreid. Just nende analüüsiks loodud algoritmi toel said uurijad täpselt jälgida, kui punased olid igas olukorras kanade hari, põsed, kõrvanibud ja lotid.
Töörühma sõnul oli uuringu valim väike, mistõttu vajavad tulemused kinnitamist suuremas kordusuuringus. Siiski ilmneb tulemustest, et vähem punetavad põsed ja kõrvanibud võivad viidata linnu rahulikule ja rõõmsale seisundile. Vastukaaluks näib punetavam nägu märku andvat linnu suuremast emotsionaalsest erutusest. Sinna hulka kuuluvad nii ussikeste saamisega seotud elevus kui ka hirm.
Soulet ja kolleegid tegid veel ühe katse, kus jaotasid 25 Sussexi tõugu kana kahte rühma. Uurijad käisid viie nädala jooksul 13 linnu juures, et kanu pisitasa inimese kohaoluga harjutada. Ülejäänud 12 lindu jäeti viieks nädalaks kontrollrühmana omapäi.
Kui siis kõik kanad viie nädala möödudes uuesti inimestega kokku puutusid, ilmnes kahe kanarühma vahel selge vahe. Uurijatega harjunud linnud pelgasid inimest vähem ja muutusid nende juuresolekul näost vähem punaseks, kui nende üksi jäetud liigikaaslased."""
def summarize(text, model, tokenizer, max_new_tokens=512, device='cuda'):
input_ids = tokenizer(
text, return_tensors="pt"
).input_ids
outputs = model.generate(input_ids=input_ids.to(device), max_new_tokens=max_new_tokens)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
DEVICE='cuda'
model=model.to(DEVICE)
summarize(text, model, tokenizer, device=DEVICE)
✨ 主要特性
📦 安裝指南
文檔未提及安裝相關內容,跳過該章節。
📚 詳細文檔
模型描述
創建此模型的原因是為了驗證是否可以簡單地訓練一個輸入序列長度超過 1024 個標記的愛沙尼亞語摘要模型。
用途
直接使用
該模型旨在用於愛沙尼亞議會對話速記的摘要生成,對於其他愛沙尼亞語文本,也可能具有一定的準確性。
偏差、風險和侷限性
模型可能存在來自原始預訓練模型、愛沙尼亞議會數據集(以及用於創建訓練數據摘要的 GPT - 3.5)的偏差,但尚未進行廣泛研究。
⚠️ 重要提示
如果需要非常準確的結果,請勿使用該模型,因為它可能會遺漏原文中的重要信息並生成虛假內容。
訓練詳情
訓練數據
訓練過程
訓練筆記本可在 此處 獲取,訓練過程的解釋可在 此處 查看。
訓練超參數
- 訓練機制:fp32
- 學習率:5e - 5
- 訓練輪數:12
評估
測試數據、因素和指標
測試數據
測試數據來自 et_parliament_stenos_summary 測試集,其中包含訓練數據中未出現的速記內容。
指標和結果
- rouge1:36.1651
- rouge2:15.9668
- rougeL:28.339
- rougeLsum:33.767
🔧 技術細節
文檔未提供足夠的技術實現細節,跳過該章節。
📄 許可證
本模型使用 Apache - 2.0 許可證。