🚀 エストニア議会速記要約モデル
このモデルは、エストニア議会の速記を要約するためのモデルです。et_parliament_stenos_summary データセットを使用して学習されており、このデータセットは議会の対話や会話で構成されています。
🚀 クイックスタート
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")
model = AutoModelForSeq2SeqLM.from_pretrained("rristo/mlong-t5-tglobal-base-et-riigikogu-summary")
text="""Varasematest uuringutest on teada, et punetav nägu võib märku anda erutusest näiteks aaradel ja raisakotkastel. Sestap huvitas Tours'i Ülikooli etoloog Delphine Soulet'd ja tema kolleege, kas sarnast tundemärki võib näha ka kodukanade (Gallus gallus domesticus) nägudel.
Töörühm filmis esmalt kuut Sussexi tõugu kana erinevates olukordades. Mõnes olukorras toimetasid kanad loomulikult omasoodu, teistes aga juhtisid uurijad lindude tegevust. Põnevates ja autasu tõotavates olukordades lasi töörühm kanadel võtta tolmuvanni või söötis neid ussikestega. Hirmuga seotud olukordades püüdsid uurijad linde käsitsi kinni.
Katsete järel oli töörühma päralt videosalvestistest võetud tuhandeid üksikkaadreid. Just nende analüüsiks loodud algoritmi toel said uurijad täpselt jälgida, kui punased olid igas olukorras kanade hari, põsed, kõrvanibud ja lotid.
Töörühma sõnul oli uuringu valim väike, mistõttu vajavad tulemused kinnitamist suuremas kordusuuringus. Siiski ilmneb tulemustest, et vähem punetavad põsed ja kõrvanibud võivad viidata linnu rahulikule ja rõõmsale seisundile. Vastukaaluks näib punetavam nägu märku andvat linnu suuremast emotsionaalsest erutusest. Sinna hulka kuuluvad nii ussikeste saamisega seotud elevus kui ka hirm.
Soulet ja kolleegid tegid veel ühe katse, kus jaotasid 25 Sussexi tõugu kana kahte rühma. Uurijad käisid viie nädala jooksul 13 linnu juures, et kanu pisitasa inimese kohaoluga harjutada. Ülejäänud 12 lindu jäeti viieks nädalaks kontrollrühmana omapäi.
Kui siis kõik kanad viie nädala möödudes uuesti inimestega kokku puutusid, ilmnes kahe kanarühma vahel selge vahe. Uurijatega harjunud linnud pelgasid inimest vähem ja muutusid nende juuresolekul näost vähem punaseks, kui nende üksi jäetud liigikaaslased."""
def summarize(text, model, tokenizer, max_new_tokens=512, device='cuda'):
input_ids = tokenizer(
text, return_tensors="pt"
).input_ids
outputs = model.generate(input_ids=input_ids.to(device), max_new_tokens=max_new_tokens)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
DEVICE='cuda'
model=model.to(DEVICE)
summarize(text, model, tokenizer, device=DEVICE)
✨ 主な機能
このモデルは、エストニア議会の速記を要約することを目的としています。また、他のエストニア語のテキストに対しても、ある程度の精度で動作する可能性があります。
📚 ドキュメント
モデルの説明
このモデルを作成した理由は、入力シーケンスの長さが1024トークンを超えるエストニア語の要約モデルを簡単に学習できるかどうかを実験することに関連しています。
利用方法
直接利用
このモデルは、エストニア議会の会話の速記を要約するために使用されることを想定しています。他のエストニア語のテキストに対しても、ある程度の精度で動作する可能性があります。
バイアス、リスク、および制限
元の事前学習モデルやエストニア議会のデータセット(および学習データの要約を作成するために使用されたGPT - 3.5)からのバイアスが、このモデルに存在する可能性があります。ただし、詳細な調査は行われていません。
推奨事項
非常に正確な結果が必要な場合は、このモデルを使用しないでください。このモデルは、元のテキストから重要な部分を見逃したり、幻覚的な内容を生成したりする可能性があります。
🔧 技術詳細
学習データ
学習手順
学習用のノートブックはこちらで入手できます。学習プロセスの説明はこちらで確認できます。
学習ハイパーパラメータ
- 学習方式: fp32
- 学習率: 5e - 5
- 学習エポック数: 12
🔍 評価
テストデータ、要因、および指標
テストデータ
テストデータは、et_parliament_stenos_summary のテストセットから取得されており、学習データに含まれない速記が含まれています。
指標と結果
- rouge1: 36.1651
- rouge2: 15.9668
- rougeL: 28.339
- rougeLsum: 33.767
📄 ライセンス
このモデルは、Apache - 2.0ライセンスの下で提供されています。