Rut5 Base Summarizer
ai-forever/ruT5-baseをファインチューニングしたロシア語テキスト要約モデルで、約6万件のサンプルでトレーニングされており、ニュースなどのテキスト要約タスクに適しています。
ダウンロード数 713
リリース時間 : 2/28/2024
モデル概要
このモデルはT5アーキテクチャに基づくロシア語テキスト要約ジェネレーターで、ロシア語ニューステキストに特化して最適化されており、簡潔で正確な要約を生成できます。
モデル特徴
ロシア語最適化
ロシア語テキストに特化してファインチューニングされており、ロシア語の文法や表現習慣をより適切に処理できます。
ニュース要約最適化
トレーニングデータは主にニューステキストから構成されており、ニュースコンテンツの要約生成に特に適しています。
T5アーキテクチャの利点
強力なT5テキスト変換アーキテクチャに基づいており、優れた生成能力と柔軟性を備えています。
モデル能力
ロシア語テキスト要約生成
ニュースコンテンツの凝縮
キー情報抽出
使用事例
ニュースメディア
ニュース自動要約
ニュース機関向けにニュース記事の短い要約を自動生成
記事の核心内容を正確に反映した要約を迅速に生成可能
コンテンツ分析
ロシア語文書分析
長文のロシア語文書からキー情報を抽出
ユーザーが文書の主要内容を迅速に理解するのに役立ちます
🚀 ロシア語テキスト要約モデル
このプロジェクトは、ロシア語のテキストを要約するためのモデルです。ai-forever/ruT5-baseモデルをファインチューニングし、約60k行のサンプルデータセットで学習させています。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
✨ 主な機能
- ロシア語のテキストを要約することができます。
transformers
ライブラリを使用して簡単に実装できます。
📦 インストール
必要なライブラリをインストールするには、以下のコマンドを実行してください。
pip install transformers torch
💻 使用例
基本的な使用法
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
model_name = "sarahai/ruT5-base-summarizer"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
device = torch.device("cpu") #if you are using cpu
input_text = "Похоже, в Солнечной системе вскоре могут снова произойти изменения, связанные с переклассификацией известных науке тел. По мнению ученых, в ближайшем будущем возможно увеличение числа так называемых карликовых планет — тел, из-за которых возникает наибольшее число споров в астрономической среде. Чтобы относиться к карликовым планетам, по правилам Международного астрономического союза телу Солнечной системы необходимо удовлетворять сразу четырем критериям. Во-первых, оно должно вращаться вокруг Солнца, при этом оно не должно быть спутником одной из планет. Пространство вокруг тела должно быть «очищено» от других объектов, и, наконец, тело должно быть достаточно массивным, чтобы быть в состоянии гидростатического равновесия — иначе говоря, оно должно быть относительно круглым. Внутри Солнечной системы есть огромное число тел, удовлетворяющих первым трем критериям, особенно, находящихся внутри Главного пояса астероидов между орбитами Марса и Юпитера. Всем четырем критериям до последнего времени, как считалось, удовлетворяли пять тел Солнечной системы — транснептуновые объекты Плутон, Эрида, Макемаке, Хаумеа и наименьшая из известных карликовых планет Церера, находящаяся в поясе астероидов. Однако последние наблюдения показали, что к карликовым планетам стоит отнести еще одно тело – Гигею, четвертый по величине объект пояса астероидов после Цереры, Весты и Паллады. До недавнего времени этот астероид был мало изучен — астрономы знали, что он имеет продолговатую форму размером более 400 километров. Наблюдения, проведенные в Чили на одном из крупнейших телескопов мира Very Large Telescope (Очень большой телескоп), смогли качественно изменить представление о форме этого тела. «Благодаря уникальным возможностям инструмента SPHERE на телескопе VLT, остающемся одной из мощнейших строящих изображение систем в мире, мы смогли рассмотреть форму Гигеи, которая оказалась почти сферической, — пояснил астроном Пьер Вернацца из Астрофизической лаборатории в Марселе. — Благодаря этим снимкам Гигея может быть переклассифицирована в карликовую планету, самую маленькую в Солнечной системе». Согласно новым наблюдениям, диаметр Гигеи составляет свыше 430 километров, а период вращения вокруг собственной оси — 13,8 часа. Ученые и раньше знали, что поверхность Гигеи схожа с поверхностью Цереры и имеет такую же низкую плотность. Однако теперь стало очевидно, что Гигея почти такая же круглая, как и Церера, и потому имеет полное право тоже называться карликовой планетой. Немало удивило астрономов и другое обстоятельство — отсутствие на поверхности Гигеи крупных ударных кратеров. Дело в то, что примерно на одной орбите с Гигеей находится порядка 7 тыс. небольших астероидов схожего состава. Гигея — наиболее массивное из этих тел, принадлежащих к одному семейству. Считается, что вся группа образовалась порядка 2 миллиардов лет назад, когда удар крупного тела выбил из Гигеи множество осколков, вылетевших в окружающее пространство. Похожее событие пережила в далеком прошлом Веста, создав вокруг себя аналогичное семейство астероидов. Правда, на теле Весты до сих пор присутствуют следы этого бурного прошлого. Снимки 95% поверхности Гигеи позволили обнаружить лишь два мелких кратера на ее поверхности, которые не идут ни в какое сравнение с «ранами» на поверхности Гигеи. «Ни один из этих кратеров не мог быть вызван ударом, образовавшим семейство астероидов Гигеи, чей объем соответствует объему тела диаметром сто километров. Они слишком маленькие», — пояснил интригу Мирослав Броз, астроном из Карлова Университета в Чехии. На помощь в решении этой загадки пришло численное моделирование, часто используемое астрофизиками для описания эволюции различных астрономических систем. С его помощью астрономы показали, что округлая форма современной Гигеи и наличие рядом с ней роя астероидов — следствие сильнейшего лобового столкновения Гигеи с крупным телом, имевшим в поперечнике от 75 до 150 километров. Моделирование показало, что это соударение, произошедшее 2 млрд лет назад, почти полностью разнесло на части Гигею. Образовавшиеся после этого осколки, слипшись под действием гравитации, заново сформировали Гигею, дав ей почти идеально круглую форму. «Такие столкновения между двумя крупными телами в поясе астероидов уникальны для последних 3-4 миллиардов лет», — пояснил Равел Севечек, соавтор исследования , опубликованного в журнале Nature Astronomy. Ранее астрономы объявили об открытии, которое в очередной раз заставит авторов переписывать учебники астрономии. С конца 1990-х годов считалось, что планетой Солнечной системы, имеющей наибольшее число спутников, является Юпитер, у которого их в настоящее время насчитывается 79 штук. Вторым после него по этому показателю был Сатурн, третьим – Уран. Однако теперь рекордсменом стал именно Сатурн, которому астрономы добавили сразу 20 небольших, ранее неизвестных спутников. Теперь их у него как минимум 82 штуки. Новые спутники были открыты при помощи телескопа Subaru, расположенного на горе Мауна-Кеа на Гавайях. Обнаружить объекты позволили новые компьютерные алгоритмы, примененные для обработки данных, полученных еще в 2004-2004 годы." #your input in russian
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to(device)
outputs = model.generate(input_ids, max_length=100, min_length=50, length_penalty=2.0, num_beams=4, early_stopping=True) #change according to your preferences
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(summary)
高度な使用法
コード内のパラメータ(max_length
, min_length
, length_penalty
, num_beams
, early_stopping
)を調整することで、要約の長さや品質を制御することができます。
📚 ドキュメント
- モデルの詳細: このモデルは、ai-forever/ruT5-baseモデルをファインチューニングして作成されています。
- データセット: モデルは約60k行のサンプルデータセットで学習されています。
- 評価指標: モデルの評価には、精度(accuracy)が使用されています。
属性 | 詳情 |
---|---|
モデルタイプ | ファインチューニングされたruT5-baseモデル |
学習データ | IlyaGusev/gazetaデータセットを含む約60k行のサンプル |
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。
⚠️ 重要提示
モデルの性能は、ファインチューニングに使用されたデータの品質と代表的さに影響される可能性があります。ユーザーは、特定のアプリケーションやデータセットに対するモデルの適合性を評価することをお勧めします。
🔗 参考文献
Bart Large Cnn
MIT
英語コーパスで事前学習されたBARTモデルで、CNNデイリーメールデータセットに特化してファインチューニングされ、テキスト要約タスクに適しています。
テキスト生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
ParrotはT5ベースの言い換えフレームワークで、自然言語理解(NLU)モデルのトレーニング加速のために設計され、高品質な言い換えによるデータ拡張を実現します。
テキスト生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBARTはBARTモデルの蒸留バージョンで、テキスト要約タスクに特化して最適化されており、高い性能を維持しながら推論速度を大幅に向上させています。
テキスト生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
T5アーキテクチャに基づくモデルで、要約テキストから原子声明を抽出するために特別に設計されており、要約の事実性評価プロセスの重要なコンポーネントです。
テキスト生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEvalは自然言語生成タスクの自動評価のための統一された多次元評価器で、複数の解釈可能な次元での評価をサポートします。
テキスト生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
PEGASUSアーキテクチャを微調整したテキスト再述モデルで、意味は同じだが表現が異なる文章を生成できます。
テキスト生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
これはT5アーキテクチャに基づく韓国語テキスト要約モデルで、韓国語テキスト要約タスク用に設計され、paust/pko-t5-baseモデルを微調整して複数の韓国語データセットで訓練されました。
テキスト生成
Transformers 韓国語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUSは、Transformerに基づく事前学習モデルで、抽象的なテキスト要約タスクに特化しています。
テキスト生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
BART-largeアーキテクチャに基づく対話要約モデルで、SAMSumコーパス用に微調整され、対話要約の生成に適しています。
テキスト生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
KoBARTアーキテクチャに基づく韓国語テキスト要約モデルで、韓国語ニュース記事の簡潔な要約を生成できます。
テキスト生成
Transformers 韓国語

K
gogamza
119.18k
12
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98