T5 Darija Summarization
自動テキスト要約タスクに使用する、19,806編のモロッコアラビア語方言ニュース記事とそのタイトルを含むデータセット
ダウンロード数 170
リリース時間 : 3/2/2022
モデル概要
このデータセットは、2018年から2020年の間にGoud.maウェブサイトから収集されたモロッコアラビア語方言ニュース記事を含み、主にモロッコアラビア語方言の自動テキスト要約研究に使用されます。
モデル特徴
大規模モロッコ方言データセット
19,806編のニュース記事を含み、現在最大のモロッコアラビア語方言要約データセットの1つです。
バイリンガル混合コンテンツ
本文にはモロッコアラビア方言(ダリジャ)と現代標準アラビア語(MSA)の混合コンテンツが含まれ、タイトルはすべてダリジャです。
明確な時間範囲
すべての記事は2018年1月1日から2020年12月31日の間に収集されており、データの時効性が高いです。
モデル能力
モロッコアラビア語方言テキスト要約
混合言語テキスト処理
ニュースコンテンツ分析
使用事例
自然言語処理
モロッコ方言要約モデルのトレーニング
このデータセットを使用して、モロッコアラビア語方言に対する自動要約モデルをトレーニングします。
方言言語学研究
モロッコアラビア語方言の文法構造と語彙の使用特徴を分析します。
ニュース分析
モロッコニューストレンド分析
データセット内のニュースコンテンツに基づいて、2018年から2020年のモロッコ社会のホットトピックを分析します。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98