Donut Rus
Transformerアーキテクチャに基づくエンドツーエンドのロシア語テキスト認識モデルで、10万枚のロシア文学作品画像を含むSynthDoG合成データセットでトレーニング
ダウンロード数 550
リリース時間 : 4/2/2023
モデル概要
このモデルはロシア語と英語のテキスト認識用Donutモデルで、エンドツーエンドTransformerアーキテクチャを採用し、特に文書画像内のテキストコンテンツ処理に適しています。
モデル特徴
多言語サポート
ロシア語と英語のテキスト認識をサポートし、多言語文書処理シナリオに適応
高効率認識
検証セットの標準化編集距離(Normed ED)が0.02239を達成し、優れた性能を発揮
合成データトレーニング
10万枚のSynthDoG合成データセットを使用し、テキスト内容はロシア文学作品から取得
カスタマイズトークナイザー
DeepPavlov/xlm-roberta-large-en-ruをトークナイザーとして採用し、ロシア語処理能力を最適化
モデル能力
文書画像テキスト認識
多言語テキスト抽出
エンドツーエンド文書処理
使用事例
文書処理
多種文書認識
様々な形式の文書からテキスト内容を認識
高精度テキスト抽出
文書QAシステム
認識したテキスト内容に基づく質問応答システム構築
文書分類
認識内容に基づく文書分類
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98