モデル選定

学術テキスト処理

# 学術テキスト処理

Modernbert Base Is New Arxiv Dataset

ModernBERT-baseをarxiv-new-datasetsデータセットでファインチューニングしたモデルで、主にテキスト分類タスクに使用されます

大規模言語モデル

Qwen2.5 14B CIC SciCite GGUF

Qwen2.5-14B-Instructをファインチューニングした引用意図分類モデルで、科学文献における引用分析タスクに特化しています。

大規模言語モデル英語

Scientific Paper Summarizer

PEGASUSアーキテクチャを基にファインチューニングした科学論文要約生成専用モデル

テキスト生成

cde-small-v1は、transformerアーキテクチャに基づく小型の文埋め込みモデルで、複数のテキスト分類、クラスタリング、および検索タスクで優れた性能を発揮します。

テキスト埋め込み

Scientific Paper Summarization

T5-smallをファインチューニングした科学論文要約生成モデルで、科学論文から重要な情報を抽出して要約を生成できます。

テキスト生成

Roberta Kaz Large

RoBERTaアーキテクチャに基づくカザフ語言語モデルで、RobertaForMaskedLMを使用してゼロからトレーニングされ、カザフ語テキスト処理タスクに適しています。

大規模言語モデル

Transformers その他

VenusaurはMihaiii/Bulbasaurベースモデルを基に開発された文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。

テキスト埋め込み

Llama 3 8B Summarization QLoRa

Meta-Llama-3-8BモデルをscitldrデータセットでQLoRa技術を用いてファインチューニングした要約生成モデル

大規模言語モデル

Gte Qwen1.5 7B Instruct

Qwen1.5アーキテクチャに基づく7Bパラメータ規模の文埋め込みモデルで、文の類似度計算とマルチタスク評価に特化

テキスト埋め込み

K2S3 SOLAR 11b V2.0

SOLAR-10.7B-v1.0を微調整した韓国語大規模言語モデルで、韓国語の理解と生成タスクに特化

大規模言語モデル

Transformers 韓国語

Mistral 7B Summarization QLoRa

Mistral-7B-Instruct-v0.2を微調整した要約生成モデルで、科学文献の要約タスクに適しています

テキスト生成

GTE-smallは、文の類似度計算、テキスト分類、検索など、さまざまな自然言語処理タスクに適した小型の汎用テキスト埋め込みモデルです。

テキスト埋め込み英語

GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。

テキスト埋め込み英語

Bart Large Paper2slides Summarizer

Bart-Largeアーキテクチャに基づく要約モデルで、研究論文の内容をスライド展示に適した形式に正確に要約するために特別に設計されています。

テキスト生成

Transformers 英語

T5 Small Korean Summarization

T5アーキテクチャに基づく韓国語テキスト要約モデルで、韓国語テキストに特化して最適化されており、簡潔で正確な要約を生成できます。

テキスト生成

Transformers 韓国語

Long T5 Tglobal Xl 16384 Book Summary

BookSumデータセットでファインチューニングされたLongT5-XLモデルで、長文要約に特化しており、SparkNotesのような要約を生成できます。

テキスト生成

MyanBERTaはBERTアーキテクチャに基づくビルマ語事前学習言語モデルで、5,992,299のビルマ語文を含むデータセットで事前学習されています。

大規模言語モデル

Transformers その他

Bart Large Citesum Title

facebook/bart-largeを基にCiteSumデータセットでファインチューニングしたテキスト要約モデルで、科学文献のタイトル形式の要約生成に特化しています。

テキスト生成

Transformers 英語

Roberta Base Finetuned Abbr

RoBERTa-baseをPLOD-filteredデータセットでファインチューニングした固有表現認識モデルで、テキスト中の略語エンティティを検出するために特別に設計されています。

シーケンスラベリング

Biobert Base Cased V1.2 Finetuned Ner CRAFT English

BioBERTに基づく名前付きエンティティ認識モデルで、CRAFT英語データセットで微調整されました。

シーケンスラベリング

StivenLancheros

Stanzaは高精度で効率的な多言語テキスト分析ツールセットで、ラテン語のテキスト分析機能を提供します。

シーケンスラベリングその他

Led Base Book Summary

LEDアーキテクチャに基づくテキスト要約モデルで、技術的、学術的、物語的な長文の要約生成に特化しています。

テキスト生成

Transformers その他

Bert Large Japanese Char

日本語ウィキペディアで事前学習されたBERTモデルで、文字レベル分かち書きと全単語マスキング戦略を採用し、日本語自然言語処理タスクに適しています

大規模言語モデル日本語

Mathbert Custom

数学分野の英語テキストで事前学習されたBERTモデルで、数学言語理解タスクに特化しています。

大規模言語モデル

Bert Large Japanese

日本語ウィキペディアで事前学習されたBERT大規模モデル、Unidic辞書による分かち書きと全語マスキング戦略を採用

大規模言語モデル日本語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase