學術文本處理

# 學術文本處理

Modernbert Base Is New Arxiv Dataset

基於ModernBERT-base在arxiv-new-datasets數據集上微調的模型，主要用於文本分類任務

大型語言模型

Qwen2.5 14B CIC SciCite GGUF

基於Qwen2.5-14B-Instruct微調的引文意圖分類模型，專注於科學文獻中的引文分析任務。

大型語言模型英語

Scientific Paper Summarizer

基於PEGASUS架構微調的科學論文摘要生成專用模型

cde-small-v1 是一個基於 transformer 架構的小型句子嵌入模型，在多個文本分類、聚類和檢索任務上表現出色。

Scientific Paper Summarization

基於T5-small微調的科學論文摘要生成模型，能夠從科學論文中提取關鍵信息生成摘要。

Roberta Kaz Large

基於RoBERTa架構的哈薩克語語言模型，採用RobertaForMaskedLM從頭訓練而成，適用於哈薩克語文本處理任務。

大型語言模型

Transformers 其他

Venusaur是基於Mihaiii/Bulbasaur基礎模型開發的句子嵌入模型，專注於句子相似度和特徵提取任務。

Llama 3 8B Summarization QLoRa

基於Meta-Llama-3-8B模型在scitldr數據集上使用QLoRa技術微調的摘要生成模型

大型語言模型

Gte Qwen1.5 7B Instruct

基於Qwen1.5架構的7B參數規模句子嵌入模型，專注於句子相似度計算和多任務評估

K2S3 SOLAR 11b V2.0

基於SOLAR-10.7B-v1.0微調的韓語大語言模型，專注於韓語理解和生成任務

大型語言模型

Transformers 韓語

Mistral 7B Summarization QLoRa

基於 Mistral-7B-Instruct-v0.2 微調的摘要生成模型，適用於科學文獻摘要任務

GTE-small 是一個小型通用文本嵌入模型，適用於多種自然語言處理任務，包括句子相似度計算、文本分類和檢索等。

文本嵌入英語

GTE-Large 是一個強大的句子轉換器模型，專注於句子相似度和文本嵌入任務，在多個基準測試中表現出色。

文本嵌入英語

Bart Large Paper2slides Summarizer

基於Bart-Large架構的摘要模型，專門用於將科研論文內容精準摘要為適合幻燈片展示的形式。

Transformers 英語

T5 Small Korean Summarization

基於T5架構的韓語文本摘要模型，專門針對韓語文本進行優化，能夠生成簡潔準確的摘要。

Transformers 韓語

Long T5 Tglobal Xl 16384 Book Summary

基於BookSum數據集微調的LongT5-XL模型，專為長文本摘要設計，能生成類似SparkNotes的摘要。

MyanBERTa是基於BERT架構的緬甸語預訓練語言模型，在包含5,992,299個句子的緬甸語數據集上進行了預訓練。

大型語言模型

Transformers 其他

Bart Large Citesum Title

基於facebook/bart-large在CiteSum數據集上微調的文本摘要模型，專門用於生成科學文獻的標題式摘要。

Transformers 英語

Roberta Base Finetuned Abbr

基於RoBERTa-base在PLOD-filtered數據集上微調的命名實體識別模型，專門用於檢測文本中的縮寫實體。

Biobert Base Cased V1.2 Finetuned Ner CRAFT English

基於BioBERT的命名實體識別模型，在CRAFT英文數據集上微調

StivenLancheros

Bert Large Japanese Char

基於日語維基百科預訓練的BERT模型，採用字符級分詞與全詞掩碼策略，適用於日語自然語言處理任務

大型語言模型日語

Bert Large Japanese

基於日語維基百科預訓練的BERT大型模型，採用Unidic詞典分詞和全詞掩碼策略

大型語言模型日語

Stanza是一套精準高效的多語言文本分析工具集，為拉丁語提供文本分析功能。

序列標註其他

Mathbert Custom

基於數學領域英語文本預訓練的BERT模型，專注於數學語言理解任務

大型語言模型

Led Base Book Summary

一個基於LED架構的文本摘要模型，專門用於處理技術性、學術性和敘事性長文本的摘要生成。

Transformers 其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase