多源數據訓練

# 多源數據訓練

一個基於Keras框架構建的卷積神經網絡（CNN），專用於從64×64灰度圖像中識別單個日文字符，支持手寫體與印刷體識別。

文字識別日語

Navaistt V1 Medium

基於Whisper medium模型微調的烏茲別克語語音識別模型，支持塔什干方言，訓練數據約700小時

語音識別其他

Ko Reranker V1.1

基於Alibaba-NLP/gte-multilingual-reranker-base微調的韓語重排序模型，適用於搜索、問答等場景的文本相關性優化

文本嵌入支持多種語言

Kategoriopoiitis Ellinikon Poikilion

一個基於GreekBERT的文本分類器，用於將希臘語文本分類為四種變體：古代/中世紀希臘語、標準現代希臘語、通俗希臘語和純正希臘語。

文本分類其他

kazRush-kk-ru 是一個基於T5配置的哈薩克語到俄語的翻譯模型，在多個平行數據集上訓練而成。

Transformers 其他

Skywork Critic Llama 3.1 8B

天工評判系列模型是先進的評判模型，擅長進行成對偏好評估，能夠對輸入的一對內容進行比較和評估，給出細緻的判斷。

大型語言模型

基於GPT-2微調的文本分類模型，用於區分AI生成文本、知乎用戶回答文本和其他來源文本。

文本分類中文

Real3D是一個基於TripoSR架構的2D到3D映射Transformer模型，通過無監督自訓練和自動數據篩選擴展了真實世界圖像的處理能力。

Turkish Llama 8b V0.1

基於LLaMA-3 8B模型，使用30GB土耳其語數據集進行完整微調的土耳其語文本生成模型

大型語言模型

Transformers 其他

Music Large 800k

這是一個擁有7.8億參數的大型Transformer模型，專門用於音樂生成和轉錄任務，採用前瞻性訓練方法。

Distill Whisper Th Medium

基於Whisper架構的蒸餾版自動語音識別模型，專為泰語優化，性能與效率兼備

Russian Text Normalizer

基於FRED-T5-large微調的俄語文本規範化模型，支持數字和拉丁字符的規範化處理

大型語言模型

Transformers 其他

Bert Fda Nutrition Ner

這是一個專門為營養標籤領域的命名實體識別(NER)設計的BERT模型，用於檢測和分類不同的營養成分。

Transformers 英語

Titulm Mpt 1b V1.0

TituLM-1B-BN-V1 是一個專為生成和理解孟加拉語文本而訓練的大型語言模型，基於包含45.1億孟加拉語標記的數據集進行了廣泛訓練。

大型語言模型

Transformers 其他

Hamsa V0.1 Beta

Hamsa是基於Whisper模型構建的阿拉伯語語音識別模型，專注於中東和北非地區的語言需求。

Transformers 阿拉伯語

基於ELECTRA架構的文本分類模型，用於檢測文本中的自殺傾向表達

Transformers 英語

Lodestone Base 4096 V1

由Hum開發的sentence-transformers模型，支持4096 tokens長文本嵌入，適用於語義搜索和聚類任務

文本嵌入英語

UniNER系列中的最優版本，融合了三大數據來源的命名實體識別模型

Transformers 英語

Trocr Base Printed Fr

基於Transformer的法語印刷體OCR模型，填補了TrOCR模型法語版本的空白

圖像生成文本

Transformers 法語

Roberta Fact Check

基於Roberta架構的文本分類模型，用於根據證據判斷斷言的真偽。

Deberta V1 Distill

針對俄語預訓練的雙向編碼器模型，通過標準掩碼語言建模目標在大規模文本語料上訓練完成

大型語言模型

Transformers 支持多種語言

Google Safesearch Mini V2

超高精度的多類圖像分類器，可準確檢測敏感內容

Dutch Sarcasm Detector

基於BERT架構的荷蘭語文本分類模型，用於檢測新聞標題中的諷刺內容

Transformers 其他

Japanese Gpt Neox Small

基於GPT-NeoX架構的小型日語語言模型，支持文本生成任務

大型語言模型

Transformers 支持多種語言

Wav2vec2 Large Chinese Zh Cn

基於XLSR-53大模型微調的中文語音識別模型，支持16kHz採樣率的語音輸入

Transformers 中文

Bert Base Swedish Cased Ner

瑞典國家圖書館/KBLab發佈的瑞典語BERT基礎模型，基於多源文本訓練

大型語言模型其他

Bert Base Swedish Cased

瑞典國家圖書館/KBLab發佈的瑞典語BERT基礎模型，基於多源文本訓練

大型語言模型其他

Deberta V3 Base Finetuned Finance Text Classification

基於microsoft/deberta-v3-base微調的金融文本情感分析模型，專門用於分析財經新聞和市場情緒

基於保加利亞語使用掩碼語言建模（MLM）目標預訓練的模型，區分大小寫。

大型語言模型

Transformers 其他

Multi Qa V1 Distilbert Mean Cos

基於DistilBERT的句子嵌入模型，專為問答相似度任務優化，通過對比學習在多種問答數據集上微調

flax-sentence-embeddings

Wav2vec2 Large Xlsr 53 Finnish

基於XLSR-53大模型微調的芬蘭語語音識別模型，支持16kHz音頻輸入

語音識別其他

AlephBERT 是一個針對希伯來語的尖端語言模型，基於谷歌的BERT架構，專門為處理希伯來語文本設計。

大型語言模型

Transformers 其他

Wav2vec2 Large 100k Voxpopuli Catala

基於facebook/wav2vec2-large-100k-voxpopuli模型微調的加泰羅尼亞語語音識別模型

語音識別其他

Wav2vec2 Large Xlsr Catala

基於facebook/wav2vec2-large-xlsr-53模型微調的加泰羅尼亞語自動語音識別模型

語音識別其他

當前最先進的希伯來語語言模型，基於BERT架構

大型語言模型其他

Wav2vec2 Xls R 300m Cv6 Turkish

基於facebook/wav2vec2-xls-r-300m微調的土耳其語自動語音識別模型

Transformers 其他

Roberta Small Bulgarian

這是一個精簡版的保加利亞語RoBERTa模型，僅包含6個隱藏層，但保持了相近的性能表現。

大型語言模型其他

基於GPT-2架構預訓練的芬蘭語語言模型，117M參數版本

大型語言模型其他

Bert Fa Zwnj Base Ner

針對波斯語命名實體識別（NER）任務微調的BERT模型，支持10類實體識別

序列標註其他

Bert Tagalog Base Uncased

這是一個針對他加祿語（Tagalog）的預訓練語言模型，基於多源數據訓練而成，適用於自然語言處理任務。

大型語言模型

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase