SmolVLM - Instructオープンソースビジュアル言語モデル - 画像理解と言語インタラクション機能を無料で提供

ホーム

Smolvlm Instruct

mjschockによって開発

HuggingFaceTB/SmolVLM-Instructを基に微調整されたインテリジェントな視覚言語モデルで、UnslothとTRLライブラリを使用してトレーニング速度を最適化

テキスト生成画像

Transformers

英語オープンソースライセンス:Apache-2.0 #効率的な視覚言語推論 #遅延のない最適化 #命令微調整モデル

ダウンロード数 18

リリース時間 : 12/24/2024

モデル概要

これは最適化された視覚言語モデルで、命令追従タスクに特化しており、視覚と言語を組み合わせた入力を処理可能

モデル特徴

効率的なトレーニング

UnslothとTRLライブラリを使用してトレーニング速度を2倍向上

遅延のない最適化

推論性能に対して最適化を実施

命令追従

命令追従タスクに特化して微調整

モデル能力

テキスト生成

視覚言語理解

命令追従

使用事例

インテリジェントアシスタント

視覚的質問応答

画像内容に基づいてユーザーの質問に回答

画像説明生成

入力画像に対してテキスト説明を生成

コンテンツ生成

マルチモーダルコンテンツ作成

視覚と言語入力を組み合わせてクリエイティブなコンテンツを生成

属性	详情
ベースモデル	HuggingFaceTB/SmolVLM-Instruct
タグ	text-generation-inference、transformers、unsloth、idefics3
開発者	mjschock
ライセンス	apache-2.0

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Smolvlm Instruct

モデル概要

モデル特徴

モデル能力

使用事例

🚀 アップロードされたファインチューニング済みモデル

🚀 クイックスタート

✨ 主な機能

📚 ドキュメント

モデル情報

📄 ライセンス