smt - grandstaffオープンソースSMTモデル - 無料でデプロイしてピアノ譜画像の高精度な転写を実現

ホーム

Smt Grandstaff

antoniorv6によって開発

このSMTモデルはCamera GrandStaffピアノ譜データセットでファインチューニングされ、ピアノ譜画像の転写タスクに使用されます。

画像生成テキスト

Safetensors

オープンソースライセンス:MIT #ピアノ譜の転写 #エンドツーエンド光学認識 #ConvNext-Transformerアーキテクチャ

ダウンロード数 136

リリース時間 : 8/13/2024

モデル概要

SMTモデルは視覚エンコーダー（ConvNext）とテキストデコーダー（古典的なTransformer）で構成され、楽譜システム画像をテキスト表現に変換できます。

モデル特徴

エンドツーエンド楽譜認識

画像入力から直接楽譜テキスト表現を生成し、中間処理ステップが不要

ピアノ譜専用

Grandstaffデータセットのピアノ譜に特化して最適化

ハイブリッドアーキテクチャ

視覚エンコーダーとテキストデコーダーの利点を組み合わせ、画像からテキストへの変換を実現

モデル能力

ピアノ譜画像認識

楽譜テキスト生成

光学楽譜認識

使用事例

音楽教育

楽譜のデジタル化

紙のピアノ譜をデジタル形式に変換

楽譜のアーカイブと共有効率の向上

音楽制作

自動伴奏

手書き楽譜を編集可能なデジタル形式に変換

音楽制作プロセスの簡素化

🚀 楽譜トランスフォーマー (ベースモデル、Grandstaffデータセットでファインチューニング済み)

SMTモデルは、ピアノ譜の転写用に Camera GrandStaffデータセットでファインチューニングされています。このモデルのコードはこのリポジトリにあります。

🚀 クイックスタート

SMTモデルは、ピアノ譜の画像をテキストに変換するために、Camera GrandStaffデータセットでファインチューニングされています。コードはこのリポジトリにホストされています。

✨ 主な機能

このモデルは、ビジョンエンコーダ（ConvNext）とテキストデコーダ（古典的なTransformer）で構成されています。与えられた楽譜の画像をエンコーダが埋め込みテンソルに変換し、デコーダがそれを元にテキストを生成します。

📚 ドキュメント

モデルの説明

SMTモデルは、ビジョンエンコーダ（ConvNext）とテキストデコーダ（古典的なTransformer）で構成されています。楽譜の画像が与えられると、エンコーダはまず画像を埋め込みテンソル（形状はbatch_size, seq_len, hidden_size）にエンコードし、その後デコーダがエンコーダの出力を条件として自己回帰的にテキストを生成します。

想定される用途と制限

このモデルはGrandStaffデータセットでファインチューニングされているため、ピアノ譜の画像の転写にのみ使用できます。

BibTeXエントリと引用情報

@misc{RiosVila2024,
      title={Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription}, 
      author={Antonio Ríos-Vila and Jorge Calvo-Zaragoza and Thierry Paquet},
      year={2024},
      eprint={2402.07596},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2402.07596}, 
}