時系列調理画像データセット
・データベースの概要
本データベースは,調理過程における食材の状態をモニタリングすることを目的として作成されたものであり,時系列的な料理画像群とこれらに対応したレシピ文がペアで構成されています.本データベースを利用することによって,VLM(視覚言語モデル)に料理画像とレシピ文の関連性を学習させることが可能です.また,既存のモデルの料理タスクのモニタリング性能を評価することが可能です. 基本的な使用方法として,trainフォルダ内のデータを学習または検証データとして使用し,testフォルダ内のデータをテストデータに使用することを想定しています.
なお,学会や雑誌等の公開物に使用される場合は,出典として以下のURLまたは文献等の記載をお願いできれば幸いです.
URL:http://isl.sist.chukyo-u.ac.jp/archives/tsci
<出典> Rina Tagami, Hiroki Kobayashi, Shuichi Akizuki, Manabu Hashimoto, Food State Recognition from Recipes Using Multimodal Model for Task Monitoring in Autonomous Cooking Robots, In Scandinavian Conference on Image Analysis 2025 (SCIA2025), vol.15726, pp.356-369, Reykjavik, Iceland, 2025/06/23.
・データベースの作成方法
本データベースは,特殊な撮影方法により画像を取得しました.

・公開済みのデータベースについて
本データベースは,上記の撮影環境で取得した動画(30FPS,幅1280,高さ720,チャンネル数3)をフレーム単位に分割し,画像化したものをトリミングおよびリサイズしてから公開しています.フレーム分割時には,全フレームを抽出しており,連番の PNG 画像として保存しました.各画像は左上座標(325,45)および右下座標(955,675)で領域を切り出した後,横244,幅244になるように,バイリニア補間によってリサイズしています.動画撮影時の調理は,あらかじめ用意した複数のレシピ文に従っておこなわれました.各フレームに,対応するレシピ文を付与しており,このアノテーションは実際に調理をおこなった者がおこないました.
・データベース:ダウンロード
■データベースの情報 : TSCI_info.tar.gz
■目玉焼き
■学習データ(10組,計170,760画像-テキストペア,19.2GB)
:
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
■テストデータ(4組,計66,888画像-テキストペア,7.3GB)
:
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
■野菜炒め
■学習データ(10組,計165,930画像-テキストペア,17.2GB)
:
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
■テストデータ(2組,計20,640画像-テキストペア,2.2GB)
:
[1]
[2]
[3]
■カラメルソース
■学習データ(10組,計129,024画像-テキストペア,13.7GB)
:
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
■テストデータ(2組,計36,082画像-テキストペア,3.7GB)
:
[1]
[2]
[3]
[4]
■ホットケーキ
■学習データ(10組,計44,838画像-テキストペア,4.5GB)
:
[1]
[2]
[3]
[4]
[5]
■テストデータ(5組,計18,612画像-テキストペア,1.9GB)
:
[1]
[2]
・ファイルの解凍
以下の「<dataset>」をダウンロードしたファイルに置き換え,実行してください.
1.tar.gz ファイルの結合
cat <dataset>_part_*.tar.gz > <dataset>.tar.gz
2. tar.gz ファイルの展開
tar -xvzf <dataset>.tar.gz
・データベースの階層構造
datasets
|--TSCI_info
| |--train.json
| |--test.json
|--TSCI_egg_train
| |--egg_video001
| | |--GT.txt
| | |--frames
| | |--00000.png
| | |--00001.png
|--TSCI_egg_test
|--TSCI_onion_train
|--TSCI_onion_test
|--TSCI_caramel_train
|--TSCI_caramel_test
|--TSCI_pancake_train
|--TSCI_pancake_test
データセットには,データセットの情報(TSCI_info),目玉焼きのビデオ(TSCI_egg_train,TSCI_egg_test),野菜炒めのビデオ(TSCI_onion_train,TSCI_onion_test),カラメルソースのビデオ(TSCI_caramel_train,TSCI_caramel_test),ホットケーキのビデオ(TSCI_pancake_train,TSCI_pancake_test)が含まれています.さらに,その中にフレームごとの画像群(frames)と,各フレームが複数あるレシピのうち,どれに該当するのかが記載されたGround Truth(GT.txt)が含まれています.また,train.json,test.jsonには,すべてのクラスの,レシピ文,フレーム情報,クラス名がまとめて記載されており,学習時のデータのロードに使用できます.