本リポジトリは画像キャプション生成手法ClipCapの日本語版実装です.ClipCapは,大規模汎用画像分類モデルCLIPと大規模汎用言語モデルGPT-2をベースにした手法です.本リポジトリでは,日本語版GPT-2と日本語版MS COCOデータセットを用いて実装してあります.自作データセットで学習・推論する際のチュートリアルも公開しています.
街路樹のある道路を車が走っています。 | 広場でたくさんの人が凧揚げをしています。 | 紙の箱の中にピザが入っています。 |
時計の針は10時20分を指しています。 | 青空の下に時計台が建っています。 | 野球のバッターがボールを打とうとしています。 |
Python >= 3.7
pip instal -r requirements.txt
data/
直下に,任意のデータセット名のディレクトリを作成し,キャプション一覧データ(captions.csv
)と画像格納ディレクトリ(images/
)を置く.
データセット名がoriginal
の場合
data/
└original/ # データセット名
├images/ # 画像データを含んだフォルダ
│ ├001.jpeg # 画像ファイル名は何でもよい(連番である必要はない)
│ ├002.jpeg
│ └...
│
└captions.csv # 画像ファイル名とそのキャプション文のペアリスト
- 画像ファイル名とキャプション文が対になったcsvファイル
- 画像ファイル名は絶対パスや相対パスではなく,ファイル名そのもの(拡張子付き)とする.
- 例
001.jpeg,スケボーに興じる一人の男性がいます。 002.jpeg,ゲレンデでスキーをしている人がいます。 ...