Skip to content

nu-dialogue/clip-prefix-caption-jp

Repository files navigation

clip-prefix-caption-jp

本リポジトリは画像キャプション生成手法ClipCapの日本語版実装です.ClipCapは,大規模汎用画像分類モデルCLIPと大規模汎用言語モデルGPT-2をベースにした手法です.本リポジトリでは,日本語版GPT-2と日本語版MS COCOデータセットを用いて実装してあります.自作データセットで学習・推論する際のチュートリアルも公開しています.

  • Official implementation of ClipCap: GitHub
  • Japanese GPT-2 model :
  • Japanese MS COCO: Paper, GitHub

Inference Examples on MS COCO

街路樹のある道路を車が走っています。 広場でたくさんの人が凧揚げをしています。 紙の箱の中にピザが入っています。
時計の針は10時20分を指しています。 青空の下に時計台が建っています。 野球のバッターがボールを打とうとしています。

Requirements

Python >= 3.7

pip instal -r requirements.txt

チュートリアル

  • COCOデータセットやSFCOCOデータセットで学習したモデルでの推論: Open In Colab
    • SFCの授業で用いたものです.
  • 自作データセットの用意から学習・推論まで: Open In Colab

用意するデータの形式

data/直下に,任意のデータセット名のディレクトリを作成し,キャプション一覧データ(captions.csv)と画像格納ディレクトリ(images/)を置く.

data/ディレクトリ下のデータ例

データセット名がoriginalの場合

data/
  └original/ # データセット名
    ├images/ # 画像データを含んだフォルダ
    │  ├001.jpeg # 画像ファイル名は何でもよい(連番である必要はない)
    │  ├002.jpeg
    │  └...
    │
    └captions.csv # 画像ファイル名とそのキャプション文のペアリスト

captions.csvの中身

  • 画像ファイル名キャプション文が対になったcsvファイル
    • 画像ファイル名は絶対パスや相対パスではなく,ファイル名そのもの(拡張子付き)とする.
  • 001.jpeg,スケボーに興じる一人の男性がいます。
    002.jpeg,ゲレンデでスキーをしている人がいます。
    ...
    

About

Japanese port of "ClipCap: CLIP Prefix for Image Captioning"

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages