Skip to content

A project systematically analyzing data facts of doujin-market

Notifications You must be signed in to change notification settings

Hammerous/DLsite-Analyse

Repository files navigation

DLsite-Analyse

###Contents Below are ALL Chinese(Simplified)###

项目思路

0.研究目标

项目主要以DLsite上的各种类型作品,以成人向(R-18)的游戏、音声作品、漫画为主要研究对象(后期考虑加入R-18与全年龄之间现节点的横向对比),对其历史价格与销量、销售情况(以总销售额为主要参考)与作品类型等进行分析,通过以上数据刻画出DLsite客户群体大致的消费能力与“肖像特点”。

1.研究综述

以上任务的性质多多少少接近于一次即时的市场调查,受限于作者并非专业出身,分析时会缺少对市场机制的思考而更注重与数据本身的特点,参考时请务必注意。

主要研究对象由于属于法理保护性质不强,且法律执行能力薄弱的买断制成人作品,网络上盗版与资源分享现象严重且普遍,且考虑到游戏作品开发过程中存在没有公开记载的“支援”过程,并且DLsite上组合打折的信息并未体现在作品的价格数据上,从网站上看到的销量数据更多来源于认可开发者或作品质量的“补票党”,更能体现作品本身的水平与开发团队的信誉,反过来,单价与销量也更能体现愿意付费的群体(可能主要为在日客户群体)其经济能力,甚至是风俗业与游戏市场的活跃程度。

综上,可以认为DLsite上的商品,其定价属于价值导向类型(Value-Based Pricing),能反映作品其受众群体的经济能力与市场活跃程度(同时也有机会一窥xp的万花筒),以上为本项目的立项基础。

2.数据来源

从以下网页抓取主要的作品数据:DojinDB

其他诸如游戏评级、评价内容等信息可以结合DLsite主站或其他第三方数据源获取;在建立数据集的过程中还可以根据制作社团等信息,对系列作品(如游戏DLC、漫画续作、多语言版本音声作品等)进行整理与统计。


接下来介绍数据源能够提供的信息:

(1)DojinDB

①作品查询

本数据源能够提供以下类型的作品查找服务:

  • 仅男性向的R-18作品信息查询
  • 数据库内作品自动按顺序编号(这意味着数据编号能够表示数据库内的作品总量——手动遍历得到的最早期作品编号为“12784”)
  • 全部类型、游戏、CG、漫画、音声共五个大类的每日、每周、每月、历史累计“人气”前200位作品(尚不清楚“人气”的计算指标)
  • 一个月内发行的所有新作品
  • 不同Tag属性下的所有作品类型查询
  • 包括与排除有“AI生成”标记的作品

根据以上服务,能大致确定需要抓取的作品范围。本项目预计取得的成果包括:

  • 爬取前200百榜单上的所有作品
  • 特定tag下数据翻页爬取作品(tag查询能够最大程度上扩展查询得到的数据范围)
  • 对“AI生成”作品进行区分
  • 通过编号对一部分作品进行随机抽取

综上,获取到的作品数量约在1万部左右,至少包含10%的“高人气”作品。

②作品抓取

在获取到查询页能够提供的作品编号后即可开始对作品进行爬取。爬取过程主要基于作品网页源码,能够从网页源码中获取以下信息:

  • 作品类型

    image

  • 创作社团(关键元素:"itemprop")

image

  • 作品价格(包含DLsite/FANZA)(关键元素:"barChartData")

image

  • 作品相关Tag(关键元素:"tags_box mb15")

    image

③历史销量与价格数据

该部分数据来源于DojinDB,标准获取地址为:

https://dojindb.net/w/441319?mode=getgraph&g=thismonth

其中,“441319”为作品在数据库内的编号(非RJ号),“mode=getgraph”表示获取图像的请求,“g=thismonth”表示获取本月销量数据,会返回json格式的字典文件,大致格式如下:

{
   "log":[
      {
         "0":"2",
         "site":"2",
         "1":"RJ01050555",
         "code":"RJ01050555",
         "2":"2750",
         "price":"2750",
         "3":"34738",
         "amount":34738,
         "4":"2024-03-20",
         "time_ymd":"2024-03-20",
         "campaign":"",
         "amount_diff":253,
         "time":"2024-03-20",
         "value":695750
      },
      ......
   ],
   "graph":{
      "date":["03\/02",......,"03\/20"],
      "amount_diff":[0,6984,......,253],
      "amount":["8579",15563,......,34738],
      "value":[0,17285400,......,695750],
      "price_max":"2750",
      "startdate":"2024-03-02",
      "enddate":"2024-03-20"
   },
   "price_sum":65531675,
   "amount_sum":26159
}

以上数据在网站上呈现出的图像如下:

image

获取数据全部保留至预处理环节。

另外,“g=thismonth”后继参数也由网页源码提供,如下所示:(关键元素:“form-control graph-range”)

image


###工事中###

(DLsite的数据格式比dojinDB更复杂,可以参照其他项目的代码处理)

可以用来查询特定社团的信息

(2)DLsite

可以参考的数据仓库要求:

能够从数据来源处获取数据,并进行数据预处理

建立关系型数据仓库存储模型/建立分布式文件系统存储模型/建立图数据库存储模型,存储数据

建立数据治理体系

数据来源:数据来源自DojinDB网站,数据包括但不限于以下信息:作品ID,历史销量(30日内/3月内/今年内/往年每年),作品Tag类型,发售时间,用户评分及其等第明细,

image

作品赏析常用Tag

image

等信息

###工事中###


3.数据爬取

以数据源为依据,以下分为两部分介绍数据爬取的过程与原始数据的存储格式。

(1)dojinDB

数据爬取的大致流程如下:

新建 Microsoft PowerPoint 演示文稿


(2)DLsite

###工事中###

About

A project systematically analyzing data facts of doujin-market

Topics

Resources

Stars

Watchers

Forks

Languages