###Contents Below are ALL Chinese(Simplified)###
项目主要以DLsite上的各种类型作品,以成人向(R-18)的游戏、音声作品、漫画为主要研究对象(后期考虑加入R-18与全年龄之间现节点的横向对比),对其历史价格与销量、销售情况(以总销售额为主要参考)与作品类型等进行分析,通过以上数据刻画出DLsite客户群体大致的消费能力与“肖像特点”。
以上任务的性质多多少少接近于一次即时的市场调查,受限于作者并非专业出身,分析时会缺少对市场机制的思考而更注重与数据本身的特点,参考时请务必注意。
主要研究对象由于属于法理保护性质不强,且法律执行能力薄弱的买断制成人作品,网络上盗版与资源分享现象严重且普遍,且考虑到游戏作品开发过程中存在没有公开记载的“支援”过程,并且DLsite上组合打折的信息并未体现在作品的价格数据上,从网站上看到的销量数据更多来源于认可开发者或作品质量的“补票党”,更能体现作品本身的水平与开发团队的信誉,反过来,单价与销量也更能体现愿意付费的群体(可能主要为在日客户群体)其经济能力,甚至是风俗业与游戏市场的活跃程度。
综上,可以认为DLsite上的商品,其定价属于价值导向类型(Value-Based Pricing),能反映作品其受众群体的经济能力与市场活跃程度(同时也有机会一窥xp的万花筒),以上为本项目的立项基础。
从以下网页抓取主要的作品数据:DojinDB;
其他诸如游戏评级、评价内容等信息可以结合DLsite主站或其他第三方数据源获取;在建立数据集的过程中还可以根据制作社团等信息,对系列作品(如游戏DLC、漫画续作、多语言版本音声作品等)进行整理与统计。
接下来介绍数据源能够提供的信息:
本数据源能够提供以下类型的作品查找服务:
- 仅男性向的R-18作品信息查询
- 数据库内作品自动按顺序编号(这意味着数据编号能够表示数据库内的作品总量——手动遍历得到的最早期作品编号为“12784”)
- 全部类型、游戏、CG、漫画、音声共五个大类的每日、每周、每月、历史累计“人气”前200位作品(尚不清楚“人气”的计算指标)
- 一个月内发行的所有新作品
- 不同Tag属性下的所有作品类型查询
- 包括与排除有“AI生成”标记的作品
根据以上服务,能大致确定需要抓取的作品范围。本项目预计取得的成果包括:
- 爬取前200百榜单上的所有作品
- 特定tag下数据翻页爬取作品(tag查询能够最大程度上扩展查询得到的数据范围)
- 对“AI生成”作品进行区分
- 通过编号对一部分作品进行随机抽取
综上,获取到的作品数量约在1万部左右,至少包含10%的“高人气”作品。
在获取到查询页能够提供的作品编号后即可开始对作品进行爬取。爬取过程主要基于作品网页源码,能够从网页源码中获取以下信息:
- 作品价格(包含DLsite/FANZA)(关键元素:"barChartData")
该部分数据来源于DojinDB,标准获取地址为:
https://dojindb.net/w/441319?mode=getgraph&g=thismonth
其中,“441319”为作品在数据库内的编号(非RJ号),“mode=getgraph”表示获取图像的请求,“g=thismonth”表示获取本月销量数据,会返回json格式的字典文件,大致格式如下:
{
"log":[
{
"0":"2",
"site":"2",
"1":"RJ01050555",
"code":"RJ01050555",
"2":"2750",
"price":"2750",
"3":"34738",
"amount":34738,
"4":"2024-03-20",
"time_ymd":"2024-03-20",
"campaign":"",
"amount_diff":253,
"time":"2024-03-20",
"value":695750
},
......
],
"graph":{
"date":["03\/02",......,"03\/20"],
"amount_diff":[0,6984,......,253],
"amount":["8579",15563,......,34738],
"value":[0,17285400,......,695750],
"price_max":"2750",
"startdate":"2024-03-02",
"enddate":"2024-03-20"
},
"price_sum":65531675,
"amount_sum":26159
}
以上数据在网站上呈现出的图像如下:
获取数据全部保留至预处理环节。
另外,“g=thismonth”后继参数也由网页源码提供,如下所示:(关键元素:“form-control graph-range”)
###工事中###
(DLsite的数据格式比dojinDB更复杂,可以参照其他项目的代码处理)
可以参考的数据仓库要求:
能够从数据来源处获取数据,并进行数据预处理
建立关系型数据仓库存储模型/建立分布式文件系统存储模型/建立图数据库存储模型,存储数据
建立数据治理体系
数据来源:数据来源自DojinDB网站,数据包括但不限于以下信息:作品ID,历史销量(30日内/3月内/今年内/往年每年),作品Tag类型,发售时间,用户评分及其等第明细,
作品赏析常用Tag
等信息
###工事中###
以数据源为依据,以下分为两部分介绍数据爬取的过程与原始数据的存储格式。
数据爬取的大致流程如下:
###工事中###