旅游网站(携程网部分数据)大数据分析-hadoop课程设计

此处提供hadoop生态集群快速搭建项目地址和博客

地址:https://github.com/jarlor/hadoop_on_docker

博客:https://www.jarlor.site/2023/10/15/hadoop-on-docker/

最终数据可视化样式

绪论

研究背景

当今时代信息资源日益丰富大量，信息资源的利用对社会的发展起着主要作用，运用信息技术协助产业设计越来越成为行业发展的重要趋势。

旅游产业是典型的体验服务产业，在任何发展阶段，信息反馈的准确性与及时性都具有非凡的意义。大数据的3V特征，海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)都能够很好地满足旅游产业对信息的各方面需求。从现阶段发展来看，旅游大数据在系统了解旅游市场构成、细分市场特征、消费者需求和竞争者状况，保证品牌市场个性化方面以及在统计分析消费者行为、兴趣偏好和产品的市场口碑，有针对性地制订旅游产品和营销计划方面;在帮助企业管理者掌握旅游行业潜在的市场需求推进旅游行业收益管理等方面得到了有效应用，大数据分析技术在定制旅游上的应用更是逐渐发展成为一种全新的旅游生产方式。本文通过分析国内旅游市场现状、大数据的应用特点以及现有定制旅游网站产品服务的模式及特征，试图通过某种方式理解旅游用户的真正需求，从而帮助实现定制旅游网站的产品及服务设计最优。

研究现状

“定制旅游”是旅游市场发展的需要，同样是高度同质化的在线旅游市场发展的结果。它是以旅游者为主导进行旅游行动流程的设计，通常根据旅游者的消费能力，以满足其个性化的需求为原则，，设计出最大限度符合旅游者心理预期产品的一种旅游方式。定制旅游发展到现在不仅包括面向垂直细分人群的旅游产品设计更衍生出多种在线旅游产品平台模式。通过资料研究，现有基于大数据的定制旅游网站一般为两种模式。

其一，“反向定制”旅游网站模式。基于庞大的用户数据，进行旅游用户群行为的预测，从而根据旅游用户群体的喜好或消费倾向，制订相应主题的旅游产品。

其二，自主旅游定制模式。由旅游者提出具体求，旅游平台进行对接。“反向定制”模式创造性地结合了多样化与标准化，在满足客户个性化需求的同时，能够降低定制成本，加快定制速度。而自主旅游定制模式要求网站能够第一时间对用户需求做出反应，这里是指利用大数据和智能化技术，为用户一键生成出游路线计划。两种模式的定制旅游突破了传统旅游典型的标准化产品和服务，向人们展示了一种更便捷、更主动的旅行方式，在产品或服务的设计过程中，行程计划根据用户的需求定制，使旅行的灵活性极大增强，有效提升了旅游质量。自主定制旅游更突出科技的高效精准，大数据挖掘技术代替旅游用户本人做了行前大量的准备、调研工作，能够节省用户更多的时间成本。

然而，通过实例分析，现有定制旅游网站在概念层面以及满足用户个性化需求层面上存在不同程度的局限性。所谓“定制”是指个人属性强烈的产品，“反向定制”突出反映产品设计中人们普遍关注一个在线旅游用户群体，而较少从旅游用户个体的角度进行关联分析的现状;自主旅游模式更是从用户简单的几步倾向选择出发，进行用户求片面妄断。两种旅游定制模式严格意义上无法真正触及每个旅游个体用户的真正心理，无法实现真正的个性化定制。

开发环境

本文用到的开发环境如下：

IDEA 2018.3
Hadoop 2.7.2
Zookeeper 3.4.10
Hive 1.2.1
HBase 1.3.1
Echarts 5.1.1

数据抓取和清洗

数据抓取

利用Jsoup抓取旅游网站数据

通过Jsoup对网页中有用的数据进行解析，之后我们将得到想要的数据。获取城市所有信息，首先需要获取到城市名称也就是获取所有<dd></dd>标签中的所有a链接的文本。

数据清洗

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。

使用Jsoup获取到的是整个页面的资源，其中包含html的代码，也就会包含无意义的数据，需将它进行清洗。

获取所有<dd></dd>标签。

Elements all_dd = pinyin_filter.getElementsByTag("dd");
获取<dd></dd>标签下的所有a标签。

String cityID = StringUtil.getNumbers(element.attr("href"));
获取所有a标签中的文本并添加到HotelCity类中，HotelCity实体类信息如表2-1所示：

表2-1 HotelCity实体类信息

id	int
name	varchar
price	double
lat	double
lon	double
url	varchar
img	varchar
score	double
dpsocre	int
star	varchar
stardesc	varchar
shortName	varchar

核心代码如下：

String headPinyin = dt_headPinyin.text();

hotelCity.setHeadPinyin(headPinyin)；

清洗无意义数据

将获取到携程网的城市酒店的HTML数据（包含所有元素）进行清洗，得到我们需要的标签数据。为了更好的解析数据，我们要将一些无意义的数据进行清洗。Jsoup在这里提供了一个方便的清洗数据方法。然后就可以通过Jsoup进行数据的清洗。

获取所有酒店信息

通过分析酒店相关信息是ajax加载存放在json数据中，价格也在同一个json中但是放在另外的位置通过酒店id对应，并且请求方式是POST，请求的参数有很多，经检验可只传城市id获取，下面简单介绍通过网络请求将json数据拿到，最后将重要数据进行截取，返回一个清晰重要的json数据，再对json数据进行解析便可得到酒店相关信息。

数据存储

存储酒店数据

HBaseUtil工具类设计

创建Hbase表的方法

代码如下：

public static void createTable(String tableName, String... columnNames) throws IOException {

 startConn();

 //获取表对象操作

 Admin admin = conn.getAdmin();

 TableName tableNameObj = TableName.valueOf(Bytes.toBytes(tableName));

 //判断表是否为空

 if (tableName != null && !tableName.isEmpty()) {

   if (!admin.tableExists(tableNameObj)) {

  HTableDescriptor hdr = new HTableDescriptor(tableNameObj);

  for (String columnName : columnNames) {

    hdr.addFamily(new HColumnDescriptor(columnName));}

  admin.createTable(hdr);

}

 }

 closeConn();

  }

向指定表插入数据的方法

代码如下：

public static long putDataByTable(String tablename, List<Put> puts) throws Exception {
  startConn();
  long currentTime = System.currentTimeMillis();
  Table table = conn.getTable(TableName.valueOf(Bytes.toBytes(tablename)));
  try {
      table.put(puts);
  } finally {
table.close();
closeConn();
  }
  return System.currentTimeMillis() - currentTime;  //返回插入数据花费的时间(毫秒)}

酒店信息表

表名: t_city_hotels_info

列族：cityInfo、hotel_info

列族cityinfo下的列：cityId、cityName、pinyin、collectionTime

列族hotel_info下的列：id、name、price、lon、url、img、address、score、dpscore、dpscore、dpcount、star、stardesc、shortName、isSingleRec

从Hotel实体类中提取数据并保存到Hbase表中。

核心代码如下：

酒店评论信息表

表名: t_hotel_comment

列族：hotel_info、comment_info

列族c hotel_info下的列：hotel_name、hotel_id

列族comment_info下的列：id、baseRoomId、baseRoomName、checkInDate、postDate、content、highlightPosition、hasHotelFeedback、userNickName

从HotelComment实体类中提取数据并保存到Hbase表中。

核心代码如下：

List<Hotel> parseArray = JSONObject.parseArray(readFileToString, Hotel.class);
List<Hotel> hongkongHotel = JSONObject.parseArray(hongkong, Hotel.class);
parseArray.addAll(hongkongHotel);
HBaseUtil.putDataByTable("t_city_hotels_info", puts);

MapReduce程序——统计平均价格

Mapper阶段

输入类型：< ImmutableBytesWritable, Result>

输出类型：<ImmutableBytesWritable, DoubleWritable>

在Mapper阶段，从Hbase表t_city_hotels_info中读取数据，查询出每个RowKey的列cityInfo:cityName、列hotel_info:price对应的值。将列cityInfo:cityName对应的值设置为输出的K、列hotel_info:price对应的值设置为输出的V。

核心代码如下:

byte[] cityName = value.getValue(Bytes.toBytes("cityInfo"), Bytes.toBytes("cityName"));
k.set(cityName);
byte[] byte_price = value.getValue(Bytes.toBytes("hotel_info"), Bytes.toBytes("price"));
double doulble_price = Double.parseDouble(Bytes.toString(byte_price));
v.set(doulble_price);
context.write(k, v);

Reducer阶段

输入类型：<ImmutableBytesWritable, DoubleWritable>

输出类型：<ImmutableBytesWritable, Put>

在Reducer阶段，从Mapper中取出数据，取出具有相同的K的V，求平均值。

将结果输出到Hbase表AveragePrice，将K设置为RowKey,平均值设置为列info: price的值。

核心代码如下：

for (DoubleWritable value : values) {
sum += value.get();
count++;}
double average = sum / count;
v.addColumn(Bytes.toBytes("info"), Bytes.toBytes("price"),	 Bytes.toBytes(String.valueOf(average)));
context.write(key,v);

Driver阶段

Hbase提供了TableMapReduceUtil的initTableMapperJob和initTableReducerJob两个方法来完成MapReduce的配置。需指定Mapper要读取的表以及Reducer分析数据后要导入的表。

核心代码如下：

TableMapReduceUtil.initTableMapperJob(
"t_city_hotels_info",
new Scan(),
APMapper.class,
Text.class,
IntWritable.class,
job);
//reducer
TableMapReduceUtil.initTableReducerJob(
"AveragePrice",
CWReducer.class,
job);

MapReduce程序——统计词频

word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。通过HBASE的MapReduce进行数据分析，得到词频较高的数量并进行汇总。

Mapper阶段

输入类型：< ImmutableBytesWritable, Result>

输出类型：<Text, IntWritable>

在Mapper阶段，从Hbase表t_hotel_comment中读取数据，查询出每个RowKey的列comment_info: content对应的值。将列comment_info: content对应的值设置为输出的K、该词出现次数指定为1并设置为V。

核心代码如下:

private static byte[] family = "comment_info".getBytes();
private static byte[] column = "content".getBytes();
byte[] value = result.getValue(family, column);
String word = new String(value,"utf-8");
if(!word.isEmpty()){
String filter = EmojiParser.removeAllEmojis(word);
List<Word> segs = WordSegmenter.seg(filter);
for(Word cont : segs) {
Text text = new Text(cont.getText());
IntWritable v = new IntWritable(1);
context.write(text,v);
}
}

Reducer阶段

输入类型：<Text, IntWritable>

输出类型：<ImmutableBytesWritable, Put>

在Reducer阶段，从Mapper中取出数据，取出具有相同的K的V，求和。将结果输出到Hbase表CountWord，将K设置为RowKey,求和结果设置为列word_info: count的值。

核心代码如下：

int sum=0;
for(IntWritablevalue:values){
sum+=value.get();
}
Put put=new Put(Bytes.toBytes(key.toString()));
put.addColumn(family,column,Bytes.toBytes(sum));
context.write(null,put);

Driver阶段

需指定Mapper要读取的表以及Reducer分析数据后要导入的表。

核心代码如下：

//mapper
TableMapReduceUtil.initTableMapperJob(
"t_hotel_comment",
new Scan(),
CWMapper.class,
Text.class,
IntWritable.class,
job);
//reducer
TableMapReduceUtil.initTableReducerJob(
"CountWord",
CWReducer.class,
job);

数据可视化

可视化图表设计

酒店价格分布图

本设计采用Echarts作为可视化数据展示框架，并采用柱状图展示酒店价格分布，最终效果如图5-1所示。

图 5-1 酒店价格分布图

酒店平均价格对比图

酒店平均价格对比图，最终效果如图5-2所示。

图 5-2 酒店平均价格对比图

酒店房型统计图

酒店房型统计图，最终效果如图5-3所示。

图 5-3 酒店房型统计图

数据可视化展示

通过echarts框架可以轻松实现数据的可视化展示，下图是根据echarts统计绘制的图表信息。

图 5‑4 携程网数据分析

结语

由于受硬件资源的限制，本项目只分析了携程网部分酒店的信息。在统计词频这一MR程序上，由于调用了第三方Jar包，导致在服务器上运行MR程序的过程中碰到了ClassNotFoundException。经多次调试依旧无法解决问题。考虑到数据量相对较小的情况，最终通过JAVA SE程序设计分析数据并转存到HBase中。

考虑到工作量的问题，本设计最终可视化展示为静态网页。同时由于小组缺少美工，最终展示效果较为单调。

从数据抓取，数据清洗，数据分析，数据存储，数据可视化过程中，本小组通过Gitee实现开发同步。本小组通过多种形式的学习,不断地提高自己的技术水平。总的来说，本次项目开发获益良多。

随着大数据时代的到来,国内不同的旅游行业也开始重视大数据的应用，相信未来大数据将随着产业互联网深入到广大传统行业,相应的生态建设也会越来越完善。

参考文献

王泽梁,汪丽华."互联网+旅游大数据时代旅游人才计算机能力培养[J].西昌学院学报(自然科学版),2019,33(3):109-113.
刘力钢,陈金大数据时代边境地区县域全域旅游目的地品牌形象提升策略[J].企业经济,2019,38(10):48-54.
吕雨阶.大数据背景下智慧旅游管理模式研究[J].旅游纵览(下半月),2019(18):34-35.
彭灵芝.大数据时代在线旅游企业发展路径研究[J].商场现代化,2019(17):138-139.
秦燕.大数据在旅游管理中的应肌[J]佳木斯职业学院学报,2019(9):61-62.
王秀玲大数据在旅游统计中的应用研究[J].产业与科技论坛,2018,17(23);:47-48.

Name		Name	Last commit message	Last commit date
Latest commit History 68 Commits
src		src
LICENSE		LICENSE
README.md		README.md
pom.xml		pom.xml

License

jarlor/TravelWebsite_BigDataAnalysis

Folders and files

Latest commit

History

Repository files navigation

旅游网站(携程网部分数据)大数据分析-hadoop课程设计

此处提供hadoop生态集群快速搭建项目地址和博客

最终数据可视化样式

绪论

研究背景

研究现状

开发环境

数据抓取和清洗

相关技术

Jsoup

数据抓取

利用Jsoup抓取旅游网站数据

数据清洗

清洗无意义数据

获取所有酒店信息

数据存储

相关技术

HBase

结构介绍

存储格式

存储酒店数据

HBaseUtil工具类设计

酒店信息表

酒店评论信息表

MapReduce程序——统计平均价格

MapReduce程序——统计词频

数据可视化

相关技术

Echarts

可视化图表设计

酒店价格分布图

酒店平均价格对比图

酒店房型统计图

数据可视化展示

结语

参考文献

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages