基于Hadoop的天气变化分析系统的设计与实现
[关键词:Hadoop,天气变化分析] [热度 ]提示:此毕业设计论文完整版包含【开题报告,任务书,论文,源程序】 作品编号:rjgc0100,word全文:36页,合计:12000字 |
本系统完成了对海量数据的筛选,通过MapReduce从大量数据中获取部分有效数据,然后通过hive对筛选过的数据进行分析,获取温度,降水量和风速的最大,最小以及平均值。
......
采用java语言从ISD-Lite获取数据,将获取到的数据使用Hadoop的hdfs文件系统存储,分别统计日,周,月,年的最高气温、最低气温、平均气温、最高风速、最低风速、平均风速、最大降水量、最低降水量、平均降水量。在统计分析部分使用MapReduce并行分布式计算框架或Hive完成,如果使用MapReduce完成统计分析,为便于查询,结果必须导入Hbase中,如果使用Hive完成统计分析,分析前必须将数据通过sqoop导入hive中,在线部分采用B/S架构实现,使用JSP/Servlet技术以及流行的企业级框架如struts2、springmvc、spring等,Hadooop环境必须部署在Linux平台上;在线部分可部署在windows平台或Linux平台上。
要研究解决的主要问题
本系统从设计到开发,测试,整个开发过程需要重点解决以下问题:
(1)数据量足够大:大数据和云计算技术要想得出有效结论一定是基于海量数据之上的,因此如何保证采集到足够多的数据以及采集到的数据真实有效是保证系统能够得出结论的重要条件。
(2)数据及结果存储:对于海量数据如何实现高效快捷的存取以及如何存储分析结果使得用户方便查看,易于理解是完成系统功能的重要要求。
拟采用的研究手段
在线部分使用B/S的设计结构,使用struts2框架完成,采用tomcat服务器,Hadoop
部署在Linux平台上,在线部分部署在windows平台,使用MapReduce完成分析并将
结果导入Hbase中。
.....
功能性分析
基于Hadoop的天气分析系统主要由离线部分和在线部分两部分组成,其中,离线部分包括了数据清洗和数据分析,在线部分将数据分析结果显示到了页面上。离线部分通过MapReduce将数据进行清洗,筛选掉真实性较差的数据,然后通过hive对数据进行分析,分别计算出年,月,日,季度和周的最大,最小和平均的气温,风速和降水量并写入mysql数据库。在线部分将处理好的数据显示到界面上,分别显示在表格中和图表上。
离线部分
基于Hadoop的天气分析系统的离线部分主要是为了实现对数据的分析,所以这一部分需要实现的功能包括以下几个部分:
(1)数据获取:因为该系统需要对海量数据做出分析,如果数据量不够大可能会影响到分析的结果,所以首先需要获取大量的天气数据(至少10000条以上)。此部分数据可直接从中国天气数据网上直接获取。得到数据为原数据,原数据需要存储到hdfs(Hadoop分布式文件系统)上进行管理。
(2)数据清洗:由于年代过分久远或者存储手段不当等问题,获取到的数据中有一部分的可信度并不高,需要我们设定一系列规则筛选掉不合格数据,留下可信度较高的数据。因为原数据的规模较大,所以可以使用MapReduce进行数据清洗,执行速度相对较快。
(3)数据处理:我们需要对清洗后的数据进行分析,得出年、月、日、周和季度的最高气温,最低气温、平均气温、最大风速、最低风速、平均风速、最大降水量、最低降水量和平均降水量。由于......
提示:此毕业设计论文完整版包含【开题报告,任务书,论文,源程序】 作品编号:rjgc0100,word全文:36页,合计:12000字 |
本软件工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——基于Hadoop的天气变化分析系统的设计与实现(开题报告,任务书,论文,源程序)!