收藏本站 | 论文目录

关键词: python matlab plc 单片机 dsp fpga 仿真 stm32

当前位置: 毕业论文设计参考 >> 其它专业论文 >> 软件工程本科论文

微博爬虫研究与实现

[关键词:微博,爬虫,毕业设计]  [热度 ]
提示:此毕业设计论文完整版包含【论文
作品编号:rjgc0457,word全文:50页,合计:13000

以下仅为该作品极少介绍,详细内容请点击购买完整版!
微博爬虫研究与实现毕业设计论文------

本文首先对微博及其发展现状进行了简单的介绍,重点研究分析微博爬虫的相关理论和技术。再由简到难,先设计实现一种基于模拟登陆的单线程微博关键字爬虫;后来又利用Scrapy框架设计了多线程的微博关键字爬虫。最后对爬下来的微博数据进行了简单的分析,并且对分析结果设计了直观的展示方式。

本文主要研究内容

本文是通过关键字来获取微博数据和关注该话题的用户数据,同时对获取到的数据进行显示和分析。主要内容为:

1》微博关键字爬虫的研究

首先编写简单的一个py文件,利用selenium接口来实现浏览器的自动化,从新浪微博的电脑网页版weibo.com上面单线程爬取与关键字相关的微博信息与用户数据,简单易于理解但是效率较低。其次使用Scrapy爬虫框架,从新浪微博的手机网页版weibo.cn上面多线程爬取与关键字相关的微博信息与用户数据。

2》用于显示和分析微博数据的界面平台的研究

该平台利用三层架构的做了用于显示和分析微博数据的B/S结构的界面平台,将数据及其分析数据得到的结果以网页的形式进行展示。

本文组织架构

本文章节安排如下:

第一章,绪论。本章主要对本文研宄的背景,相关的理论和研究现状进行了介绍,并给出了本文主要研究内容和组织架构。

第二章,系统分析与设计。包括系统的功能需求分析、性能需求分析、安全性需求分析及开发环境的选择。为后面的研究打下坚实的基础。

第三章,微博关键字爬虫模块设计与实现。首先介绍了网络爬虫的概念,重点介绍了网络通用爬虫。接着介绍了简单的单线程爬虫,包括selenium模拟登录新浪微博,网页的结构和网页抓取的方法XPath、正则表达式、Beautiful Soup和lxml,最后介绍了基于Scrapy框架的多线程爬虫,利用Scrapy框架做出了我们需要的多线程的微博关键字爬虫。

第四章,微博数据展示与分析模块的设计与实现。先对其总体结构和框架进行了设计,微博信息采集与分析平台采用B/S架构,平台部署在Tomcat服务器,可以通过浏览器访问。用户界面全部在浏览器上实现,而大部分的事务逻辑是通过服务器实现,小部分的事务逻辑通过前端来实现,这就是所谓的三层架构,即界面层,逻辑层和数据库层。在该系统中采用Dao+Biz+Server的模式进行实现。将数据的显示和分析的结果以网页的形式进行来展示。

第五章,总结与展望。对该论文的研究内容和研究成果进行总结,分析了研宄中存在的不足,并指出了下一步应当改善及继续研究的内容。

本文是通过关键字来获取微博数据和关注该话题的用户数据,同时对获取到的数据进行显示和分析。对微博关键字爬虫进行了研究,首先介绍了网络爬虫的概念,重点介绍了网络通用爬虫。接着介绍了简单的单线程爬虫,包括selenium模拟登录新浪微博,网页的结构和网页抓取的方法XPath、正则表达式、Beautiful Soup和lxml,最后介绍了基于Scrapy框架的多线程爬虫,利用Scrapy框架做出了我们需要的多线程的微博关键字爬虫,提高了爬虫的效率。也对显示和分析微博数据的界面平台做了研究,该平台利用三层架构的做了用于显示和分析微博数据的B/S结构的界面平台,平台部署于Tomcat服务器,可以通过浏览器访问,将数据及其分析数据得到的结果以网页的形式进行展示。其中还调用了百度的Echart接口,对博文数据和用户的相关数据做了一些可视化的分析。

 

 


以上仅为该作品极少介绍,详细内容请点击购买完整版!

提示:此毕业设计论文完整版包含【论文
作品编号:rjgc0457,word全文:50页,合计:13000

本软件工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——微博爬虫研究与实现(论文)!