微博爬虫研究与实现-毕业论文设计参考

当前位置：毕业论文设计参考 >> 其它专业论文 >> 软件工程本科论文

微博爬虫研究与实现

[关键词：微博,爬虫,毕业设计] [热度 ]

提示：此毕业设计论文完整版包含【论文】
作品编号：rjgc0457，word全文：50页，合计：13000字

点我参考完整版

以下仅为该作品极少介绍，详细内容请点击购买完整版！

微博爬虫研究与实现毕业设计论文------

本文首先对微博及其发展现状进行了简单的介绍，重点研究分析微博爬虫的相关理论和技术。再由简到难，先设计实现一种基于模拟登陆的单线程微博关键字爬虫；后来又利用Scrapy框架设计了多线程的微博关键字爬虫。最后对爬下来的微博数据进行了简单的分析，并且对分析结果设计了直观的展示方式。

本文主要研究内容

本文是通过关键字来获取微博数据和关注该话题的用户数据，同时对获取到的数据进行显示和分析。主要内容为：

1》微博关键字爬虫的研究

首先编写简单的一个py文件，利用selenium接口来实现浏览器的自动化，从新浪微博的电脑网页版weibo.com上面单线程爬取与关键字相关的微博信息与用户数据，简单易于理解但是效率较低。其次使用Scrapy爬虫框架，从新浪微博的手机网页版weibo.cn上面多线程爬取与关键字相关的微博信息与用户数据。

2》用于显示和分析微博数据的界面平台的研究

该平台利用三层架构的做了用于显示和分析微博数据的B/S结构的界面平台，将数据及其分析数据得到的结果以网页的形式进行展示。

本文组织架构

本文章节安排如下：

第一章，绪论。本章主要对本文研宄的背景，相关的理论和研究现状进行了介绍，并给出了本文主要研究内容和组织架构。

第二章，系统分析与设计。包括系统的功能需求分析、性能需求分析、安全性需求分析及开发环境的选择。为后面的研究打下坚实的基础。

第三章，微博关键字爬虫模块设计与实现。首先介绍了网络爬虫的概念，重点介绍了网络通用爬虫。接着介绍了简单的单线程爬虫，包括selenium模拟登录新浪微博，网页的结构和网页抓取的方法XPath、正则表达式、Beautiful Soup和lxml，最后介绍了基于Scrapy框架的多线程爬虫，利用Scrapy框架做出了我们需要的多线程的微博关键字爬虫。

第四章，微博数据展示与分析模块的设计与实现。先对其总体结构和框架进行了设计，微博信息采集与分析平台采用B/S架构，平台部署在Tomcat服务器，可以通过浏览器访问。用户界面全部在浏览器上实现，而大部分的事务逻辑是通过服务器实现，小部分的事务逻辑通过前端来实现，这就是所谓的三层架构，即界面层，逻辑层和数据库层。在该系统中采用Dao+Biz+Server的模式进行实现。将数据的显示和分析的结果以网页的形式进行来展示。

第五章，总结与展望。对该论文的研究内容和研究成果进行总结，分析了研宄中存在的不足，并指出了下一步应当改善及继续研究的内容。

本文是通过关键字来获取微博数据和关注该话题的用户数据，同时对获取到的数据进行显示和分析。对微博关键字爬虫进行了研究，首先介绍了网络爬虫的概念，重点介绍了网络通用爬虫。接着介绍了简单的单线程爬虫，包括selenium模拟登录新浪微博，网页的结构和网页抓取的方法XPath、正则表达式、Beautiful Soup和lxml，最后介绍了基于Scrapy框架的多线程爬虫，利用Scrapy框架做出了我们需要的多线程的微博关键字爬虫，提高了爬虫的效率。也对显示和分析微博数据的界面平台做了研究，该平台利用三层架构的做了用于显示和分析微博数据的B/S结构的界面平台，平台部署于Tomcat服务器，可以通过浏览器访问，将数据及其分析数据得到的结果以网页的形式进行展示。其中还调用了百度的Echart接口，对博文数据和用户的相关数据做了一些可视化的分析。