基于统计机器学习的汽车产品评论情感分析
[关键词:机器学习,汽车产品,评论情感] [热度 ]提示:此毕业设计论文完整版包含【论文】 作品编号:xxgl0124,word全文:38页,合计:15000字 |
本课题利用数据采集软件对汽车网站上若干车型的评论数据进行采集,将收集到的数据整理分类并建立人工标注语料库。再对语料库进行中文分词,去停用词等预处理操作,并使用特征选择,文本表示模型等文本分类技术对训练语料进行数据转换,得到标准数据框架。然后利用统计机器学习方法建立分类模型,将测试数据与待预测数据输入模型中,得到分类结果,最后对分类结果进行评价与分析。
本文拟使用文献研究,案例研究相结合的研究方法。首先通过对文献进行分析,了解情感分析的研究现状,其次研究网页数据采集,文本预处理,特征选择,特征空间模型,分类算法等理论与方法的特点,并分析相关理论方法的优势。
然后通过爬虫软件从汽车论坛上抓取用户评论信息,并通过一系列的预处理方法构造一个已标注的语料库,使用其中的一部分数据作为训练样本,另一部分作为测试样本。并利用合适的特征选择算法,特征表示方法对语料集进行处理分析,然后使用朴素贝叶斯分类器对语料进行训练,得到一个情感倾向分类模型。使用训练得到的模型对给定的评论进行情感分类,对结果进行分析总结,得出情感分析的结果。
本课题针对如何分析汽车产品评论中的用户情感倾向问题,提出了基于统计机器学习的方法。在查阅相关文献的基础上,本课题的主要研究工作主要体现在以下三个方面:
(1)实验数据的收集整理
本课题研究的对象是汽车产品评论。在对评论进行情感分析之前,首先要解决试验数据如何获取的问题。本课题利用爬虫软件从汽车之家网站上收集了奇瑞汽车八个车型的14000多条评论数据,并利用excel等工具对数据进行了查重,去除空白项,格式转换等数据清洗操作,得到了实验所需的数据,为后续的情感分析打下了基础。
(2)情感分类模型的建立
在人工标注语料的基础上,对训练语料进行中文分词,去停用词等预处理操作。并利用主成分分析的方法进行特征选择,构建文本表示的向量空间模型。在得到训练文本的特征词词频,先验概率,类条件概率等信息后,使用朴素贝叶斯算法构建情感分类模型。至此,我们就可以利用该分类模型对汽车产品评论进行情感分析了。
(3)分类结果的评价与分析
利用已训练好的情感分类模型,将测试数据导入该模型中,得出该模型分类的准确率,召回率,F1值等评价指标信息,并利用这些信息对该模型分类效果进行评价。同时将需要分类的评论数据输入该模型中,得出情感分类的结果,并将结果与真实评论情况进行对比,比较机器分类与人工识别的优劣之处。
提示:此毕业设计论文完整版包含【论文】 作品编号:xxgl0124,word全文:38页,合计:15000字 |
本信息管理与系统毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——基于统计机器学习的汽车产品评论情感分析(论文)!