基于深度学习的短文本分类的实现
[关键词:深度学习,短文本,分类] [热度 ]提示:此毕业设计论文完整版包含【论文】 作品编号:jskx0249,word全文:28页,合计:15000字 |
本文详细的阐述了文本分类的具体流程,包括数据预处理、文本表示、分类算法等步骤。本文主要处理的对象是短文本,实现了中文和英文的文本分类,其中中文数据预处理采用Python语言的jieba分词开源库。在初始的文本表示中,本文采用的是Skip-gram神经网络语言模型来训练数据集中每个词的WordEmbedding,并将每个词的词向量组合就形成了样本的二维矩阵形式,输入到卷积层。本文采用的是由3个不同的卷积核和Max-pooling组成卷积神经网络模型,来实现对样本数据的特征提取。本文的训练模型采用的是mini-batch梯度下降法与highway网络结合的方法,通过不断的迭代来更新模型的参数。此方法的中文模型的准确率为99.05%、英文模型准确率为97.42%,而且该模型的准确率相较单一的卷积神经网络有3%-4%的提升。
本文的各个章节安排如下:
第一章为前言,主要介绍了本文为何要研究文本分类问题并对该领域目前国内外的研究现状进行了总结,对本文的内容和结构进行了介绍。
第二章文本表示所需的相关的基础知识,详细的介绍了此领域的发展过程以及过程中出现的算法,剖析了算法的优缺点;详细地阐述了适合深度学习的表示方法。最后介绍了本文模型所采用的词嵌入的方法。
第三章主要讲述神经网路原理,首先阐述了人工神经网络的组成及理论;其次主要对卷积神经网络的基本理论、特点进行了详细的剖析,介绍了CNN网络的各个层次的作用。最后对highway网络在本文模型中是如何应用进行了介绍。
第四章为模型的实现,系统的介绍了卷积神经网络结合Highway网络模型的设计与实现,并且运用数据集对本文的模型进行了性能评估,对实验进行了分析。
最后,结论部分是提出了本文研究内容整体流程和总结,对文本分类问题进行了剖析,对将来的研究提出了新的研究思路。
本文的研究内容是文本分类问题。一方面是对于目前常用的文本特征表示方法进行了研究和分析,剖析了研究方法所适合的文本,针对本文的模型、数据集特征,本文采用Skip-gram模型进行词嵌入。Skip-gram模型结合下文的深度学习方法处理文本分类问题使模型的性能得到很大的提升。另一方面是本文尝试使用深度学习思想来处理文本分类问题,本文处理的数据主要是短文本,因此本文使用卷积神经网络模型来解决文本分类问题。将已经提取出的文本特征作为卷积神经网络的输入,通过在卷积层设计的3种不同的卷积核,进一步提取多种文本特征,将提取的特征输入到Max-pooling层进一步筛选重要的问吧你特征,最后将其输入到全连接层,运用Softmax算法进行分类。此模型的英文文本分类的准确率为94.23%,中文文本分类的准确率为98.15%。
本文又设计了一种卷积神经网络结合Highway网络的模型,运用Highway网络进行模型训练时,大幅度的提升了模型的性能,英文文本分类的准确率了3%,中文文本分类的准确率提升了1%,证明了卷积神经网络结合Highway网络比单一的卷积神经网络模型能够获得更好的分类效果。
提示:此毕业设计论文完整版包含【论文】 作品编号:jskx0249,word全文:28页,合计:15000字 |
本信息与计算科学毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——基于深度学习的短文本分类的实现(论文)!