收藏本站 | 论文目录

关键词: python matlab plc 单片机 dsp fpga 仿真 stm32

当前位置: 毕业论文设计参考 >> 其它专业论文 >> 软件工程本科论文

文本语义分析工具的设计与实现

[关键词:文本语义,语义分析]  [热度 ]
提示:此毕业设计论文完整版包含【论文
作品编号:rjgc0436,word全文:58页,合计:14000

以下仅为该作品极少介绍,详细内容请点击购买完整版!
文本语义分析工具的设计与实现毕业设计论文------

这款软件将会采用程序语言C 来实现对文章的语义分析和关键词查找。开发的主要目的是为了让读者们更清晰的选择一本书,更有针对性的了解一篇文章,从而达到针对性学习的目的。从文章分析的角度来看,读者们会对文章有着更加充分的认识和研究。另一方面,此软件在学术研究中也将为学者们提供便利,使得他们在学术研究中更加透彻的理解文章内容,丰富自身的知识面,同时让学术研究更加成功。

本次项目设计的意义在于帮助人们更加深刻的理解某一篇文章或者文章中的某一个段落所讲述的含义。对于人们生活中所遇到的每一篇文章,每个人都有着对它不同含义的理解,但是这些也许都只是一个片面的理解,可能文章中最有价值的东西并没有能够进入人们的知识层面中。此项目的设计希望能在人们对文章的理解之上借助关键字和关键词的提取,使得人们能够更加清晰的看到文章中所要讲述的内容,并将其纳入我们的思考范围之中,以达到更加深刻的理解和感悟,为人们的学习增加一份色彩。

功能划分

此系统的功能划分将依据用户的需求进行一一划分。同时按照系统的运行顺序分别展开讨论。

1.导入文档内容并输出。

2.统计文档中的字数。

3.统计每个字和词在字段中出现的频率,并输出频率较高的字和词。

4.计算此文档中所有的字和词的逆文档频率以及权重(TF*IDF)。

5.输出权重较高的字和词。

6.分析文章相似度。 

详细功能描述

系统中的每一项功能均需要逐一进行讨论,并根据讨论结果进行逐一实现。现实过程严格按照算法进行。

1.导入文档内容并输出。程序在运行过程中将用户所选文档输入到所定义的字符串中,并在关闭文档的同时输出此字符串。

2.设计循环语句扫描此字符串,每个汉字占两个字节,将扫描过后的字符串长度除以2,最终得到文本的字数,并将此数输出。

3.文章由每个单独的字和词链接而成,它们之间有的重复,有的单一,此功能将采用嵌套循环的方式进行逐一扫描,每当发现文章中有其他与之相同的字或词后,系统自然而然将此字或词的频率+1 。最终得到总的频率。

4.本设计的重点在于权重的计算,在此之前系统将计算逆文档频率(IDF),逆文档频率是基于文章语料库中的总文档数与占有该字或词的文档数的一个比值,最终取对数得到,即IDF。DF与IDF相城后的值即为权重。

5.系统为程序挑选出权重最高的三个作为字段的关键字或关键词输出。

6.基于关键字和关键词之下,程序利用欧式距离算法推导出两篇文章的相似度等信息。

功能分析

首先在读取文档功能下,系统将根据用户所选择的文档把内容输入到程序中来进行操作,经过反复的扫描和统计之后输出此文本中的总字数以及出现频率较高的字和词,此功能的实现需要通过字符串的循环操作,并将每个字和词的频率记录在另一个数组中,挑选其中的大数目输出。后续的逆文档频率运算则需要一个包含此文档的一个语料库,或者是一篇包含这段文字的一篇文章等,系统借助它来将逆文档频率运算出来,从而达到最终的关键字词提取功能。关键字和关键词的权重将作为研究相似度的依据,根据他们可计算出两篇文章在内容上的相似度。

 

 


以上仅为该作品极少介绍,详细内容请点击购买完整版!

提示:此毕业设计论文完整版包含【论文
作品编号:rjgc0436,word全文:58页,合计:14000

本软件工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——文本语义分析工具的设计与实现(论文)!
相关毕业设计
    没有关键字相关信息!