收藏本站 | 论文目录

关键词: python matlab plc 单片机 dsp fpga 仿真 stm32

文本挖掘若干关键技术的分析与应用

[关键词:文本挖掘,关键技术]  [热度 ]
提示:此毕业设计论文完整版包含【开题报告,论文
作品编号:xxgl0204,word全文:26页,合计:15000

以下仅为该作品极少介绍,详细内容请点击购买完整版!
文本挖掘若干关键技术的分析与应用毕业设计论文------

研究内容:

1.文本预处理是文本挖掘的第一个步骤, 对文本挖掘效果的影响至关重要, 文本的预处理过程可能占据整个系统的80 %的工作量。[5]中文文本预处理较英文文本的预处理更加复杂,目前国内有一些研究机构正在研究;

2.文本分类具体方法有:朴素贝叶斯方法(NB)、K-最近邻法(KNN)、支持向量法(SVM)、向量空间模型(VSM)、线性最小二乘方估计法(LISF)。其中NB、VSM、LISF对中文比较适用;

3.文本聚类方法:层次聚类法、平面划分法(K-means)、简单贝叶斯聚类法、K-最近参照聚类法、分级聚类法、基于概念的文本聚类。其中最常使用的是K-最近邻参照聚类法;

4.自动文摘:常用抽取生成法;

5.质量评估:查全率、查准率、冗余度、放射性、双目失明测试等。

内容:针对文献计量学方法关注的文献量、作者、关键词,利用Excel、CiteSpace工具绘制年发文量图、作者合著网络、研究机构合作图谱、关键词共现网络、关键词时区图谱,分析文本挖掘研究现状;按照《软件工程 产品质量》的国家标准并结合分词工具的需求制定分词工具评估指标:分词准确性、分词效率、易操作性、可扩展性、可移植性,设计《中文分词软件工具测评表》,对7款常见中文分词工具在中医文献研究领域的适用性进行对比分析,结合各工具的特点和中医领域的特征,提出改进现用分词工具或研发领域专用工具的建议。

结果:分析中间过程得到的图表,发文量处于下降趋势,分析原因认为文本挖掘研究领域遇到技术难题,目前处于研究瓶颈期。中文分词工具的适用性分析发现7款工具中盘古分词工具最适用于中医领域,但是仍然存在一些不足。总结出现有分词软件工具普遍面向大众化中文分词处理需求,难以兼顾特定领域中文分词需要的结论,并结合中医领域特征和工具特点给出相应改进建议。

 

 


以上仅为该作品极少介绍,详细内容请点击购买完整版!

提示:此毕业设计论文完整版包含【开题报告,论文
作品编号:xxgl0204,word全文:26页,合计:15000

本信息管理与系统毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——文本挖掘若干关键技术的分析与应用(开题报告,论文)!