文本信息过滤方法研究与应用
[关键词:文本信息,过滤方法] [热度 ]提示:此毕业设计论文完整版包含【论文】 作品编号:rjgc0248,word全文:40页,合计:16000字 |
本文先对文本表示方法,相似度计算等信息过滤技术进行综述。然后,从实际应用的角度出发,基于特征向量的信息过滤技术设计了一款系统—NetSniper,并给出其体系架构及工作机制。最后通过试验证明了所用的过滤技术的可行性和有效性。
......
本文的主要贡献
为了解决信息过滤的过滤精度和效率瓶颈等问题,本文对文本信息过滤的主要过程和系统设计方法等进行研究。文中基于Web页面分析技术、文本与主题特征向量德匹配算法进行信息过滤,不但符合信息选择的特点,而且在一定程度上提高了过滤的准确率;我们还以多Agent理论与技术为指导,进行信息过滤系统的设计,大大提高了系统的时间性能。
本文的组织结构
本文分几个部分介绍了多Agent的网络信息过滤系统的结构,设计,实现和实验结果。重点讲述了信息过滤系统的过滤算法部分。第一章为绪论,简述了本文研究的意义和贡献。第二章对文本的表示方法进行了论述。第三章介绍了特征相量的获取技术,第四章 对文本相似度的计算方法进行了阐述。第五章 通过在程序中实现验证本文所研究的信息过滤算法的效率和正确率。最后总结我们研究的内容再提出一些问题及在未来开发中的设想。
......
本文先从理论方面研究信息过滤技术的过滤效率和性能,再通过程序实现验证本文所研究的技术在实际应用中的可行性。结合同组同学的实验结果可以看出基于文本内容的相似度算法的过滤技术具有很高的准确率,分布式的过滤体系结构对过滤性能有很大的提高。因此本文所设计的系统和用到的算法有很大的提高,但是也有很多不足之处,首先本系统相似度计算中所用的对文本的解析和特征向量的获取技术还有待提高,其次单CPU的PC机上不能体现一个Daemon中多Agent在进行任务处理中对性能的提高,还有Agent对任务处理时的自主性的智能调度选择策略等都有待提高。
同时,由于初次接触文本过滤技术,过滤技术中的文本特征向量的获取和相似度的计算方法对过滤的正确性起着关键的作用,本文理论研究中的一些文本分析所要求的步骤比如:词干的提取,同义词的合并算法等在实际的编程实现中有一定的困难,就算勉强实现也对文本的分析速度有很大的影响,因此要在过滤正确性和速度上找到一个平衡点,或者有待后续研究人提出更好的过滤技术来。
提示:此毕业设计论文完整版包含【论文】 作品编号:rjgc0248,word全文:40页,合计:16000字 |
本软件工程毕业设计论文作品由 毕业论文设计参考 [http://www.qflunwen.com] 征集整理——文本信息过滤方法研究与应用(论文)!
-
没有关键字相关信息!