欢迎访问CN论文网,主要提供代写硕士论文服务,以及了解代写硕士论文多少钱。网站地图

硕博执笔写作,后期辅助答辩

与国内800多家优秀期刊社合作

论文写作发表咨询热线18930620780
您当前的位置:CN论文网 > 软件工程硕士论文软件工程硕士论文

领域信息文献检索系统开发研究

发布时间:2019-06-04
  摘 要
  
  随着互联网信息检索技术的发展,人们迫切的希望从海量半结构和无结构化的数据中获取与自身需要和兴趣吻合度高的内容,如何对这些文本进行有效的分类,进而发现有价值的信息是各领域研究人员不断探索的话题。本课题通过对近年来各种检索方法进行相关研究,并总结其优缺点提出了使用多种特征值共同计算的领域知识库构建方法,使用深度语义词向量构建文本的方式来判别文本相似度。具体研究内容:本文对基于语义训练模型,特征提取算法,词袋模型的信息检索方式进行了研究,选取了最优的检索方法与模型。通过对数据的选取,模型参数的优化以及多次训练得到高质量的词语义表示模型;使用多特征提取算法计算出文本的多种特征属性值,并以此为基础实现了领域知识库的创建;对文本相似度的相关算法进行研究并实现,系统使用连续词袋模型计算文本的相似度用于文献检索,以此为基础构建了基于领域的文献检索系统并用于实践。通过实验数据对比得出:从语义出发的文本分析反映的文本信息更加全面,结合多特征提取的算法能很大程度改善系统的检索结果。
  
  系统根据现有研究成果及文本研究领域人员对文本的使用需求,设计了领域信息工作者可以管理与查询数据资料的文献检索系统,可为不同的用户创建相互独立的数据资料库。系统对资料库之间进行了有效的隔离,使用权限管理系统功能,对领域知识库的管理更新与检索提供了支持。系统利用开源的 SSM 框架技术进行开发,用户可以管理个人资料库,做到资料库的实时更新。同时,系统提供上传、下载、查看、多特征提取、文献检索等功能。

领域信息文献检索系统开发研究
  
  系统的创新之处在于使用多种特征共同计算代替单特征计算的方式,使文本表示更加全面、准确,一定程度解决了文本在计算过程中因信息不完整或文本过于复杂造成的计算不准确问题;使用深度语义模型训练文本语义,基本消除了语言文字歧义及语序变化导致的错误判断结果;在文本相似度研究阶段改变了文本的传统表示方式,从语义出发改变文本的计算方式,一定程度上提高了文本相似度计算的准确性与高效性。
  
  关键词:  文献检索;多特征值计算;领域知识库;词语义转换;文本相似度判别。
  
  Abstract
  
  With the development of information retrieval technology on the Internet, people are eager to obtain content that is highly meeting with their own needs and interests from massive semi-structured and unstructured data. How to classify these texts effectively and find valuable information is a topic that researchers in various fields are constantly exploring. In this paper, through the research of various retrieval methods in recent years, the advantages and disadvantages are summarized. We transmit a fresh method to construct domain knowledge base by utilizing multiple eigenvalues to compute together, and use deep semantic word vectors to construct text to measure text similarity. Specific research content: This paper Studies of a training model based on semantics, feature extraction algorithm and word bag model, and chooses the best retrieval method and model. By selecting data, optimizing model parameters and training many times, a high-quality semantic representation model of words is obtained, and multi-feature extraction algorithm is used to calculate multiple feature attributes of text, and on this basis, the establishment of domain knowledge base is realized. The related algorithms of text similarity are studied and implemented. The system uses continuous word bag model to calculate text similarity for retrieval. Based on this point, a domain-based document retrieval system is constructed and further used in practice. By comparing the experimental data, Text analysis based on semantics reflects more comprehensive text information, and the retrieval results of the system can be greatly improved by combining multi-feature extraction algorithm.
  
  According to the existing research results and the needs of text field researchers, a document retrieval system that domain information workers can manage and query data isdesigned, which can create independent data databases for different users. The system effectively isolates the databases, uses the functions of privilege management system, andprovides support for the management update and retrieval of domain knowledge base. This system is developed with open source SSM framework technology. Users can manage personal databases and update them in real time. The system provides uploading,downloading, viewing, multi-feature extraction, document retrieval and other functions at present.
  
  The innovation of the system lies in the use of multi-feature calculation instead of single-feature calculation, which makes the text representation more comprehensive and accurate, this kind of method solves the problem of inaccurate calculation caused by incomplete information or too complex text in the process of text calculation to a certainextent. By using deep semantic training model, the erroneous judgment results caused by language ambiguity and word order changes are basically eliminated. In the stage of textsimilarity research, the traditional way of text representation is changed, and the way of text computation is changed from the perspective of semantics, which improves the accuracy and efficiency of text similarity calculation to a certain extent.
  
  Key Words: Document retrieval; Multi-eigenvalue computation; Domain knowledge base; Word meaning transformation; Text Similarity Discrimination。
  
  第一章 绪 论
  
  1.1 背景、目的和意义。

  
  随着文献检索技术的快速发展及程指数增长的文本数据信息,对人们从大量无结构和半结构化数据中快速查找自己需要的数据提出了新的挑战。词语相似度计算在信息检索,敏感词检测、文献查重、自动问答等领域有广泛的应用,词汇相似度的计算方式主要有两种[1]:一种为基于世界知识体系方法,它使用构建规范化的数据库作为计算的依据,这种方法根据文本的处理方式的不同又分为本体和网络知识的方法。基于网络知识中词汇之间通过超链接展现上下位关系[2],而基于本体通过构造的词语语义概念网,计算词语概念间直接或间接的关系得到相似度。另一种为基于语料统计的方法,这类方法利用已有语料库,通过对该语料库中文本进行统计计算,包括文本中词语的词频信息及上下文中的关系训练[3]。
  
  在文本处理过程中,可被计算机识别的文本信息是非常少的,比如数字,英文数据等一些字符类数据,所以在文本检索之前需要将这些中文数据进行规范化的表示[4]。在自然语言处理领域(NLP)中,用向量表示词语是一种非常常见的建模方法,向量的每个参数代表词语的各项特征,通过这种方式得到文本单词的结构化表示,经常使用的词向量表示方法可分为两种[5]:独热表示法和分布式表示法。独热表示法是对词语进行独自表示或称局部表示,且词语之间没有任何联系,他像事物的名称一样仅是一种表示形式。向量中的每一位表示一个比特位,每一个比特位用 0 或 1 表示,在词典中如果有五千个词,取其中一个词语,那么该词语对应的位置的数值为 1,其余的位置的数值全部取 0。这种计算方法意味着向量的维度为词典的大小,进行相似度相关计算时导致计算趋于复杂,极易陷入‘维数灾难’,且不带有任何语义信息[6]。另一种就是本文使用的分布式表示方法,分布式方法同样是将词语看做向量,不过向量是低维的,各个维度可以取连续值,使用的目的是希望用更少的维度来更完整的表示词语信息。通过这种方法表示词语,使词汇在向量空间上建立一定的语义关系,即在词向量空间中相似的词语在距离上会比较近[7],解决了基础问题提高检索的效率。
  
  文本特征提取是文本聚类,文本分类,文本检索等任务中非常重要的环节[8],我们知道在文档处理中直接对整篇文本进行计算是非常复杂的而且比较难于实现,而文本中词语作为构成文本的最小单元,可以通过对词语的操作进而转化为文本层面的操作,如果在不考虑词语在文本中出现的顺序,可以把一篇文本分解为一系列词语的集合[9],这些词在表达文本主题有着或大或小的作用,比如还有一些象声词,助词等为文本的无用信息在文本预处理的前期可以通过特定的方法将其彻底清除,预处理后的词语作为文本表示的初始单元,而如何将这些词语再进一步的处理而更有效的简化文本内容是构建本文领域知识库提升文本检索质量的关键问题。作为表示文本比较标准的特征词语应该具备以下几个条件[10]:该词汇在文本出现且出现次数比较高;该词语在本文中出现的次数较多,而在其他文本中出现的次数较少;文本中的特征项必须是字,词或者是短语等最小构成单元且不可再分。现在比较主流的特征提取的方法包括词频,逆文档频率,段落信息熵,文本信息熵,期望值交熵等多种方法,其中最广泛的空间向量 TF-IDF 特征的表示方法已经成功的应用于各类文本检索与相似度计算系统[11]。
  
  文本相似度作为文本研究领域最关键的技术,广泛的应用于文本分类,信息检索,文献查重以及各大搜索引擎任务中[12],从广义上讲,文本相似度包括非语义相似度计算和语义相似度计算。由于网络信息迅速增长及一些新词,新句式的出现,近年许多文本领域的研究者逐渐从非语义计算转到语义计算的研究中,其中后者拥有更高的实现价值,非语义的相似度计算方法更多的是基于词频和词共现的方式,这种方法建立在分布假说的基础上,对词语本身没有更好的定义,导致对两篇相似文本没有更好的区分[13]。这些方法包括基于字符串和词袋方法,近年许多学者投身其中,应对非语义计算方法的缺点进行不同程度的改进,比如郭庆林等提高特征选择改进信息过滤不足问题,但出于非语义方法基本原理简单的缺点,不符合我们对文本理解的方式[14]。语义文本的相似度则建立在词语相似度计算的基础上,词语相似度计算结果的优劣直接影响着文本计算结果,现阶段文本语义的计算方式主要有基于神经网络方法,搜索引擎的方法和知网使用的文本检索及查重系统的方法,其中归一化文本距离计算具有较大的应用前景和研究价值。因现在中英文语法结构复杂等特点,要求语义相似度计算过程中能够有效地消除这些形似意歧的词语,综合汉语言句式语法特点,需要充分考虑到词语在文本上下文的对应关系,对我们语义训练过程中提出更高的要求[15]。
  
  综上对文本特征提取,文本相似度,现阶段文本检索方法相关背景的论述,提出在本文文本检索系统中使用何种特征提取和相似度计算方法用于文献的检索功能中,而如何将文本的语义信息和多特征构建知识库的方法应用到文本的检索过程当中是本文研究的重点。本课题的研究意义体现在以下几个方面:
  
  (1) 为了使文本在处理过程中能够捕捉到更多的上下文信息,本文使用预训练的语义词向量表示文本,解决以往文本语义信息不足的问题;使用多特征提取算法建立领域资料库,能够从不同角度衡量词语表征文本的重要性,有效的对文本的领域和不同领域间的文本进行区分,这种构造方式使用最少的信息来表达文本主题,减少了文本在检索过程中对数据的查找,优化计算过程。
  
  (2) 在系统设计方面,为领域工作者提供了准确查询检索自己所需文献的这样一个平台,系统资料库和个人资料库将对所有的用户进行开放使用,将多特征值加入到领域资料库的更新与维护功能中,使用深度学习网络对文本进行计算检索,一定程度上提高了查询的效率与检索的准确率。本系统拥有多个领域的文献知识库,并且细化每一个领域,增大文本的查找检索精度,减少了领域工作者在查阅过程所消耗的精力,且用户可以建立自己的知识库,对文献进行相关管理操作,系统提供文本分类管理,优化系统功能。
  
  (3) 提升文本检索精度,对于好的文本检索系统应该可以准确快速提供给用户所需要的所有数据,而现有的文献检索系统大多以文献名匹配的检索方式并且没有提供比较系统的数据资料,导致效率偏低,检索精度欠佳。本文通过对模型优化参数,设计方法与工具的有效使用,在一定程度上提升了检索的精度和文本使用效率。
  
  1.2 国内外研究现状。
  

  本文通过多特征提取的方法构建文本的检索查询知识库,通过深度学习网络加入到文本的相似度计算模型之中,下面简要的分析阐述近代检索技术和深度学习文本相似度计算方法在国内外的发展现状。
  
  从上世纪六十年代,从计算机能识别并处理人们平常所看到的文本数据开始,文本的处理与使用就进入了电子时代,与此同时处理文本数据的方法和检索技术相继被提出,并进入发展期[16]。20 世纪 60 年代末,美国大学的一位学者首次提出文本的向量表示方法,即我们现在还在研究使用的空间向量模型(VSM),它通过特定的特征提取方法将文本转化成词语的集合,计算词语的词频-逆文档频率构成文本的向量表示加入到余弦相似度计算之中[17],并将这种方法应用于文本检索系统之中,成为当代信息检索的典范,由于这种方法计算比较简单,文本处理具有较高的准确性和召回率,所以成为至今一直在使用的文本计算方法。然而这种信息检索的方式也具有一定的局限性,包括对信息量的检索和用户的使用推广限制,因此基于网页的检索方式应运而生。随着 WEB2.0,WEB3.0 时代的到来,网页成为数据量最大种类最齐全的数据库,与此同时基于 Web 的信息检索方法不断被提出[18],从而保证了用户对知识的有效提取与使用:1990 年加拿大麦吉尔大学的三名学生提出了 Archie,就是我们现在使用的基于 Ftp 搜索文档资源的方式,以此被称作搜索引擎技术的始祖[19],1999 年西班牙学者首次提出将空间向量的计算的方式用于搜索引擎任务中,并在搜索任务中表现出不错的效果,随后雅虎,搜狐,谷歌,百度的相继出现促进了搜索引擎技术的发展。目前信息检索的方式无论是基于自定义语料还是网页数据,大多是基于字符串、主题匹配的方式,较少使用文本的语义信息,自 Cilibrasi 提出归一化谷歌距离[20]之后,基于文本信息语义检索的搜索引擎的计算方式开始流行起来,基本原理是通过关键词在某些网页出现次数及网页数,使用距离计算公式计算出关键词与网页之间的关系得出检索结果,之后刘胜久等将权重计算的方式加入到距离计算方法中,通过将多次搜索结果的比重进行分析,使得结果更加准确[21]。
  
  其中,基于神经网络语义计算和跨领域文本检索的方式将成为该领域研究的趋势,具有一定的理论价值和实现意义[22]。神经网络在现阶段文本信息处理中有着广泛的应用背景,较多的用于信息检索,图像识别,信息推荐技术中,最常用的模型有前馈神经网络,卷积神经网络,循环神经网络,递归神经网络等。19世纪 50 年代,感知机的出现代表神经网络第一次来到人们的视野,同时人工智能技术蓬勃发展[23]。19 世纪 60 年代末,专家认为神经网络难以解决简单的数字逻辑问题,被遭到严重的质疑,从此神经网络开始没落[24],直到 2006 年,美国学者 Hinton 首次发现文本信息可以使用神经网络处理,首次提出基于神经网络词语向量的语义表示方式,再一次将神经网络重新带回到人们的视野中,此后有很多的领域研究者对词向量进行研究并取得一定的成果[25]。
  
  【由于本篇文章为硕士论文,如需全文请点击底部下载全文链接】
 
  
  1.3 论文的主要工作、创新点和研究意义

  1.3.1 本文的主要工作
  1.3.2 本文的主要创新点
  1.3.3 论文的研究意义
  
  1.4 论文的组织结构
  
  第二章 多特征领域主题词表的研究与实现
  
  2.1 文本多特征提取的基本思想
  
  2.2 多特征提取算法

  2.2.1 TF 特征(Term Frequency)
  2.2.2 TF-IDF 特征(Term Frequency & Inverse Document Frequency)
  2.2.3 词频分布熵(Term Distribution Entropy)
  2.2.4 文本分布熵(Document Distribution Entropy)
  2.2.5 多特征值计算(Multi-Feature)
  
  2.3 多特征主题词表设计实现
  2.3.1 多特征主题词表构建流程
  2.3.2 多特征值表的实现
  
  2.4 多特征领域词表构建
  
  第三章 深度语义模型的研究与实现
  
  3.1 深度语义模型的基本概念
  
  3.2 模型构建的相关技术

  3.2.1 模型概述
  3.2.2 模型实现方法
  3.2.3 实验结果分析
  
  3.3 文本相似度判别的方法
  
  3.4 相似度实验结果分析
  
  第四章 系统需求分析
  

  4.1 系统性能分析
  4.2 系统目标分析
  4.3 系统功能需求分析
  4.3.1 用户管理模块
  4.3.2 领域文档管理模块
  4.3.3 文本相似度判别模块
  4.3.4 领域词库管理模块
  4.3.5 领域词向量管理
  
  第五章 系统总体设计
  
  5.1 系统架构设计
  
  5.2 系统功能结构设计
  
  5.3 数据库设计概述

  5.3.1 数据库概念设计
  5.3.2 数据库表逻辑结构
  
  5.4 系统主要功能模块流程设计
  5.4.1 多特征值计算模块
  5.4.2 系统资料库与个人资料库构建模块
  5.4.3 文本检索模块
  5.4.4 文本领域分类管理模块
  
  第六章 系统功能实现
  
  6.1 用户管理

  6.1.1 用户登录管理
  6.1.2 用户信息管理
  
  6.2 用户资料管理
  6.2.1 查询系统资料库
  6.2.2 查看个人资料
  6.2.3 上传个人资料库
  6.2.4 多特征提取
  6.2.5 用户资料下载
  
  6.3 系统资料管理
  6.3.1 系统单文本上传
  6.3.2 系统的多文本上传
  6.3.3 查看用户和系统资料库
  6.3.4 领域分类管理
  6.3.5 分词词库更新
  
  6.4 文本检索
  6.4.1 余弦语义相似度计算
  6.4.2 关键词检索
  6.4.3 文本内容检索
  
  6.5 系统性能测试与分析
  6.5.1 系统开发与运行环境
  6.5.2 系统压力测试分析
  6.5.3 检索结果分析

  第七章 总结

  随着 Web 时代和互联网信息技术的快速发展,数据量也在不断地上升,与此同时对人们如何快速的得到和使用这些数据提出了新的挑战。自计算机能够处理这些文本信息开始,各界学者投身其中,使用自己所学并以论文或技术成果等形式带到人们的视野里,为文本挖掘事业不断带来一丝丝曙光,但是对于这些动态的无规律的数据没有最好的方法进行处理,需要领域工作者不断研究促进其发展。本文研究心得如下:

  (1) 通过对近年文本挖掘领域相关文献进行研究,提出文本的规范化表示,分别从文本的特征提取和语义表达两个方面展开研究,对算法进行研究并实现,并取得了不错的实验结果。

  (2) 文本的语义相似度虽然可以比较准确的得出文本的相似程度,但是对于一些新句式的出现,恐怕很难真正达到人类理解文本的所有方式,属于固化思维。

  (3) 在现有的文本检索系统功能的研究基础上(如何减少计算复杂度提高系统计算准确度以及让用户操作方便角度优化系统功能)提出文献检索系统的主要功能设计,并将前期研究成果融合到系统中实现该系统的编写,基本上为领域内的文本研究人员提供了对文本使用的所有需求。

  参考文献

点击下载全文