欢迎访问CN论文网,主要提供代写硕士论文服务,以及了解代写硕士论文多少钱。网站地图

硕博执笔写作,后期辅助答辩

与国内800多家优秀期刊社合作

论文写作发表咨询热线18930620780
您当前的位置:CN论文网 > 软件工程硕士论文软件工程硕士论文

基于RNN序列标注模型的电商关键词提取分析

发布时间:2019-05-20
  摘 要
  
  关键词提取问题在自然语言处理中是一个十分重要的课题。而关键词提取技术可以帮助人们从海量的信息中快速找到重点,在网络信息爆炸的今天,有着非常重要的作用。面向电商领域的关键词提取技术的研究,目的是提取出商品标题中的关键词,相对于普通的关键词提取问题,其特点也是难点之一在于电商标题中的关键词往往是由多个词组成的复合词(例如“电视遥控器”)。
  
  作为面向电商领域关键词提取技术研究的关键一步,本文首先建立了相当规模的电商领域相关的语料库。然后依赖于我们所建立的语料库,实现了中文关键词提取相关的 Textrank 算法与基于 LSTM 分类模型的关键词提取方法。后者能使机器自动学习到关键词的特征,从而使我们避免了繁琐的特征工程。此外,利用 LSTM 构建神经网络层次,能更好的利用词语的语义信息。实验证明,基于 LSTM 分类模型的关键词提取方法的效果对于电商领域的关键词提取工作有较好的效果。

基于RNN序列标注模型的电商关键词提取分析
  
  本文还重点研究了基于 RNN 序列标注模型的关键词提取算法。该算法将商品标题经过分词后的得到的词序列输入到模型中,最后输出每个词成为关键词的概率。考虑到 LSTM 相对 RNN 的优越性,以及双向 LSTM 可以更好利用上下文信息的能力,我们对模型进行改进,实现了基于 BiLSTM 序列标注模型的关键词提取方法。实验证明,改进后的模型在关键词提取工作中取得了更好的效果。但标题中的关键词候选词往往是由多个词组成的,所以需要经过额外的后处理模块才能最终得到标题中关键词候选词的得分,然后排序得到关键词。因此我们构建了大粒度分词词典,采用大粒度分词策略进行实验,以此来去掉僵硬的后处理模块。实验证明,采用大粒度分词策略有助于提高关键词提取的效果。
  
  最后,我们尝试对 BiLSTM 序列标注模型做进一步改进,引入了 attention机制,结合了通过 LSTM 得到的固定长度的句子向量和句子表示与句子中各个词的表示之间的 attention 信息。实验证明,加入 attention 机制的新模型实现的关键词提取算法的有效性。
  
  关键词:   电商;关键词提取;序列标注;循环神经网络;双向长短期记忆网络。
  
  Abstract
  
  The keyword extraction is one of the most important topics in the natural language process field. The keyword extraction can help people find the key from the massive information, and it play a very important role in the explosion of network information today. The research of keyword extraction for the e-commerce domain aims to extract the keywords from the product title. Compared with other researches of keyword extraction problem, one of the difficulties is that the keyword in the e-commerce title is often A compound of words (for example, "television remote control").
  
  As a important step in the research of key word extraction technology for e-commerce, this paper first established a large-scale corpus related to e-commerce.Then relying on the corpus, we implemented the Textrank algorithm related to Chinese keyword extraction and the keyword extraction based on LSTM classification model. The latter allows the machine to automatically learn the characteristics of keywords and integrate feature learning into the model building process, avoiding feature engineering. In addition, using LSTM to build a neural network hierarchy can make better use of the semantic information of words.
  
  Experiments have proved that the effect of the keyword extraction method based on LSTM classification model has a good effect on keyword extraction in the field of e-commerce.This article also focuses on the keyword extraction algorithm based on RNN sequence annotation model. The algorithm inputs the word sequence obtained by segmenting the product title into the model, and finally outputs the probability that each word becomes a keyword. Considering the superiority of LSTM over RNN and the ability of bidirectional LSTM to make better use of context information, we improved the model and implemented a keyword extraction method based on the BiLSTM sequence annotation model. Experiments show that the improved model has achieved better results in keyword extraction. However, the keyword candidates in the title often consist of multiple words. Therefore, an extra post-processing module is required to obtain the keyword candidate word's score in the title, and then sort the key words. So we built a large-grained word segmentation dictionary and experimented with a large-grained word segmentation strategy in order to remove the rigid post-processing module. Experiments show that using a large-grained word segmentation strategy helps to improve the effectiveness of keyword extraction.
  
  Finally, we try to further improve the BiLSTM sequence annotation model and introduce the attention mechanism, which combines the fixed-length sentence vectors obtained through the LSTM and the attention information between the sentence representation and the representation of each word in the sentence. Experiments have proved that the keyword extraction algorithm implemented by the new model with the attention mechanism is effective.
  
  Keywords:   E-commerce; keyword extraction; sequence annotation;Recurrent neural Network;Bi-directional Long Short-Term Memory。
  
  第1章 绪 论
 
  
  1.1 课题背景及研究目的和意义。
  
  1.1.1 课题背景。

  
  随着世界经济的快速发展以及信息时代的到来,互联网得以进一步的普及。
  
  在此基础上,市场上出现了一种新的商业模式,即电子商务。电子商务是一种通过信息网络技术手段来实现商品交换的商务活动,它将传统商业活动的每一个环节都信息化和网络化,然后通过互联网进行电子交易。众所周知的淘宝、京东等都属于电子商务。随着科技的发展,淘宝、京东等在技术上越加的完善和便捷,网购也成为了人们日常生活中不可或缺的一部分。而电子商务本身也随着交易量的迅速增长和运营模式的不断创新呈现出多层次、多元化的发展趋势,但同时也面临着更加激烈的竞争。对电商而言,如何更好的了解消费者的需求和更方便 快捷的为消费者服务消费者提供服务无疑是自身发展的重中之重。这其中,由于业务的扩大和越来越多的商家入驻,越来越多的商品也令人眼花缭乱。面对如此繁多的信息,提取出各种商品 title 中的关键词不仅可以帮助电商对商品进行更好的分类,让消费者能更方便快捷的找到需要的商品,还可以根据用户的的搜索记录等研究用户的喜好、需求,构建用户画像,以帮助电商实现更精准的营销和为用户提供个性化的服务等功能。
  
  面向电商领域的关键词提取技术这一课题来自于腾讯 SPA 与 TEG AI 联合挖掘项目中的“电商标题关键词抽取”子项目,主要是为了抽取电商领域商品标题中的关键词。项目给定“女童毛衣套头圆领 2017 秋冬新款儿童针织打底衫纯棉宝宝大童装外套”这样的电商标题,以及从相应的电商标题中抽取出来的候选词,如“女童毛衣”、“针织打底衫”、“童装外套”等,通过关键词提取技术从候选词中抽取出关键词。
  
  1.1.2 课题研究的目的和意义。
  
  随着信息时代的发展,信息的表达方式也变得更加多样化,但是利用文本来表达信息依然是最重要的方式之一。随着计算机与互联网的高速发展,人们的生活变得更加方便,我们只需要点开网络就能了解时事、与亲朋好友交流、进行购物,同时也伴随着网络信息的极速增长。于是,如何从如此海量的数据中快速有效的获取到关键信息成为了自然语言领域一个非常重要的课题。
  
  为了能够有效地处理海量的文本数据,研究人员已经在许多方向上进行了大量的研究,包括文本分类、文本聚类、自动文摘和信息检索等。而在这些研究中都遇到了一个关键性的问题,那就是如何获取文本中的关键性内容,即关键词。目前,关键词的提取技术在新闻服务、查询服务等许多领域都得到了广泛的应用。此外关键词提取技术在检索信息、自动生成摘要和对文本进行分类等实际工作中都起到了关键性的作用。举个例子:通过利用关键词提取技术找到新闻或博客中的关键词,可以使读者快速有效的了解文章的关键内容,以决定是否进一步阅读,大大节省了读者的时间。比如国内新浪、网易等各大网站中都给对新闻进行了关键词提取工作,而 CSDN 这样的技术论坛还为所有博客与随笔都做了关键词的提取工作。但是,处理海量的信息也是关键词提取技术研究中的一项重大挑战。
  
  关键词可以精准的阐述文本的主题信息,对文本的主要内容进行高度有效的概括,从而快速向用户传递文本的主旨。关键词帮助用户快速筛选出自己所需要的文本,大大提高了用户访问信息和检索信息的效率。除此之外,关键词相对于整段文本而言更加的简洁,这就使得我们在计算文本相关性的计算时,可以利用关键词来降低计算的复杂度,从而更加容易的完成文本的分类和聚类、信息检索等任务。
  
  同样,电商领域的快速发展已经成为一种必然趋势,自然而然的,这种依赖于互联网的商业模式也存在着信息膨胀的问题。相比于其他领域,电商领域需要对信息进行更好的管理,比如对商品的分类管理和筛选、向用户进行广告推荐、分析商品的市场需求等都需要能高效地获取信息。而关键词提取技术就是其中的重要一环。在电商领域中,每一个商品都有其对应的标题,这为我们高效获取电商领域的信息提供了方向和基础。我们只要能利用关键词提取技术提取出商品标题中的关键词,就可以更简洁高效的标记和管理这些商品。
  
  综上所述,关键词能帮助人们快捷高效地管理信息资源,而关键词提取技术则是信息时代人们利用网络上海量信息的重要依赖。面向电商领域的关键词提取技术的研究无论是对电商还是对消费者都是极其重要的,具有很高的理论价值和实用价值。
  
  【由于本篇文章为硕士论文,如需全文请点击底部下载全文链接】
  
  1.2 国内外研究现状.
  1.2.1 国外研究现状
  1.2.2 国内研究现状
  1.2.3 国内外研究现状简析
  1.3 本文研究内容及章节安排.
  1.3.1 本文研究内容
  1.3.2 本文章节安排
  
  第 2 章 语料库的构建
  
  2.1 电商领域相关语料的收集.
  2.2 标注规则.
  2.3 本章小结.
  
  第 3 章 两种通用的中文关键词提取方法.
  
  3.1 Textrank 算法
  3.2 基于 LSTM 分类模型的关键词提取方法
  3.2.1 RNN
  3.2.2 LSTM
  3.2.3 利用 LSTM 分类模型提取关键词.
  3.3 实验结果与分析.
  3.3.1 实验方法与数据
  3.3.2 实验评价指标
  3.3.3 实验结果及分析
  3.4 本章小结.
  
  第 4 章 基于 RNN 序列标注模型的关键词提取方法 .
  
  4.1 Word2vec .
  4.2 基于 RNN 序列标注模型的关键词提取技术
  4.3 基于 BILSTM 序列标注模型的关键词提取算法.
  4.4 利用大粒度分词词典进行关键词提取.
  4.5 加入 attention 机制后的 BILSTM 序列标注模型.
  4.6 实验结果与分析.
  4.6.1 实验设置 .
  4.6.2 实验结果与分析
  4.7 本章小结.

  结 论

  面向电商领域的关键词提取技术研究如何从商品标题中准确的找到最能代表商品标题的关键词或关键词短语,从而可以帮助电商实现更精准的营销或者为消费者制定个性化服务和推荐。本文介绍并实现了 Textrank 算法和基于 LSTM 分类模型的关键词提取算法。然后主要探索了基于 RNN 序列标注模型的关键词提取算法,在此基础上进行了研究和改进,实现了基于 BiLSTM 序列标注模型的关键词提取算法,进一步分析后又引入了 attention 机制得到了关键词抽取的新模型。

  对于本文实现的 Textrank 算法和基于 LSTM 分类模型的关键词提取算法,前者是一种经典的基于图模型排序的算法,后者通过 LSTM 构建分类器将关键词提取问题转化为二分类的问题,避免了人工选取特征的过程,提高了关键词提取的效率。这两种方法都是比较通用的关键词提取方法。

  我们在对基于 RNN 序列标注模型的关键词提取算法的研究过程中,首先由于 LSTM 相对 RNN 能记住更长久的历史信息,并且能够有效解决 RNN 梯度消失问题,我们提出用 LSTM 来替换 RNN 序列标注模型中的 RNN。为了更好的利用词语的上下文信息,我们使用了双向 LSTM 来构建序列标注模型提取关键词。之后我们分析 bad case,针对发现的问题提出了许多改进策略,最终实现了两个改进策略,一是利用大粒度分词来对标题语料进行分词,这样可以避免之前的关键词提取算法中僵硬的后处理模块,使候选词的得分更加准确。另一个就是在模型中引入 attention 机制,结合了通过 LSTM 得到的固定长度的句子向量和句子表示与句子中各个词的表示之间的 attention 信息,使得新模型可以更准确的找到商品标题中的核心词并给他们赋予相对其他词更高的分数。

  在面向电商领域的关键词提取任务中,仍有许多困难需要在未来的研究中解决。例如,电商领域关键词是复合词的问题,网上爬取标注语料一方面质量不高,另一方面难以标注,而仅合作团队所提供的标注预料又不够多。目前我们已经实现的基于 BiLSTM+attention 序列标注模型的关键词提取算法效果较好,但如何应用到后续 SPA 与 TEG AI 联合挖掘项目中以及效果如何还需要进一步的研究。

  参考文献

点击下载全文