[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary, 00V ),同时避免摘要重复,提高文本摘要的质量,本文以解决00V问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence t...[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary, 00V ),同时避免摘要重复,提高文本摘要的质量,本文以解决00V问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence, seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attentionmechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE ( recall -oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。展开更多
传统基于序列的文本摘要生成模型未考虑词的上下文语义信息,导致生成的文本摘要准确性不高,也不符合人类的语言习惯。本文提出了一种基于文本语义结构的文本摘要生成模型(Structure Based Attention Sequence to Sequence Model,SBA),...传统基于序列的文本摘要生成模型未考虑词的上下文语义信息,导致生成的文本摘要准确性不高,也不符合人类的语言习惯。本文提出了一种基于文本语义结构的文本摘要生成模型(Structure Based Attention Sequence to Sequence Model,SBA),结合注意力机制的序列到序列生成模型,引入文本的句法结构信息,使得注意力结构得到的上下文向量同时包含文本语义信息与句法结构信息,获得生成的文本摘要。最后,基于Gigaword数据集的实验结果表明,提出的方法能有效地提高生成摘要的准确性以及可读性。展开更多
文摘[目的/意义]为更好地处理文本摘要任务中的未登录词(out of vocabulary, 00V ),同时避免摘要重复,提高文本摘要的质量,本文以解决00V问题和摘要自我重复问题为研究任务,进行抽象式中文文本摘要研究。[方法/过程]在序列到序列(sequence to sequence, seq2seq)模型的基础上增加指向生成机制和覆盖处理机制,通过指向生成将未登录词拷贝到摘要中以解决未登录词问题,通过覆盖处理避免注意力机制(attentionmechanism)反复关注同一位置,以解决重复问题。将本文方法应用到LCSTS中文摘要数据集上进行实验,检验模型效果。[结果/结论]实验结果显示,该模型生成摘要的ROUGE ( recall -oriented understudy for gisting evaluation)分数高于传统的seq2seq模型以及抽取式文本摘要模型,表明指向生成和覆盖机制能够有效解决未登录词问题和摘要重复问题,从而显著提升文本摘要质量。
文摘传统基于序列的文本摘要生成模型未考虑词的上下文语义信息,导致生成的文本摘要准确性不高,也不符合人类的语言习惯。本文提出了一种基于文本语义结构的文本摘要生成模型(Structure Based Attention Sequence to Sequence Model,SBA),结合注意力机制的序列到序列生成模型,引入文本的句法结构信息,使得注意力结构得到的上下文向量同时包含文本语义信息与句法结构信息,获得生成的文本摘要。最后,基于Gigaword数据集的实验结果表明,提出的方法能有效地提高生成摘要的准确性以及可读性。