-
题名从广义话题结构考察汉语篇章话题认知复杂度
被引量:10
- 1
-
-
作者
卢达威
宋柔
尚英
-
机构
北京语言大学语言信息处理研究所
北京语言大学预科教育学院
-
出处
《中文信息学报》
CSCD
北大核心
2014年第5期112-124,共13页
-
基金
国家自然科学基金(61171129)
-
文摘
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。
-
关键词
广义话题结构
认知机
认知复杂度
标点句
话题自足句
汉语篇章
-
Keywords
generalized topic structure
cognition
cognitive complexity
punctuation clause
topic sufficient sen- tence
chinese text
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名广义话题结构理论视角下话题自足句成句性研究
被引量:4
- 2
-
-
作者
尚英
宋柔
卢达威
-
机构
北京语言大学预科教育学院
北京语言大学语言信息处理研究所
-
出处
《中文信息学报》
CSCD
北大核心
2014年第6期107-113,136,共8页
-
基金
国家自然科学基金(61171129)
北京语言大学校级科研项目(中央高校基本科研业务专项资金资助)(13YBG30)
-
文摘
话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行了分析、分类,并提出了使其成句的办法。这将进一步完善广义话题结构理论,并能提高使用话题自足句的应用系统的性能。
-
关键词
广义话题结构
话题自足句
成句性
-
Keywords
generalized topic structure,topic sufficient sentence, sentence-formability
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语篇章广义话题结构的认知计算模型研究
被引量:2
- 3
-
-
作者
卢达威
宋柔
尚英
-
机构
北京大学中国语言文学系
北京语言大学信息科学学院
北京语言大学汉语学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2018年第7期1264-1274,共11页
-
基金
教育部人文社会科学研究青年项目(16YJC740050)
中国博士后科学基金(2016M600838)
-
文摘
广义话题结构是汉语篇章中客观存在的结构形式。依据有限状态机的思想设计了识别广义话题结构的计算模型,在较大规模语料中初步检验了它的有效性,分析了该模型的空间复杂度和时间复杂度。该模型的特点是:递推控制,输出和输入以标点句为单位同步进行,无长距离回溯,有限回填,有限存储,保持词序。这些特点正是人在"话题—说明"信息的认知过程中所遵循的准则,因此该计算模型可以看作人完成这一认知过程的机械模型。
-
关键词
广义话题结构
认知
计算模型
标点句
话题自足句
-
Keywords
generalized topic structure
cognition
computational model
punctuation clause
topic sufficient sentence
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语篇章广义话题结构的流水模型
被引量:46
- 4
-
-
作者
宋柔
-
机构
北京语言大学语言信息处理研究所
-
出处
《中国语文》
CSSCI
北大核心
2013年第6期483-494,575,共12页
-
基金
国家自然科学基金(61171129)的资助
国家自然科学基金(69273042
+1 种基金
60872121)
北京市自然科学基金(4922003)的资助
-
文摘
本文面向语言工程的需求研究汉语篇章的话题结构。本文的工作以标点句为基本单位,提出广义话题结构的概念和表示方法,归纳出广义话题结构遵从的堆栈模型并拓展为流水模型,指出广义话题结构的两个重要性质:话题的不可穿越性和话题自足句的成句性。广义话题结构的分析对于说汉语者具有可操作性,流水模型对于汉语文本有高覆盖率,数十万字多种语体文本的广义话题结构标注已经初步完成。这些事实说明,广义话题结构确实是理论上和应用上有本质意义的汉语篇章结构单位。
-
关键词
标点句
广义话题结构
话题自足句
堆栈模型
流水模型
-
Keywords
Punctuation Clause
Generalized Topic Structure
Topic Sufficient Sentence
stack model
stream model
-
分类号
H15
[语言文字—汉语]
-
-
题名基于最大熵模型的汉语标点句缺失话题自动识别初探
被引量:4
- 5
-
-
作者
卢达威
宋柔
-
机构
北京大学中国语言文学系
北京语言大学语言信息处理研究所
-
出处
《计算机工程与科学》
CSCD
北大核心
2015年第12期2282-2293,共12页
-
基金
国家自然科学基金资助项目(61171129)
国家973计划资助项目(2014CB340502)
-
文摘
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。
-
关键词
广义话题结构
新支话题
自动识别
最大熵模型
-
Keywords
generalized topic structure
new branch topic
automatic recognition
maximum entropy model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名面向文本信息处理的汉语句子和小句
被引量:11
- 6
-
-
作者
宋柔
葛诗利
尚英
卢达威
-
机构
广东外语外贸大学外语研究与服务协同创新中心
北京语言大学信息科学学院
-
出处
《中文信息学报》
CSCD
北大核心
2017年第2期18-24,35,共8页
-
基金
国家自然科学基金(61171129
61672175)
2016年国家语委重点项目(ZDI135-30)
-
文摘
小句和句子分别是篇章信息处理的基本单位和复合单位。但是汉语中,这两个概念至今未有公认的适用于语言信息处理的界定,这种状况阻碍了汉语信息处理的发展。该文将汉语的句子大致界定为自足的广义话题结构,把小句界定为基于广义话题结构的话题自足句,并提出了这样界定的语言学依据和认知依据。
-
关键词
汉语篇章处理
句子
小句
广义话题结构
话题自足句
-
Keywords
chinese text processing
sentence
clause
generalized topic structure
topic sufficient clause
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向篇章机器翻译的英汉翻译单位和翻译模型研究
被引量:15
- 7
-
-
作者
宋柔
葛诗利
-
机构
广东外语外贸大学外语研究与语言服务协同创新中心
-
出处
《中文信息学报》
CSCD
北大核心
2015年第5期125-135,共11页
-
基金
国家自然科学基金(61171129)
-
文摘
篇章机器翻译的首要问题是确定翻译单位。基于汉语和英语的语言知识和英汉翻译的实践,该文提出面向篇章机器翻译的基本单位和复合单位的双层单位体系,讨论了这两种单位支持篇章翻译应满足的性质,并据此勾画了篇章机器翻译的拆分、翻译、装配三步模型(PTA模型)。该文提出,汉语篇章机器翻译的复合单位为广义话题结构对应的文本块,基本单位则是根据广义话题结构流水模型得到的话题自足句;英语篇章机器翻译的复合单位为句号句,基本单位为naming-telling小句(NT小句),即指称性成分加上对它的陈述或后修饰成分所构成的小句。该文展示了在这样的翻译单位体系下采用PTA模型的英汉翻译过程实例,规划了面向篇章翻译的英汉小句对齐语料库的建设任务,讨论了PTA模型的可行性。
-
关键词
翻译单位
翻译模型
广义话题结构
naming-telling小句
-
Keywords
translation unit
translation model
generalized topic structure
naming-telling clause
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-