题名 中文电子病历命名实体标注语料库构建
被引量:20
1
作者
曲春燕
关毅
杨锦锋
赵永杰
刘雅欣
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨医科大学附属第四医院
哈尔滨医科大学附属第二医院
出处
《高技术通讯》
CAS
CSCD
北大核心
2015年第2期143-150,共8页
基金
国家自然科学基金(60975077)资助项目
文摘
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。
关键词
中文电子病历(CEMR)
命名实体
标注语料库
标注 规范
标注 一致性(IAA)
Keywords
Chinese electronic medical record( CEMR), named entity, annotated corpus, annotation specifi-cation, inter-annotator agreement (IAA)
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 大规模现代汉语标注语料库的加工规范
被引量:31
2
作者
俞士汶
朱学锋
段慧明
机构
北京大学计算语言学研究所
出处
《中文信息学报》
CSCD
北大核心
2000年第6期58-64,共7页
基金
富士通公司及北京大学 985项目
文摘
北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上 ,又在实施另一项大型语言工程 ,即对大规模的现代汉语原始语料进行多级加工 ,目前的加工项目包括词语切分、词性标注 (包括动词和形容词的特殊用法 ) ,并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为 2 70 0万字。现在已经完成了 1 40 0万字的任务 ,而且质量很高。要建成高质量的标注语料库 ,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。
关键词
现代汉语标注语料库
词语切分
词性标注
加工
Keywords
contemporary Chinese tagged corpus
segmentation
part of speech tagging
the grammatical knowledge base of contemporary Chinese
processing guidline
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 词义标注语料库建设综述
被引量:17
3
作者
金澎
吴云芳
俞士汶
机构
北京大学计算语言学研究所
出处
《中文信息学报》
CSCD
北大核心
2008年第3期16-23,共8页
基金
国家973计划资助项目(2004CB318102)
国家自然科学基金资助项目(60703063)
国家863计划资助项目(2007AA01Z198)
文摘
词义消歧的关键问题是缺少大规模、高质量的词义标注语料库。本文分别从语料选取、词典选择、标注规模和标注质量等方面介绍已经建成的较有影响的若干词义标注语料库。在自动构建词义标注语料库的方法中,本文集中介绍bootstrapping策略在语料库建设方面的应用以及利用双语对齐语料库开展的相关研究。最后,针对词义标注语料库建设存在的问题提出自己的分析和思考。
关键词
计算机应用
中文信息处理
词义消歧
词义标注语料库
平行语料库
BOOTSTRAPPING
Keywords
computer application
Chinese information processing
word sense disambiguation
word sense annotated corpus
parallel corpus
bootstrapping
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 甲骨刻辞词性标注语料库系统设计与实现
被引量:2
4
作者
开金宇
刘永革
李欣
机构
安阳师范学院甲骨文信息处理重点实验室培育基地
出处
《殷都学刊》
2011年第2期32-34,共3页
基金
国家自然科学基金重点项目(6087508)资助
文摘
使用计算机辅助甲骨学研究,建设甲骨刻辞词性标注语料库是必不可少的一项基础性工程。现在还没有现成的甲骨刻辞词性标注语料库,因此,有必要设计和实现甲骨刻辞词性标注语料库系统。这个标注系统结合人工标注、机器标注和人工审核,循环作业,快速、高效地建设甲骨刻辞语料库。
关键词
甲骨刻辞词性标注语料库
机械分词
特征扫描
最大概率标注 法
分类号
K877.1
[历史地理—考古学及博物馆学]
题名 维吾尔语词义标注语料库管理系统的设计与实现
5
作者
杨勇
任鸽
机构
新疆师范大学计算机科学技术学院
出处
《电脑知识与技术》
2016年第1Z期13-14,共2页
基金
教育部人文社会科学研究青年基金项目(12XJJC740006)
文摘
随着信息技术的飞速发展,网络已成为世界上最大的信息库,也是信息获取和传播的重要途径。而一个理想的维吾尔语词义标注语料库至少应该具有数据量大、覆盖范围广、准确度高等特点。为了能够管理大规模的数据,并为用户分析和研究语言系统的规律提供了一个更方便、快捷的方式,本系统借助网络平台开发了一个管理维吾尔语词义标注语料库的管理系统,实现了维吾尔语词义标注语料库的智能化管理。为了使该系统的科学的分析与设计,采用UML进行建模分析与设计。
关键词
建模分析
维吾尔语词义标注语料库 管理系统
UML
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
题名 关于“人民日报标注语料库”公开的新闻资料
被引量:1
6
机构
北京大学计算语言学研究所
出处
《语言文字应用》
CSSCI
北大核心
2001年第4期42-42,共1页
关键词
“人民日报标注语料库 ”
新闻资料
语言工程
中文信息处理
分类号
G219.27
[文化科学—新闻学]
题名 基于词典的语料库词义标注研究
被引量:5
7
作者
肖航
杨丽姣
机构
教育部语言文字应用研究所
北京师范大学中文信息处理研究所
出处
《语言文字应用》
CSSCI
北大核心
2010年第2期135-141,共7页
文摘
本文从主要难点、可实现性等方面对基于词典的语料库词义标注进行了分析。词义标注的主要难点可归纳为两个,一是词典词义区分不清晰带来的标注不一致性,二是词典提供的词义不能覆盖语料库中词语的所有语言使用情况。这些困难导致语料库词义标注存在可实现与否的争论。本文通过华语文教材语料库词义标注实践指出,仅从词典词义划分来看,词义的准确区分具有操作上的明显困难;但若考虑词义在语料库中具体使用与分布,高准确率的词义标注是可以实现的。
关键词
词义标注
词义消歧
词义区分
语料库 标注
Keywords
word sense annotation
word sense disambiguation
sense distinction
corpus annotation
分类号
H03
[语言文字—语言学]
题名 大学英语语料库标注之探析
被引量:2
8
作者
薛学彦
机构
广州中医药大学人文社科学院
出处
《海南大学学报(人文社会科学版)》
CSSCI
2006年第2期281-284,共4页
文摘
从网络技术的角度,阐述了与大学英语语料库标注相关的文本预处理、标注工具、标注格式、标注格式转换、标注准确率、标注校对等问题。
关键词
语料库 标注
大学英语语料库
文本预处理
Keywords
annotation
Colen Corpus
text-preparation
分类号
H087
[语言文字—语言学]
题名 语料库中语料的标注
被引量:2
9
作者
董爱华
机构
北京印刷学院外语部
出处
《北京印刷学院学报》
2016年第5期67-70,共4页
文摘
在语料库应用过程中,ESP文本分析、学习者语言分析及双语翻译研究等都要用到标注。语料库语料标注的准确性是基于语料库的学术研究结果可靠性的前提。文章介绍了语料库标注的原则、方法模式,并分析了控制标注质量的相关因素,目的是为标注语料库的使用者检验标注质量提供帮助。
关键词
语料库 标注
原则
方法
模式
质量
Keywords
annotation of corpora
principle
method
pattern
quality
分类号
H0
[语言文字—语言学]
题名 “人民日报标注语料库”公开
10
出处
《世界汉语教学》
CSSCI
北大核心
2001年第3期88-88,共1页
关键词
“人民日报标注语料库 ”
标注 语
公开范围
人民日报
分类号
H1-37
[语言文字—汉语]
题名 从关系从句标注看CEM翻译语料库语料标注问题
11
作者
王晓农
机构
南开大学外国语学院
出处
《大学英语教学与研究》
2014年第3期28-34,共7页
文摘
语料库的语料标注准确性是基于语料库的学术研究结果可靠性的前提。本文以国内出版的英语专业学习者语料库(CEM)翻译部分的关系从句错误的标注为研究对象,结合实例分析,考察了该语料库语料标注的准确性问题。研究发现,CEM关系从句错误标注存在类型标注不准确和标注遗漏等问题,超过了可允许的误差,使其作为研究工具的可靠性大打折扣。基于本研究的结果,语料库研制者应该重视语料的标注准确性问题,不但要设计合理的标注规则,更要确保让规则在误差允许的范围内准确、一致地落实到语料中去,以保证语料库质量。
关键词
语料库 标注
准确性
CEM
关系从句错误标注
汉译英语料
Keywords
corpus tagging
accuracy
CEM
English relative clause error tagging
C-E translation data
分类号
H31
[语言文字—英语]
题名 利用人类计算技术的语音语料库标注方法及其实现
被引量:2
12
作者
沈映泉
刘勇进
蔡骏
史晓东
机构
厦门大学智能科学与技术系
Groupe Parole
出处
《智能系统学报》
2009年第3期270-277,共8页
基金
国家留学基金资助项目(2006104705)
福建省自然科学基金资助项目(2006J0043)
厦门大学"985工程"二期信息创新平台资助项目(0000-X07204)
文摘
提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注.
关键词
语音语料库 标注
人类计算
分布式知识获取
基于Web的语言学习
Keywords
speech corpora transcription
human-computation
distributed knowledge acquisition
Web-based language learning
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于句法标注语料库的汉英关系从句挂靠偏向研究
13
作者
郭文静
机构
北方民族大学
出处
《现代英语》
2023年第16期56-59,共4页
基金
北方民族大学研究生创新项目:“基于句法标注语料库的汉英关系从句挂靠偏向研究”(项目编号:YCX23063)研究成果。
文摘
以依存语法为理论基础,建立两个句法标注语料库,文章以平均依存距离(MDD)为计量指标,对比汉英关系从句的句子处理难度。研究发现:(1)汉语关系从句低挂靠比高挂靠时的平均依存距离小,二者句子处理难度存在显著性差异。(2)英语关系从句低挂靠比高挂靠时的平均依存距离小,二者句子处理难度存在显著性差异。(3)无论在低挂靠还是高挂靠时,汉语关系从句的句子处理难度都要比英语关系从句的处理难度复杂,二者存在显著性差异。此外,文章还基于依存理论探讨了以上差异产生的原因。
关键词
依存语法
句法标注语料库
关系从句
挂靠偏向
句子处理难度
Keywords
Dependency grammar
syntactically-annotated corpus
relative clause
attachment preference
processing difficulty
分类号
H030
[语言文字—语言学]
题名 《说文解字》语料库的XML标注设计
被引量:4
14
作者
胡佳佳
机构
北京航空航天大学虚拟现实技术与系统国家重点实验室
出处
《社会科学论坛》
2011年第7期214-223,共10页
文摘
《说文解字》含有关于先秦文献语言和文字的多方面的资料。深入的研究它,是研究汉民族语言文字学史的重要内容。现有电子版《说文》大多只是《说文》原文文本的电子化,应用价值有限。要想更好地应用计算机研究《说文》,就必须对其文本进行详细标注,而标注规范的合理性和可用性,决定了标注的价值。本文选择XML作为标记语言,在详细分析《说文》内容结构的基础上,设计了符合其特点的XML标注规范(Schema);并在对《说文》全文进行XML标注基础上开发了更加符合用户需求的全文检索工具。
关键词
《说文解字》
语料库 标注
XML
标注 规范
分类号
H161
[语言文字—汉语]
题名 一个面向信息抽取的中文跨文本指代语料库
被引量:3
15
作者
赵知纬
钱龙华
周国栋
机构
苏州大学自然语言处理实验室
苏州大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2015年第1期57-66,共10页
基金
国家自然科学基金(60873150
90920004)
+1 种基金
江苏省自然科学基金(BK2010219
11KJA520003)
文摘
跨文本指代(Cross Document Coreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE 2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用"多名困惑度"和"重名困惑度"两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。
关键词
跨文本指代
信息抽取
语料库 标注
困惑度
Keywords
cross document coreference
information extraction
corpora annotation
perplexity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 部编版小学语文教材语料库建设:目的和原则
被引量:3
16
作者
柏晓鹏
吉伶俐
机构
华东师范大学中文系语文教育研究中心
华东师范大学中文系
出处
《新疆教育学院学报》
2020年第1期11-17,共7页
基金
华东师范大学中文系语文教育研究中心2020年度研究项目“部编版小学教材韵律词的切分及其分布研究”(12901-412224-19095/006)阶段性成果之一。
文摘
语料库建设为语言教学带来了教学理念、教学方法和教学模式的变革。建立部编版小学语文教材语料库,对提高小学语文教学质量有一定意义。然而,现有语料库对中小学语文教学的辅助功能有限。文章重点介绍了部编版小学语文教材语料库的建设工作,同时针对小学语文教学需求,提出了建设小学语文教学专用型语料库的标注体系和标注原则。标注原则包括课文基本信息标注、分词和词性标注及满足小学语文教学需求的子项目标注和韵律标注。
关键词
语料库 标注
小学语文教学
部编版小学语文教材
Keywords
corpus
Chinese teaching in primary schools
Chinese textbooks in primary schools compiled by the Education Ministry
principle of labeling
分类号
H319
[语言文字—英语]
题名 布朗语料库族系对比及应用现状研究
17
作者
高亢
机构
江汉大学外国语学院
出处
《英语广场(学术研究)》
2019年第5期33-34,共2页
文摘
布朗(BROWN)语料库作为族系的基础,其构成方式、应用价值值得人们重视和研究,初涉语料库研究的人可以将布朗语料库族系作为语料库研究的起步。本文对布朗语料库族系的8个语料库进行了简单介绍,叙述了BROWN和LOB的标注区别,并进一步阐述了其应用领域以及对自建语料库的启发。
关键词
布朗(BROWN)语料库
语料库 标注
应用
分类号
H0-0
[语言文字—语言学]
题名 中文文本的地理命名实体标注
被引量:27
18
作者
张雪英
朱少楠
张春菊
机构
南京师范大学虚拟地理环境教育部重点实验室
出处
《测绘学报》
EI
CSCD
北大核心
2012年第1期115-120,共6页
基金
国家自然科学基金(40971231)
江苏高校优势学科建设工程
文摘
地理信息的语义解析有效地解决自然语言与地理信息系统之间的语义障碍问题。在分析中文文本和地理信息系统中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定中文文本的地理命名实体标注体系和标注规范,并以GATE(General Architecture for Text Engineering)作为标注平台,构建基于《中国大百科全书中国地理》的大规模标注语料库,以解决当前相关标准和规模化标准数据匮乏的问题。
关键词
中文文本
地理命名实体
标注 体系
标注语料库
自然语言
Keywords
chinese text
geographical named entities
annotation scheme
annotated corpus
natural language
分类号
P208
[天文地球—地图制图学与地理信息工程]
题名 中文文本的事件时空信息标注
被引量:13
19
作者
张春菊
张雪英
王曙
廖建平
陈晓丹
机构
合肥工业大学土木与水利工程学院
南京师范大学虚拟地理环境教育部重点实验室
出处
《中文信息学报》
CSCD
北大核心
2016年第3期213-222,共10页
基金
国家自然科学基金(41401451
40971231)
+2 种基金
国家863项目(2012AA12A403-3)
中央高校基本科研业务项目(JZ2014HGBZ0064)
江苏省测绘地理信息科研项目(JSCHKY201502)
文摘
基于文本数据源的地理空间信息解析研究侧重于地名实体、空间关系等空间语义角色的标注和抽取,忽略了丰富的时间信息、主题事件信息及其时空一体化信息。该文通过分析中文文本中事件信息描述的语言特点和事件的时空语义特征,基于地名实体和空间关系标注研究成果,制定了中文文本的事件时空信息标注体系和标注模式,并以GATE(General Architecture for Text Engineering)为标注平台,以网页文本为数据源,构建了事件时空信息标注语料库。研究成果为中文文本中地理信息的语义解析提供标准化的训练和测试数据。
关键词
中文文本
时空信息
事件
标注 体系
标注语料库
Keywords
Chinese text
spatial-temporal information
event
annotation schema
annotated corpus
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文文本的地理空间关系标注
被引量:23
20
作者
张雪英
张春菊
朱少楠
机构
南京师范大学虚拟地理环境教育部重点实验室
出处
《测绘学报》
EI
CSCD
北大核心
2012年第3期468-474,共7页
基金
国家自然科学基金(40971231)
江苏省研究生创新项目(CXLX11_0874)
文摘
为有效地解决当前相关标准和标准数据匮乏的问题,通过分析中文文本中地理空间关系描述的语言特点,提出中文文本的地理空间关系标注体系,并以GATE(General Architecture for Text Engineering)为标注工具,以《中国大百科全书中国地理》为文本数据源,采用交叉校验方式建立了地理空间关系标注语料库。实现了中文文本中地理空间关系描述的结构化表达,提供了地理空间关系信息抽取的标准化测试数据。
关键词
自然语言
中文文本
地理空间关系
标注 体系
标注语料库
Keywords
natural languages Chinese texts spatial relations annotation schemes annotated corpus
分类号
P208
[天文地球—地图制图学与地理信息工程]