基于子词链的中文新闻广播故事自动分割被引量：2

Subword-based lexical chaining for automatic story segmentation in Chinese broadcast news

在线阅读下载PDF

导出

摘要提出了一种基于子词链的中文新闻广播故事自动分割方法。利用中文同音异形字众多、词典开放、分词多样和组词灵活等特点,在新闻广播的语音识别抄本上采用中文子词单元(汉字和音节)创建子词链,进行中文新闻广播故事的自动分割,有效地解决了在传统词链方法中由于语音识别错误(特别是词典未收录词汇)导致的相关联词之间无法匹配的问题。同时,利用各级词汇表示单元之间的互补性,如词的表义确定性和子词对语音识别错误的鲁棒性,对各级词汇进行融合,利用不同级别词汇表示单元的优势进一步提高中文新闻广播故事分割的性能。在TDT2中文标准新闻广播语料库上进行的实验表明,基于一元汉字子词链分割方法的F-mea-sure比传统词链方法提高了6.06%。基于一元和二元汉字子词链边界强度的融合可以使F-mea-sure进一步提高2.55%。基于投票法的融合可以使F-measure比传统词链方法提高9.04%。 This paper applied Chinese subword representations(character and syllable n-grams) into chaining-based automa-tic story segmentation of Chinese broadcast news.It showed the robustness of Chinese subwords against speech recognition errors,especially OOV(out of vocabulary)words,in lexical term matching in erroneous speech recognition transcripts.Proposed a subword chaining approach that links repetitions of Chinese character/syllable n-gram units.Also proposed to integrate diffe-rent lexical scales in chainin...

作者杨玉莲谢磊

机构地区西北工业大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2009年第2期583-586,594,共5页 Application Research of Computers

基金国家教育部高等学校博士点学科专项基金资助项目(20070699015) 陕西省自然科学基础研究计划资助项目(2007F15) 西北工业大学基础研究基金资助项目西北工业大学"翱翔之星"计划资助项目(07XE0150)

关键词子词词链主题分割故事分割信息检索语音文件检索 subword lexical chaining topic segmentation story segmentation information retrieval spoken document retrieval（SDR）

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献3

1徐骏,周晓峥,于俊清,周洞汝.基于事件流的新闻视频场景分割方法[J].计算机辅助设计与图形学学报,2003,15(2):228-232. 被引量：5
2庄越挺,毛祎,吴飞,潘云鹤.基于隐马尔可夫链的广播新闻分割分类[J].计算机研究与发展,2002,39(9):1057-1063. 被引量：7
3Wai-Kit Lo,Helen M. Meng,P.C. Ching. Multi-Scale Spoken Document Retrieval for Cantonese Broadcast News[J] 2004,International Journal of Speech Technology(2-3):203～219

二级参考文献18

1[1]J T Foote. An overview of audio information retrieval. Multimedia Systems, 1999, 7(1): 2～11
2[2]S John. Real time discrimination of broadcast speech/music. In: Proc of Int'l Conf on Acoustic, Speech, and Signal Processing (ICASSP-96). Atlanta, GA, 1996. 993～996
3[3]E Scheirer, M Slaney. Construction and evaluation of a robust multifeature music/speech discriminator. In: Proc of Int'l Conf on Acoustic, Speech, and Signal Processing (ICASSP-97). Munich, Germany, 1997. 1331～1334
4[4]M Spina, V Zue. Automatic transcription of general audio data: Preliminary analysis. In: Proc of Int'l Conf on Spoken Language Processing. Philadelphia, PA, 1996. 594～597
5[5]J T Foote. A similarity measure for automatic audio classification. In: Proc of AAAI 1997 Spring Symp on Intelligent Integration and Use of Text, Image, Video, and Audio Corpora. Palo Alto, CA: Stanford, 1997
6[6]S Savitha, D Petkovic, D Ponceleon. Towards robust features for classifying audio in the cuevideo system. In: Proc of ACM Multimedia 99. New York, USA, 1999. 393～400
7[7]Tong Zhang, C-C Jay Kuo. Heuristic approach for generic audio data segmentation and annotation. In: Proc of ACM Multimedia Conf. Orlando, 1999. 67～76
8[8]M Slaney, R F Lyon. A perceptual pitch detector. In: Proc of Int'l Conf on Acoustic, Speech, and Signal Processing 1990 (ICASSP 90). Albuquerque, 1990. 357～360
9[9]L R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of the IEEE, 1989, 77(2): 257～286
10[10]G Tzanetakis, P Cook. Multifeature audio segmentation for browsing and annotation. In: Proc of 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. New Paltz, NY, 1999

共引文献10

1陈忠克,郭振江,刘骏伟,吴飞,庄越挺.足球比赛精彩场景的自动分析与提取[J].计算机辅助设计与图形学学报,2004,16(6):856-860.
2程文刚,须德,郎丛妍.一种有效的视频场景检测方法[J].中国图象图形学报（A辑）,2004,9(8):984-990. 被引量：6
3闫丽颖,王欢,杨颖.模糊c均值聚类在wav格式音频检索中的研究[J].中国科技信息,2006(02A):15-15. 被引量：1
4付畅俭,李国辉,胡军涛.视频层次结构挖掘[J].计算机工程与应用,2006,42(26):159-162. 被引量：3
5张振原,路红.一种基于视频结构的场景分割方法[J].中国图象图形学报,2007,12(10):1913-1916. 被引量：2
6栾悉道,谢毓湘,刘宇驰,吴玲达,刘洋.融合多特征的新闻故事探测[J].小型微型计算机系统,2008,29(5):950-953. 被引量：1
7张瑞杰,李弼程,屈丹.基于可信度变化趋势的音频分割算法[J].计算机工程,2010,36(8):177-179. 被引量：3
8胡澳,裴峥.K-Medoids和FCM融合聚类法语音信号分类的应用[J].济南大学学报（自然科学版）,2016,30(1):17-22. 被引量：1
9吴飞,庄永真,潘红.基于分形布朗运动和Ada Boosting的多类音频例子识别[J].计算机研究与发展,2003,40(7):941-949. 被引量：8
10吴飞,庄越挺,潘云鹤.基于增量学习支持向量机的音频例子识别与检索[J].计算机研究与发展,2003,40(7):950-955. 被引量：7

同被引文献25

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2刘华咏.基于音视频特征和文字信息自动分段新闻故事[J].系统仿真学报,2004,16(11):2608-2610. 被引量：8
3傅间莲,陈群秀.自动文摘系统中的主题划分问题研究[J].中文信息学报,2005,19(6):28-35. 被引量：13
4王会珍,朱靖波,季铎,叶娜,张斌.基于反馈学习自适应的中文话题追踪[J].中文信息学报,2006,20(3):92-98. 被引量：17
5Lev Pevzner,Marti A. Hearst.A Critique and Improvement of an Evaluation Metric for Text Segmentation[J].Computational Linguistics,2002,28 (1):19-36.
6Marti A.Hearst.TextTiling:Segmenting Text into Multi-paragraph Subtopic Passages[J].Computational Linguistics,1997,23(1):33-64.
7Nicola Stokes,Joe Carthy,Alan F. Smeaton. SeLeCT:a lexical cohesion based news story segmentation system[J].Journal of AI Communication,2004,17(1):3-12.
8Allan J,Carbonell J,Doddington G,et al.Topic detection and tracking pilot study final report[C]//Proceedings of DARPA Broadcast News Transcription and Understanding Workshop, Lansdowne, Virginia,USA,1998:194-218.
9Doug Beeferman,Adam Berger,John Lafferty.Statistical Models for Text Segmentation[J]. Machine Learning,1999,34(1-3):177-210.
10Qi W,Gu L,Jiang H,et al.Integrating visual,audio and text analysis for news video[C]//Proceedings of 7th IEEE Intn'l Conference on Image Processing,2000.

引证文献2

1余骁捷,吴及,孔繁庭,李树森.多信息融合的新闻节目主题划分方法[J].中文信息学报,2012,26(2):121-127.
2徐路路,靳杨.基于FSD模型的政府资助项目新兴主题探测与分析[J].科学学与科学技术管理,2019,40(2):40-54. 被引量：8

二级引证文献8

1丁敬达,钟建兰.新兴主题属性量化研究综述[J].图书情报工作,2023,67(9):12-22. 被引量：3
2杨思洛,江曼.新兴技术内涵特征和识别方法研究进展[J].情报科学,2023,41(5):181-190. 被引量：7
3柴文越,刘小平,梁爽.新兴主题识别方法研究综述[J].现代情报,2023,43(12):164-177. 被引量：4
4杨思洛,江曼,高强.基于知识重组和变异的技术新颖性评估——以数字医疗技术为例[J].数据分析与知识发现,2023,7(12):52-63. 被引量：1
5曹茹烨,曹树金.基于知识图谱的高价值专利技术创新演化研究[J].现代情报,2024,44(6):3-17.
6邱婧,奉国和,彭凯林,刘任铧.指标与主题双重演化视角下新兴主题预测与验证——以“纳米药物”领域为例[J].文献与数据学报,2024,6(3):75-88.
7万校基,李海林,何雨晴,杨润奇,林海龙.热度演化视角下新兴主题识别分析研究[J].图书情报工作,2024,68(22):126-138.
8黄璐,任航,曹晓丽,陈翔.面向有组织产学研协同创新的合作主题挖掘[J].科学学研究,2025,43(3):548-559.

1夏勇.互联网电视技术方案分析与比较[J].电视技术,2012,36(20):50-55. 被引量：8
2SEBASTIAN COHEN.DIGITAL TREASURE MAPS[J].China International Business,2010(8):38-39.
3陈石,郑建宏.基于Baseline的H.264去块效应滤波的快速算法[J].重庆邮电大学学报（自然科学版）,2011,23(4):427-431. 被引量：1
4李康顺,金晶,王峰.基于片类型和帧间预测的H.264去块滤波新算法[J].计算机应用研究,2011,28(7):2761-2764.
5边昂,陈露,周凤兰,成敏.混合高斯噪声下的医学荧光染色图像去噪[J].科技信息,2013(7):200-201.
6赵鹏飞,彭建华,罗文宇,黄开枝.QoS约束下多层异构蜂窝网中基于分层休眠的节能机制研究[J].信号处理,2015,31(9):1087-1093. 被引量：1
7赵以宝,孙圣和.一种基于单字统计二元文法的自组词音字转换算法[J].电子学报,1998,26(10):55-59. 被引量：6
8李康顺,金晶,王峰.基于快速边界强度判定的H.264去块滤波新算法[J].中南大学学报（自然科学版）,2012,43(1):221-228. 被引量：1
9IPC发布最新中文标准IPC-9252A《未组装印制板的电气测试要求》[J].电子工艺技术,2012,33(6).
10中国半导体产业协会签约VSIA欲建中文标准[J].电子知识产权,2005(10):5-5.

计算机应用研究

2009年第2期

浏览历史

内容加载中请稍等...

基于子词链的中文新闻广播故事自动分割被引量：2

参考文献3

二级参考文献18

共引文献10

同被引文献25

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于子词链的中文新闻广播故事自动分割 被引量：2

参考文献3

二级参考文献18

共引文献10

同被引文献25

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于子词链的中文新闻广播故事自动分割被引量：2