- 相关推荐
新闻事件的文本挖掘
一、引言
近年来,随着互连网的飞速发展和信息传播手段的不断进步,造成了大量的文本数据累积,其中很大一部分是短文本数据。这些数据中有很大一部分是只包含50-100个词的短文本数据,如文章摘要、电子邮件、图片标题、产品描述等。网页上的大部分信息都是短文本信息。文本挖掘技术对于从这些海量短文中自动获取知识、具有重要意义。本文介绍了文本挖掘在新闻文本挖掘中的应用,分析了新闻事件挖掘的研究现状。
二、文本挖掘概念
文本挖掘是采用计算语言学的原理对文本信息进行抽取的研究和实践文本挖掘可以对文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。Web文本挖掘和通常的平面文本挖掘有类似之处,但是文档中的标记给文档提供了额外的信息,可以借此提高文本挖掘的性能。
三、文本挖掘在新闻文本挖掘中的应用
"新闻的处理,是-种对事实的选择、安排、解释等意义化过程",作为文字传播的一种特殊形态,新闻在语言表达上有着较为明显的个性特征,如篇章短小精干、表达客观公正、语言准确简洁等。新闻专题是指围绕某一个突发的新闻事件或某一个广泛受关注的问题提供详细、深入的资料。这样的专题信息目的明确、信息丰富,让人一日了然地清楚整个新闻事件的前因后果和来龙去脉,能够较好地满足读者的需要。但通常情况下,这些新闻专题都是经过专业人员加工处理的,即人工归纳到二起。新闻事件挖掘的目的是,是借鉴文本挖掘技术、文本分类和聚类技术,实现对新闻资料的自动组织、生成专题,以满足网络用户检索新闻信息的需要。专题的生成涉及到新闻事件的探测以及对新闻事件的跟踪。
四、新闻事件挖掘的研究现状
目前对于新闻事件的挖掘主要包括以下几类问题:
(→)主题发现与跟踪(TopicDetectionandTracking,TDT)
主题发现与跟踪旨在开发一系列基于事件的信息组织技术,以实现对新闻媒体信息流中新话题的自动识别以及对己知话题的动态跟踪。该研究作为一项1997年开始的公开测评而成为自然语言处理的→项研究热点。TDT包括五项子任务,即:主题分割、话题跟踪、新事件发现和报道关联发现。
主题分割主要采用相同词语数目和词语密度的方法,其优点在于简洁性和高效性,不受领域的限制。目前已有TextTiling算法等方法用于主题的分割。采用遗传算法对TextTiling算法中的参数进行优化,使得同→主题内的段落之间的总差异应尽可能地小,而不同主题间的总差异应尽可能地大。也有研究采用遗传算法来直接寻找主题的最优划分。骆卫华提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类),然后对所有的微类在进行聚类,得到最终的话题。
(二)热点趋势检测(EmergingTrendDetection,ETD)
热点趋势检测用来自动识别热点主题,从而识别主题趋势的变化。热点趋势检测主要包括三个部分:主题结构的识别,主题出现的检测和主题特征分析。总结了目前研究的ETD系统和商业的ETD系统,其使用方法大多数以关键词的词频分析为基础,形成相关主题的发展趋势。例如,采用关键词项词频分析的方法,寻找芯片封装领域内的技术发展规律。对于这类问题需要优化关键词的选择,看哪一个或者哪一些关键词与该主题上的关系最为密切。也有的研究使用序列模式挖掘来识别短语,生成短语的历史图,使用形状查询来识别指定趋势的短语。
(三)事件预测规则的发现
该问题主要采用文本挖掘技术,同传统的人工智能方法相结合,对于时序文档集的关联规则的进行挖掘,提供相应事件发生的预测规则。
很多研究根据互联网上的新闻稿来生成股票价格指数的规则。Wuthrich使用专家的先验知识,通过对过去的新闻中出现的关键词组的权重和对应的值产生可能性的规则,再利用这些规则对当天的新闻进行股票指数的预测。将关键词组转换成权重,采用基于规则、最近邻和神经网络的方法。Feldman等人使用多种分布模型对路透社的2万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布,揭示了一些有趣的趋势。而Mittermayer则自动对新闻稿进行预处理,将它们分成不同的新闻类型,其每→类都对股票价格升降有特定的影响,从而得到对应的交易指导规则。
五、结论
文本挖掘是挖掘的核心技术,将其文本聚类与分类等技术应用到新闻主题的检测与跟踪中,能自动在线检测内容不断更新的网络新闻主题,提高了处理的速度,能及时提取更多有价值的信息给用户,这是一个具有十分重要意义的课题,这项研究还需要进→步的深入。短文本挖掘技术是文本挖掘中的一个新兴的方向,针对于短文本特点的方法有待于人们的进-步研究。
【新闻事件的文本挖掘】相关文章:
生物医学文本挖掘研究热点08-01
文本、解读、诠释与翻译08-29
挖掘员工潜能05-18
试析汉英旅游文本的翻译10-05
抓住文本品析语言10-12
事件营销探析09-10
文本聚类开题报告范文08-06
超阅读:数码时代的文本变革06-26
文学教学中的文本审美探讨10-15