加入收藏 | 设为首页 | 会员中心 | 我要投稿 92站长网 (https://www.92zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【3】 文本挖掘方法论

发布时间:2021-02-23 13:37:56 所属栏目:大数据 来源:网络整理
导读:转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html 文本挖掘流程 第1阶段:确定研究目的 像任何其他项目一样,文本挖掘的研究开始于研究目的的决策。

一旦收集完成,文本文件就可以转化和组织为计算机可处理的方式,并转换为相同的格式(如ASCII文本文件)。数字化的文本文件可以存储在一个文件夹中,也可以以网页集合的形式放到在一个特定的域列表中。许多市售的文本挖掘软件工具可以接受网页作为输入,并将其转换成一个文本文件进行处理。可选地,文本文件也可以在文本挖掘软件之外准备,那么可以表示为输入到文本挖掘应用。

第三阶段,第2步:预处理的数据

在此活动中,将数字化并且组织好的文档(语料库)用于创建数据结构化的表示,通常被称为词条-文档矩阵(TDM)。通常,TDM包括表示文件的行和表示词条的列构成。词条和文档之间的关系被表征为索引,这是关系的测度,如在文档中出现的词频。图5.5显示了TDM的简化示例。

第2步的目标是把组织好的文档(语料库)列表转换成一个TDM,这里单元被填充为最合适的索引。我们在这里所做的假设是,文件的??“意义”可以用该文件中出现的词条列表和词频来表示。那么,表征文档时,所有的条件都同样重要吗?显然,答案是否定的。一些词条,例如冠词,助动词,是几乎所有语料库文档都使用的词条,它们没有有意义的功能,因此应被排除在索引之外。这些词的列表俗称停用词表,这往往在具体研究领域由该领域专家专门鉴定。在另一方面,在文件被索引时,我们可以选用一组预定义的停用词列表,这类词条列表惯例上被称为字典。此外,同义词和特定的短语(例如,“最高法院”)也可以以词典的形式提供,这样的索引条目将会更准确。图5.6示出了TDM与其它四个任务的更详细视图。

 任务1

第一个任务产生停用词(或者包含词条)以及同义词和特定短语。

任务2

由词干或词形还原创建词条列表,这是词条最简单的形式(即词根)。词干的例子是用于识别和索引不同的语法形式或约简动词词条。例如词干可以确保模型,建模和模拟被识别为词的模型。以这种方式,词干会明显降低词条的数量,并增加一些词条的频率。词根有两种常见的类型:
1.屈折词干:这旨在规范语法上的变化,如现在/过去时态和单/复数变化等(这在计算语言学上被称为形态分析)。不同的语言在难易程度上显著的不同。
2.词干到根:这旨在消除屈折性或派生的前缀和后缀,形成词根的形式。

任务3

创建TDM。在任务3中,语料库的数字二维矩阵表示被创建,这是TDM生成的第一种形式,包括以下三个步骤:

  • 指定所有文件作为矩阵中的行
  • 识别所有的在语料库中的独特的词条(如它的列),但不包含在停用词列表中的
  • 计算每个词的每个文档的出现次数(作为其单元值)

如果语料库包括一个相当大数目的文件(这是通常的情况),则是很常见的TDM为具有非常大的词条。处理这样一个大的矩阵可能是耗时的,而且,更重要的是,它可能会导致提取不准确的模式。大型矩阵和耗时的操作这些危险情况导致如下两个问题:

  • 什么是文本挖掘项目最优处理的索引最佳表示?
  • 如何把矩阵的维度降低到一个更易于管理的大小,以方便更快捷有效的处理?

要回答第1个问题,我们必须评估各种形式的索引表示。一种方法是词频的转换。一旦输入文档被索引并且初始词频(由文件)被计算,可以执行一些额外的转换来概括和聚集所提取的信息。原词的频率反映了每个文档中相对突出的词。具体而言,文档词条出现的较大词频可能是该文件内容最好的描述符。然而,词条的计数是正比于文件描述符的重要性本身不是一个合理的假设。例如,即使在文件A中词条的频率三倍高于文件B中,不一定就能推论出这个词对于文档B三倍重要于文档A。

为了具有更一致TDM为进一步的分析,这些原始索引应被归一化。在统计分析中,归一化包括以消除数据元素之间的不同尺度的不同效果分割多组数据由一个共同的值来进行比较的。原始频率值可以使用的一些可供选择的方法进行归一化。下面是一些最常用的标准化方法(StatSoft推出,2010):

对数的词频。原始词频通过对数函数变换。这种变换将“抑制”的原始词频,以及如何影响后续分析的结果。

f(wf)=1+log(wf)

在该式中, wf 是原始词频,而 f(wf) 是对数变换的结果。这个变换被应用到TDM中所有的原始词频,这里词频是大于零的。
二元频率。同样的,一个更简单的变换可以用于枚举词,如果词条被用于一份文件中。

f(wf)=1,for:wf>0

这导致的TDM矩阵将只包含0和1,它们指示了各词条是否存在。同样,这种转换将抑制的原始词频的效果,在后续的计算和分析中进行计数。

逆文档频率。除了词条的归一化频率,对于给定词频的每个文档(相对文件频率或 df )也是分析中的一个重要方面。例如,可能会经常出现在所有的文件中,如”guess”,而另一个词条,如”software”,可能只会出现几次。其原因是,人们可能在各种情况下都会”make guess”,而不管特定主题的,而”software”是一种在语义上更聚焦的词条,它仅发生在有关计算机软件的文件中。一个常见的和非常有用的变换被称为逆文档词频(Manning和Schutze,1999),它反映了词条的特异性(相对于文档频率)以及它们出现(转化的词频率)的总体频率。这个变换对于第 i 词和第 j 个文件可写为:

idf(i,j)=?????0(1+log(wfi,j)logNdfi当wfi,j=0当wfi,j≥0

这里 wfij 是被第 j 个文档中第 i 个词条归一化后的词频(包含此词条的文档数量),并且 n 是文档的总数。你能看到这个公式既包含了对数函数的简单词频阻尼(之前描述的)也包含了权重因子,如果词条在所有文档中出现,则计为0,[ i.e.,log(N/N=1)=0 ]。当一个词条仅出现在单独的文本中这个值就是最大值,[ i.e.,log(N/1)=log(N) ]。如何这个转换将创建索引能被很容易的观察到。它反映了出现词条词频以及它们在文档中频率的相关性,它代表了给出文档的语义特异性。它最常用于字段转换。

(编辑:92站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读