当前位置:首页 > 开发 > 行业应用 > 正文

数据挖掘-基于模板的属性抽取

发表于: 2014-07-25   作者:dengqsintyt   来源:转载   浏览次数:
摘要:       信息抽取是一个互联网自然语言处理的一个首要环节,信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音,获取网页有价值的信息如网页的标题、时间、正文、链接等信息。       根据工作中的实际应用,下面简单介绍一下基于网页模板的属性抽取方法:        一、模板特征

      信息抽取是一个互联网自然语言处理的一个首要环节,信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音,获取网页有价值的信息如网页的标题、时间、正文、链接等信息。

      根据工作中的实际应用,下面简单介绍一下基于网页模板的属性抽取方法:

       一、模板特征

       网页属于半结构化的文本,同一网站中的网页结构往往是固定的,网页中的内容可能随时改变,但网页的模板结构常常不变化,我们把这类网页称为特定领域的网页。

       二、抽取思路

       定位模板中需要抽取的重要属性信息,建立模板文件

        重要属性信息,如,url、标题、内容、时间、单位、作者、来源等;通过分析这些重要信息在网页中的位置特征和标签特征,来建立模板文件,模板文件含有:

        A:定位抽取的重要属性信息

        B:规则文件:用来和网页进行匹配(常用的方法,有正则表达式,字符串处理方法)

        我在工作中常用的模板文件:xml文件,因为xml文件是结构化的文件,容易识别和解析。

 

       三、优点

        1.网页通过模板转化为结构化数据

        2.网页的内容变化不需要修改代码

      

       四、缺点

        网页结构经常变化的网站,维护起来比较麻烦,代码需要修改。

 

 

      

 

 

数据挖掘-基于模板的属性抽取

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
提纲 一、简介 二、应用举例 三、思想 四、实现 五、html-Dom树特征 一、简介 基于Dom树的抽取技术
1、查询分析器 查询分析器主要工作是从不同来源的数据库中抽取对应指标值。 界面原型参考如下(仿 I
One of the central concepts of Aperture is the notion of a DataSource. A DataSource contains
为了更好的使用Aperture组件,我们需要熟悉他的整体流程以及相关API接口 下面是关于Aperture组件的
杨步涛:基于用户画像的大数据挖掘实践 对于大多数企业而言,自建大数据平台并非明智的选择,通过第
1 引 言 目前,数据挖掘(Data Mining,简称DM)已成为国内学术界研究的热点内容,其研究大多建立在
声明: 原创作品, 转载时请注明文章来自 SAP师太 技术博客( 博/客/园www.cnblogs.co
专业数据抽取服务 背景: 大数据与传统海量数据的差别主要在于海量数据一般都是指存储在数据库中的
by zhangxinxu from http://www.zhangxinxu.com 本文地址: http://www.zhangxinxu.com/wordpress/?
神奇的数据挖掘 谈到BI,就会谈到数据挖掘(Data mining)。数据挖掘是指用某些方法和工具,对数据进
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号