当前位置:首页 > 开发 > 编程语言 > 蜘蛛爬虫 > 正文

java的WebCollector爬虫框架

发表于: 2014-09-05   作者:oloz   来源:转载   浏览:
摘要: WebCollector主页: https://github.com/CrawlScript/WebCollector 下载:webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。 接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
WebCollector主页: https://github.com/CrawlScript/WebCollector

下载:webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。

接下来看demo
package org.spider.myspider;

import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;

public class MySpider {

	public static void main(String[] args) throws Exception {
		
		BreadthCrawler breadthCrawler = new BreadthCrawler();
		
		breadthCrawler.addSeed("http://www.cmbchina.com/");/*爬取的目标地址*/
		breadthCrawler.addRegex("http://www.cmbchina.com/.*");/*抓取规则,住区该网站下的所有文件*/
		
		breadthCrawler.setRoot("download");/* html、jsp网页、图片、文件被存储在项目中的download文件夹中 */
		breadthCrawler.start(3);/* 进行深度为3的爬取 ,这个深度直接写入值即可*/
	}

}

java的WebCollector爬虫框架

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
一.简介: https://github.com/CrawlScript/WebCollector/blob/master/README.zh-cn.md 二.使用: &
本文利用 WebCollector内核的解析,来描述如何设计一个网络爬虫。我们先来看看两个非常优秀爬虫的设
SeimiCrawler An agile,powerful,standalone,distributed crawler framework. SeimiCrawler的目标是
一、 架构图 那里搜网络爬虫框架主要针对电子商务网站进行数据爬取,分析,存储,索引。 爬虫:爬虫
一、 模块 1. Scheduler Scheduler负责启动爬虫,停止爬虫,监控爬虫的状态。 Scheduler在调度爬虫
6. Filter Filter可以对解析好的新Task,进行过滤。 7. Handler Handler对解析好的内容进行进一步处
实现语言:Java 模拟HTTP请求:HttpClient 4.0 目标页面结构分析、HTTP请求头信息分析:Firefox + f
实现语言:Java 模拟HTTP请求:HttpClient 4.0 目标页面结构分析、HTTP请求头信息分析:Firefox + f
实现语言:Java 模拟HTTP请求:HttpClient 4.0 目标页面结构分析、HTTP请求头信息分析:Firefox + f
上个学期做了很久的新浪爬虫,修修改改一直没时间做个整理,趁着开学前,重新整理了下思路和代码结
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号