当前位置:首页 > 开发 > 编程语言 > 搜索 > 正文

行业垂直搜索引擎网页抓取项目

发表于: 2014-05-06   作者:carlwu   来源:转载   浏览:
摘要: 公司有一个搜索引擎项目,希望各路高人有空来帮忙指导,谢谢! 这是详细需求: (1) 通过提供的网站地址(大概100-200个网站),网页抓取程序能不断抓取网页和其它类型的文件(如Excel、PDF、Word、ppt及zip类型),并且程序能够根据事先提供的规则,过滤掉不相干的下载内容。 (2) 程序能够搜索这些抓取的内容,并能对这些抓取文件按照油田名进行分类,然后放到服务器不同的目录中。
公司有一个搜索引擎项目,希望各路高人有空来帮忙指导,谢谢!
这是详细需求:
(1) 通过提供的网站地址(大概100-200个网站),网页抓取程序能不断抓取网页和其它类型的文件(如Excel、PDF、Word、ppt及zip类型),并且程序能够根据事先提供的规则,过滤掉不相干的下载内容。
(2) 程序能够搜索这些抓取的内容,并能对这些抓取文件按照油田名进行分类,然后放到服务器不同的目录中。
(3) 系统最好用Java开发,可以使用HttpClient, Nutch, Heritrix等一些开源软件。需要提供能维护的、可读的源代码;
(4) 系统要求在一周内要遍历所有给定的网址,搜索速度要求能够接受。并且系统能够根据我们提供的用户名和口令自动登录某些网站进行有目的的抓取,要支持https及其他协议;要求支持英文和汉语及其它语言。
(5) 开发费用12000元,按照项目进展程度支付。

行业垂直搜索引擎网页抓取项目

  • 0

    开心

    开心

  • 0

    板砖

    板砖

  • 0

    感动

    感动

  • 0

    有用

    有用

  • 0

    疑问

    疑问

  • 0

    难过

    难过

  • 0

    无聊

    无聊

  • 0

    震惊

    震惊

编辑推荐
文章出处:http://hiup.baidu.com/search2006 作者:小肯哥 都说今年是搜索引擎年。垂直搜索的概念
之前做聊天室时,由于在聊天室中提供了新闻阅读的功能,写了一个从网页中抓取信息(如最新的头条新
搜索引擎的出现,整合了互联网上众多的网页资源,并提供信息导航和信息查询服务, 使信息的价值得到
垂直搜索引擎概述 一、 综合搜索引擎和垂直搜索引擎 综合搜索引擎以百度、谷歌的全文检索为典型代表
什么是垂直搜索引擎? 垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库
越来越多的网站,开始采用"单页面结构"(Single-page application)。 整个网站只有一张网页,采用A
http://inserthtml.com/demo/history/index.html 越来越多的网站,开始采用"单页面结构"(Single-pa
这种做法的好处是用户体验好、节省流量,缺点是AJAX内容无法被搜索引擎抓取。举例来说,你有一个网
如何让搜索引擎抓取AJAX内容? 作者: 阮一峰 日期: 2013年7月16日 越来越多的网站,开始采用"单页
云翔在线聊天室 提供在线聊天室,WebIM,网盘等服务,WebIM可以免费建群(不限人数),聊天记录在线
版权所有 IT知识库 CopyRight © 2009-2015 IT知识库 IT610.com , All Rights Reserved. 京ICP备09083238号