爬虫心得

目前使用requests来模拟浏览器发送请求然后解析数据,最后再进行持久化存储,遇到了诸多的问题

现在我对爬虫使用流程的理解

1. 导入requests模块
2. 导入xpath模块
3. UA伪装
4. 确定要爬取的链接
5. 用requests发送请求
6. 使用xpath提取数据
7. 持久化存储数据
  • 遇到的暂未解决的问题
  • 页面的URL怎么确定,或者说怎么确定我们要的数据就在这个URL里?
  • 为什么有的页面请求需要参数有的页面直接通过URL就可以获得
  • 为什么同样的代码上一次可以运行一会儿就不可运行了?

你可能感兴趣的