爬虫简介
这是一个无需登录即可根据企业名称搜索爬取企业页面数据的采集程序
注意:这是一个比较简单的爬虫,基本上只使用了代理,没有使用其他的反反爬技术。但是由于爬取的数据量很大,适合刷分析技能的熟练度,所以高手不要进
代码已上传至GitHub,有用请给个star
python版本:python2.7
编码工具:pycharm
数据存储:mysql
爬虫结构:广度爬虫
爬行动物的想法:
首先获取需要收集信息的公司:
从数据库中获取字段:etid,etname 从获取的数据存储的状态表中的状态表中获取数据,并更新状态表
连接初始 URL:
拼接etname和initial url得到初始url 把初始url放到一个list中,获取html时如何出错,把错误的url放到另一个list中,循环获取
请求解析初始一级页面:
验证查询的公司是否正确(??) 获取二级页面url怎么用天眼查个人信息,将二级url放入一个列表怎么用天眼查个人信息,html错误如何获取,将错误的url放入另一个列表,循环获取
请求解析二级页面:
需要获取的信息
在数据库中存储公司信息:
创建一个表来存储表中的信息:
主要企业信息:et_host_info 企业信息:et_busi_info 分支机构信息:et_branch_office 软件版权信息:et_container_copyright_info 网站备案信息:et_conrainer_icp_info 对外投资信息:et_foreign_investment_info 融资信息:et_rongzi_info 股东信息:et_stareholder_info 商标信息:et_trademark_info 微信公众号信息:et_wechat_list_info 状态表:et_name_status看一下部分结果图: