### 设计思路 前情提要:百度搜索的爬取处理逻辑和搜狗-微信公众号的逻辑基本一致,但是百度搜索杂系数太大,存在大量不相关内容,所以使用百度的一个参数进行调整。 api地址: www.baidu.com/s?wd={关键词}&cl=3&pn=1&ie=utf-8&rn=20&tn=baidurt - wd={关键词}:设置查询关键词 - cl=3:查询类型,3为网页,2为图片,默认为3 - pn=1:指定查询页数 - rn=20:每页显示数量 - ie=utf-8:指定查询编码格式 - tn=baidurt:设置为简化格式,爬虫友好化 ### 速率限制 建议设置高每页数量,减小搜索次数以规避反爬虫措施。 ### 使用技术 - python-bs4网页解析 - python-sqlite联动 - python-request爬虫 - sqlite筛选