本次实例的任务是从中国电影网上爬取2019年所有上映电影的海报,并按月分类
2019年电影日历:链接
网页结构
F12查看html文件,看到网页结构非常友好:
每一个月份下的所有电影都在一个div class=”film-col layout”下面的dl class=”clear”中的<dd>标签下,但是此时里面包含的是对应该部电影的链接
点进去查看下一层网页的结构
我们可以看到海报图片位于img class=”poster”下,这其实比较好爬
代码
根据网页结构的分析,我们采用requests+bs4(BeautifulSoup4)库即可
1 | import requests |
这里需要注意的是在使用requests库的时候最好加上头部信息,否则可能爬取的内容是空的,还有BeautifulSoup的find_all函数真好用