置顶 发表在 python爬虫部落 08-29 14:42:13
今天用python写了一个最简单的小爬虫,代码如下
这里需要导入urllib模块下的request,用url.open()函数,打开编程少年的官网,其返回的是一个对象,用response接收,其实这是后就可以打印出来了,只不过打印出来效果会这样过样,是一些乱码,而不是我们平时看到的html代码
这就是第四行代码html=html.decode("utf-8")的作用,加入这行代码之后执行效果如下,这个排列就比较整齐了。
再使用正则表达式继续下载所有网页
英勇黄铜Ⅲ 335荣誉值
1
2
3
0 赞
再使用正则表达式继续下载所有网页