1092人加入学习
(20人评价)
Python爬虫从爪巴到爬

制作完成于2020-3-14

价格 ¥ 388.00
python3的版本在写入文件时,编码当时如果用的utf - 8,中文其实是可以读得。用普通的文本编译器就行比如notepad + +,但是用
excel打开csv文件会出现中文乱码得情况,是因为python编码方式为utf - 8,但是是无BOM格式的,excel软件,其对于utf - 8编程
方式,只支持有BOM格式的,所以会出现中文乱码得问题。设置成utf - 8_sig就代表着有BOM格式的utf - 8的编程,excel就可以正常
显示中文了。
[展开全文]

response = requests.get(url)

 

response.status_code (状态码)

状态码的开头:1为正在查看;2为成功获取;3为重定向;4为网页不存在;5为服务器内部错误

 

response.content.decode('utf-8')

将代码转化为utf-8格式(中文正常显示)

[展开全文]

这里的访问方式现在不适用,使用第二个网址更换参数不能达到获取json文件的目的

[展开全文]

1.发起请求(HTTP)------>得到响应(HTML)

2.解析HTML,得到我们想要的数据

 

[展开全文]

user-agent:用户代理,用户浏览器的表示

默认是python-requests,大部分网站访问不到

http://httpbin.org/get

[展开全文]

decode哪个编码,可以看网页的charset

知乎 反爬虫

header

User-Agent

[展开全文]

Anaconda Prompt

切换环境

activate python_3.6_siki

 

pip

使用其他镜像

 

[展开全文]

1)发起请求(HTTP指平时输入的网址)->得到响应(HTML指网页源代码信息)

   1)resquest

2)解析HTML,得到我们想要的数据

   1)正则

   2)BS4  Beautiful  Soup(重点讲解)

   3)lxml

3)静态请求,动态请求

4)案例分析

[展开全文]

youtube 不就是404网站吗?

[展开全文]

proxies = {

        'http':'128.199.81.100:44321'

}

[展开全文]

https://www.52pojie.cn/thread-961836-1-1.html

[展开全文]

3.静态请求,动态请求

4.案例

爬取同城约会

爬取siki学院上所有的图片

一些找

[展开全文]

#请求

Get

    网址直接显示在地址栏里

post

    请求的时候会隐藏参数,一般用于登录和注册,或者填写内容提交

[展开全文]