第一个爬虫程序的开发

撙仿 · 7 小时前

要点：

点击查看代码

from idlelib.iomenu import encoding
from urllib.request import urlopen # 在url这个库里面请求模块里调用一个urlopen这个函数模拟浏览器
url = "http://www.baidu.com" # 网址
resp = urlopen(url) # 获取网页内容
# print(resp.read().decode("UTF-8")) # 打印内容.decode是为了字节解码,需要填写字符集（搜索charset,可以找出字符集），可以拿到页码面源代码
with open("mybaidyu.html",mode = "w",encoding = "utf-8") as f:
f.write(resp.read().decode("UTF-8")) #将源代码以html文件的形式存放在本地，之后可以打开，注意这是自己的网址，从页面源代码中提取内容到自己的网址

复制代码

访问网页的基本过程
向服务器发送请求，服务器拼装html文件，在对客户端进行响应，发送源代码给客户端，用户电脑会自动执行接受到的html文件。

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册