找回密码
 立即注册
首页 业界区 业界 第一个爬虫程序的开发

第一个爬虫程序的开发

撙仿 7 小时前
要点:

  • 先要进行调用urlopen函数。
  • 设置网址的变量。
  • 内容获取:
    1.直接获只会得到源代码,是html文件。
    2.若需要以网页的形式进行展示,需要将源代码以html的文件进行保存,并保存到本地,再执行命令。
点击查看代码
  1. from idlelib.iomenu import encoding
  2. from urllib.request import urlopen  # 在url这个库里面请求模块里调用一个urlopen这个函数  模拟浏览器
  3. url = "http://www.baidu.com"   # 网址
  4. resp = urlopen(url) # 获取网页内容
  5. # print(resp.read().decode("UTF-8"))  # 打印内容.decode是为了字节解码,需要填写字符集(搜索charset,可以找出字符集),可以拿到页码面源代码
  6. with open("mybaidyu.html",mode = "w",encoding = "utf-8") as f:
  7.     f.write(resp.read().decode("UTF-8")) #将源代码以html文件的形式存放在本地,之后可以打开,注意这是自己的网址,从页面源代码中提取内容到自己的网址
复制代码
访问网页的基本过程
向服务器发送请求,服务器拼装html文件,在对客户端进行响应,发送源代码给客户端,用户电脑会自动执行接受到的html文件。
1.png


来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册