博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
理解爬虫原理
阅读量:5232 次
发布时间:2019-06-14

本文共 1041 字,大约阅读时间需要 3 分钟。

1. 简单说明爬虫原理

上网所看到页面上的内容获取下来,并进行存储。

2. 理解爬虫开发过程

1).简要说明浏览器工作原理;

浏览器发送请求,服务器接收到,给出响应。

2).使用 requests 库抓取网站数据;

url= 'http://www.sohu.com/'res = requests.get(url)

3).了解网页

   

Hello

This is link1 This is link2 

This is info

4).使用 Beautiful Soup 解析网页;

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

soup = BeautifulSoup(res.text,'html.parser')

select(选择器)定位数据

t = soup.select('#title')l = soup.select('.link')

找出含有特定标签的html元素

t = soup.select('h1')[0].textprint(t)

找出含有特定类名的html元素

for i in range(len(soup.select('.link'))):    d = soup.select('.link')[i].text    print(d)

找出含有特定id名的html元素

info = soup.select('#info')[0].textprint(info)

3.提取一篇校园新闻的标题、发布时间、发布单位

import requestsimport bs4from bs4 import BeautifulSoupurl = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0322/11049.html'res = requests.get(url)res.encoding='utf-8'soup = BeautifulSoup(res.text,'html.parser')title = soup.select('.show-title')[0].textprint(title)

time = soup.select('.show-info')[0].textprint(time)

转载于:https://www.cnblogs.com/AllanChen-/p/11053847.html

你可能感兴趣的文章
[bbk5323] 第114集 -第14章 - 数据库空间管理 03
查看>>
java控台输入
查看>>
2014年终总结
查看>>
ps遇到的问题及笔记
查看>>
如何用最暴力的方法改写Liferay的原生portlet
查看>>
【Linux/unix网络编程】之使用socket进行TCP编程
查看>>
KIWI Syslog配置
查看>>
Nowcoder Two Graphs ( 图的同构 )
查看>>
LeetCode 62. Unique Paths
查看>>
图书管理系统(增删改)
查看>>
MySQL 生成自增流水号
查看>>
IT职业技能图谱:架构师、H5、DBA、移动、大数据、运维...
查看>>
Core Animation Programming Guide - Layer Style Property Animations
查看>>
UOJ 30 【CF Round #278】Tourists
查看>>
Azure RBAC管理ASM资源
查看>>
LAMP
查看>>
关于IE10出现LinkButton点击无效的解决方案
查看>>
Android内存优化(使用SparseArray和ArrayMap代替HashMap)
查看>>
Beta阶段第三次冲刺
查看>>
返回顶部js
查看>>