Python之道-爬虫 Python

shuke 2018-4-3 1666

“形而上者为之道,形而下者为之器“

学编程语言,应学习其核心思想,掌握其精髓!应懂得透过现象抓到本质的东西;
建立此系列博文,理清自己的思路,Python大道渊源流长,且行且珍惜。

爬虫原理

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由我们来控制;
 如果它在抓取一个网页,在这个网中发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

怎么实现??

1、模拟浏览器访问,获取html源代码

2、通过正则匹配,获取指定标签中的内容

3、将获取到的内容写到文件中

实战演练

一,获取整个页面数据

#coding=utf-8
import urllib
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()    
    return html

html = getHtml("http://tieba.baidu.com/p/2738151262")print html1234567891011

二,筛选页面中想要的数据

 Python 提供了非常强大的正则表达式
 
 

import reimport urllib
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()    return htmldef getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)    return imglist      

html = getHtml("http://tieba.baidu.com/p/2460150866")print getImg(html)12345678910111213141516

三,将页面筛选的数据保存到本地

#coding=utf-8
import urllibimport redef getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()    return htmldef getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1html = getHtml("http://tieba.baidu.com/p/2460150866")print getImg(html)12345678910111213141516171819202122

总结

爬取得核心是用到了urllib.urlretrieve()方法,直接将远程数据下载到本地;通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录;程序运行完成,将在目录下看到下载到本地的文件。

源文 https://blog.csdn.net/zmeixuan/article/details/76652590

最新回复 (0)
全部楼主
返回