本人是搞Java、Android開發的,有編程基礎。python是剛剛起步學習,在看完《Head first python》這本書后,一直想做一個項目練練手,思來想去不知道做python什么項目好,看網上大家都在玩爬蟲。所以自己也花了一個晚上的時間寫了個抓取“妹子圖片”的爬蟲,養眼的福利噢 O(∩_∩)O。大家需要注意博主用的是Python3.x 。在2.7上多線程的實現與3.x不同,所以需要自己調整代碼。
先上截圖,看看成果:

如何執行: 命令行窗口: python GetMezi.py ?圖片地址 ?
即可。默認會在代碼文件的同一級目錄創建相冊目錄,并把圖片放到對應的相冊。

怎么樣,看到這里,是不是也想自己動手打造一個爬圖神器了。
那咱就言歸正傳,現在開始爬蟲的設計:
python用到的庫:BeautifulSoup、request
**一、找個圖片網站,分析它頁面上的HTML源代碼,**提取HTML源代碼中有用信息(圖片鏈接、名稱)****
****二、多線程并發下載圖片到本地**
**
分析網站,我們瀏覽器F12,進入開發者模式,通過箭頭查找模式找到圖片顯示區域的父容器:
這個標簽內有好多個標簽,li標簽內部有標簽,我們要提取的內容就是href的地址(即相冊地址),以及相冊描述

光有相冊的信息還不夠,我們還要去相冊的網頁看一下,把相冊里面的所有圖片鏈接給提取出來。

分析該頁面,我們發現它的html源代碼中有這個地方就是相冊內圖片的導航區域(即
上下圖頁面,這里每一個圖片顯示在一個對應的頁面)。
代碼中,我們要把相冊的圖片總數給拿到,即上圖“51”,表示最后一張圖片。
它的每一張圖片對應的網頁都是有規律的:
http://www.mzitu.com/62728
http://www.mzitu.com/62728/2
.........
http://www.mzitu.com/62728/51
發現了嗎,我們只需要拿到總圖片個數,然后代碼中拼接一下,**生成51個網頁路徑即可**。
然后我們對分別對著51個頁面解析html源代碼,提取出**圖片的路徑**
代碼我已經寫好了,看官們可以訪問代碼倉:[https://github.com/JadenTseng/python-get-girl-image](https://github.com/JadenTseng/python-get-girl-image)
獲取。
- Python爬蟲入門
- (1):綜述
- (2):爬蟲基礎了解
- (3):Urllib庫的基本使用
- (4):Urllib庫的高級用法
- (5):URLError異常處理
- (6):Cookie的使用
- (7):正則表達式
- (8):Beautiful Soup的用法
- Python爬蟲進階
- Python爬蟲進階一之爬蟲框架概述
- Python爬蟲進階二之PySpider框架安裝配置
- Python爬蟲進階三之Scrapy框架安裝配置
- Python爬蟲進階四之PySpider的用法
- Python爬蟲實戰
- Python爬蟲實戰(1):爬取糗事百科段子
- Python爬蟲實戰(2):百度貼吧帖子
- Python爬蟲實戰(3):計算大學本學期績點
- Python爬蟲實戰(4):模擬登錄淘寶并獲取所有訂單
- Python爬蟲實戰(5):抓取淘寶MM照片
- Python爬蟲實戰(6):抓取愛問知識人問題并保存至數據庫
- Python爬蟲利器
- Python爬蟲文章
- Python爬蟲(一)--豆瓣電影抓站小結(成功抓取Top100電影)
- Python爬蟲(二)--Coursera抓站小結
- Python爬蟲(三)-Socket網絡編程
- Python爬蟲(四)--多線程
- Python爬蟲(五)--多線程續(Queue)
- Python爬蟲(六)--Scrapy框架學習
- Python爬蟲(七)--Scrapy模擬登錄
- Python筆記
- python 知乎爬蟲
- Python 爬蟲之——模擬登陸
- python的urllib2 模塊解析
- 蜘蛛項目要用的數據庫操作
- gzip 壓縮格式的網站處理方法
- 通過瀏覽器的調試得出 headers轉換成字典
- Python登錄到weibo.com
- weibo v1.4.5 支持 RSA協議(模擬微博登錄)
- 搭建Scrapy爬蟲的開發環境
- 知乎精華回答的非專業大數據統計
- 基于PySpider的weibo.cn爬蟲
- Python-實現批量抓取妹子圖片
- Python庫
- python數據庫-mysql
- 圖片處理庫PIL
- Mac OS X安裝 Scrapy、PIL、BeautifulSoup
- 正則表達式 re模塊
- 郵件正則
- 正則匹配,但過濾某些字符串
- dict使用方法和快捷查找
- httplib2 庫的使用