> python爬蟲學習給自己定下的第一個小目標, 加油!
> 也希望能得到python大大們的指點, 感謝!
* * *
# 1\. 豆瓣抓站流程
1. 分析url特征(`菜鳥階段`)
2. 對需要抓取的數據設計正則表達式
3. 處理HTML中一些特征字符,換行符等
> 注意異常的處理和字符編碼的處理
# 2\. 實現的功能
**簡單的實現了抓取豆瓣電影Top100的電影名稱**
# 3\. 后期工作展望
* 抓取更多的有用數據(如:準確抓取導演, 抓取一個電影評論)
* 使用多線程爬蟲
* 學習第三方的爬蟲框架(`Scrapy`)
* 深入理解HTML編碼和文本處理
# 4\. 輸出結果
~~~
Top1 肖申克的救贖
Top2 這個殺手不太冷
Top3 阿甘正傳
Top4 霸王別姬
Top5 美麗人生
Top6 海上鋼琴師
Top7 辛德勒的名單
Top8 千與千尋
Top9 機器人總動員
Top10 三傻大鬧寶萊塢
Top11 泰坦尼克號
Top12 盜夢空間
Top13 放牛班的春天
Top14 龍貓
Top15 忠犬八公的故事
Top16 教父
Top17 大話西游之大圣娶親
Top18 亂世佳人
Top19 天堂電影院
Top20 搏擊俱樂部
Top21 當幸福來敲門
Top22 羅馬假日
Top23 楚門的世界
Top24 海豚灣
Top25 指環王3:王者無敵
Top26 兩桿大煙槍
Top27 天空之城
Top28 飛越瘋人院
Top29 觸不可及
Top30 飛屋環游記
Top31 十二怒漢
Top32 鬼子來了
Top33 天使愛美麗
Top34 大話西游之月光寶盒
Top35 竊聽風暴
Top36 V字仇殺隊
Top37 怦然心動
Top38 無間道
Top39 聞香識女人
Top40 蝙蝠俠:黑暗騎士
Top41 美麗心靈
Top42 指環王2:雙塔奇兵
Top43 指環王1:魔戒再現
Top44 剪刀手愛德華
Top45 活著
Top46 教父2
Top47 七宗罪
Top48 勇敢的心
Top49 情書
Top50 哈爾的移動城堡
Top51 熔爐
Top52 美國往事
Top53 死亡詩社
Top54 音樂之聲
Top55 鋼琴家
Top56 小鞋子
Top57 被嫌棄的松子的一生
Top58 獅子王
Top59 致命魔術
Top60 瑪麗和馬克思
Top61 低俗小說
Top62 入殮師
Top63 蝴蝶效應
Top64 少年派的奇幻漂流
Top65 沉默的羔羊
Top66 大魚
Top67 射雕英雄傳之東成西就
Top68 陽光燦爛的日子
Top69 本杰明·巴頓奇事
Top70 幽靈公主
Top71 第六感
Top72 讓子彈飛
Top73 黑客帝國
Top74 拯救大兵瑞恩
Top75 上帝之城
Top76 螢火蟲之墓
Top77 陽光姐妹淘
Top78 心靈捕手
Top79 飲食男女
Top80 大鬧天宮
Top81 西西里的美麗傳說
Top82 海洋
Top83 一一
Top84 重慶森林
Top85 燃情歲月
Top86 愛在黎明破曉前
Top87 愛在日落黃昏時
Top88 風之谷
Top89 春光乍泄
Top90 虎口脫險
Top91 加勒比海盜
Top92 告白
Top93 側耳傾聽
Top94 甜蜜蜜
Top95 阿凡達
Top96 菊次郎的夏天
Top97 馴龍高手
Top98 真愛至上
Top99 致命ID
Top100 超脫
~~~
# 5\. 豆瓣抓站源代碼
[抓站源代碼鏈接](https://github.com/Andrew-liu/dou_ban_spider)
[個人使用的Python編碼規范]
[python正則表達式小計]
- Python爬蟲入門
- (1):綜述
- (2):爬蟲基礎了解
- (3):Urllib庫的基本使用
- (4):Urllib庫的高級用法
- (5):URLError異常處理
- (6):Cookie的使用
- (7):正則表達式
- (8):Beautiful Soup的用法
- Python爬蟲進階
- Python爬蟲進階一之爬蟲框架概述
- Python爬蟲進階二之PySpider框架安裝配置
- Python爬蟲進階三之Scrapy框架安裝配置
- Python爬蟲進階四之PySpider的用法
- Python爬蟲實戰
- Python爬蟲實戰(1):爬取糗事百科段子
- Python爬蟲實戰(2):百度貼吧帖子
- Python爬蟲實戰(3):計算大學本學期績點
- Python爬蟲實戰(4):模擬登錄淘寶并獲取所有訂單
- Python爬蟲實戰(5):抓取淘寶MM照片
- Python爬蟲實戰(6):抓取愛問知識人問題并保存至數據庫
- Python爬蟲利器
- Python爬蟲文章
- Python爬蟲(一)--豆瓣電影抓站小結(成功抓取Top100電影)
- Python爬蟲(二)--Coursera抓站小結
- Python爬蟲(三)-Socket網絡編程
- Python爬蟲(四)--多線程
- Python爬蟲(五)--多線程續(Queue)
- Python爬蟲(六)--Scrapy框架學習
- Python爬蟲(七)--Scrapy模擬登錄
- Python筆記
- python 知乎爬蟲
- Python 爬蟲之——模擬登陸
- python的urllib2 模塊解析
- 蜘蛛項目要用的數據庫操作
- gzip 壓縮格式的網站處理方法
- 通過瀏覽器的調試得出 headers轉換成字典
- Python登錄到weibo.com
- weibo v1.4.5 支持 RSA協議(模擬微博登錄)
- 搭建Scrapy爬蟲的開發環境
- 知乎精華回答的非專業大數據統計
- 基于PySpider的weibo.cn爬蟲
- Python-實現批量抓取妹子圖片
- Python庫
- python數據庫-mysql
- 圖片處理庫PIL
- Mac OS X安裝 Scrapy、PIL、BeautifulSoup
- 正則表達式 re模塊
- 郵件正則
- 正則匹配,但過濾某些字符串
- dict使用方法和快捷查找
- httplib2 庫的使用