
做爬蟲,特別是python寫說容易挺容易,說難也挺難的,舉個栗子 簡單的:將http://paste.ubuntu.com上面的所有代碼爬下來寫個for循環,調用urllib2的幾個函數就成了,基本10行到20行以內的代碼難度0情景:1.網站服務器很卡,有些頁面打不開,urlopen直接就無限卡死在了某些頁面上(2.6以后urlopen有了timeout)2.爬下來的網站出現亂碼,你得分析網頁的編碼3.網頁用了gzip壓縮,你是要在header里面約定好默認不壓縮還是頁面下載完畢后自己解壓4.你的爬蟲太快了,被服務器要求停下來喝口茶5.服務器不喜歡被爬蟲爬,會對對header頭部瀏覽器信息進行分析,如何偽造6.爬蟲整體的設計,用bfs爬還是dfs爬7.如何用有效的數據結構儲存url使得爬過的頁面不被重復爬到8.比如1024之類的網站(逃,你得登錄后才能爬到它的內容,如何獲取cookies以上問題都是寫爬蟲很常見的,由于python強大的庫,略微加了一些代碼而已難度1情景:1.還是cookies問題,網站肯定會有一個地方是log out,爬蟲爬的過程中怎樣避免爬到各種Log out導致session失效2.如果有驗證碼才能爬到的地方,如何繞開或者識別驗證碼3.嫌速度太慢,開50個線程一起爬網站數據難度2情景:1.對于復雜的頁面,如何有效的提取它的鏈接,需要對正則表達式非常熟練2.有些標簽是用Js動態生成的,js本身可以是加密的,甚至奇葩一點是jsfuck,如何爬到這些難度3總之爬蟲最重要的還是模擬瀏覽器的行為,具體程序有多復雜,由你想實現的功能和被爬的網站本身所決定爬蟲寫得不多,暫時能想到的就這么多,歡迎補充
【網絡爬蟲 python 畢業論文呢】
猜你喜歡
- 網絡用語315是什么意思
- 網絡的危害
- win7啟用網絡發現失敗解決方法 win7啟用網絡發現失敗解決方法介紹
- 百度廣播開放平臺的文字轉語音用來為自己的視頻配音,上傳到網絡的,可以的嗎?
- 網絡用語薩日朗什么意思
- 如何在網絡上投稿賺錢
- 哪位親知道山東大學網絡繼續教育一年學費多少錢?
- 為什么手機網絡無法連接
- 手機有網絡連接 不能上網是什么原因
- ios13網絡不穩定怎么解決
