網絡爬蟲 python 畢業論文呢


網絡爬蟲 python 畢業論文呢


做爬蟲,特別是python寫說容易挺容易,說難也挺難的,舉個栗子 簡單的:將http://paste.ubuntu.com上面的所有代碼爬下來寫個for循環,調用urllib2的幾個函數就成了,基本10行到20行以內的代碼難度0情景:1.網站服務器很卡,有些頁面打不開,urlopen直接就無限卡死在了某些頁面上(2.6以后urlopen有了timeout)2.爬下來的網站出現亂碼,你得分析網頁的編碼3.網頁用了gzip壓縮,你是要在header里面約定好默認不壓縮還是頁面下載完畢后自己解壓4.你的爬蟲太快了,被服務器要求停下來喝口茶5.服務器不喜歡被爬蟲爬,會對對header頭部瀏覽器信息進行分析,如何偽造6.爬蟲整體的設計,用bfs爬還是dfs爬7.如何用有效的數據結構儲存url使得爬過的頁面不被重復爬到8.比如1024之類的網站(逃,你得登錄后才能爬到它的內容,如何獲取cookies以上問題都是寫爬蟲很常見的,由于python強大的庫,略微加了一些代碼而已難度1情景:1.還是cookies問題,網站肯定會有一個地方是log out,爬蟲爬的過程中怎樣避免爬到各種Log out導致session失效2.如果有驗證碼才能爬到的地方,如何繞開或者識別驗證碼3.嫌速度太慢,開50個線程一起爬網站數據難度2情景:1.對于復雜的頁面,如何有效的提取它的鏈接,需要對正則表達式非常熟練2.有些標簽是用Js動態生成的,js本身可以是加密的,甚至奇葩一點是jsfuck,如何爬到這些難度3總之爬蟲最重要的還是模擬瀏覽器的行為,具體程序有多復雜,由你想實現的功能和被爬的網站本身所決定爬蟲寫得不多,暫時能想到的就這么多,歡迎補充
【網絡爬蟲 python 畢業論文呢】

    猜你喜歡