關閉

                  一文談談我對Python爬蟲的理解(3)

                  發表于:2021-10-20 09:51

                  字體: | 上一篇 | 下一篇 | 我要投稿

                   作者:howie6879    來源:思否

                  #
                  Python
                    如何進階
                    不要以為寫好一個爬蟲程序就可以出師了,此時還有更多的問題在前面等著你,你要含情脈脈地看著你的爬蟲程序,問自己三個問題:
                    ·爬蟲抓取數據后是正當用途么?
                    ·爬蟲會把目標網站干掉么?
                    ·爬蟲會被反爬蟲干掉么?
                    前兩個關于人性的問題在此不做過多敘述,因此跳過,但你們如果作為爬蟲工程師的話,切不可跳過。

                    會被反爬蟲干掉么?
                    最后關于反爬蟲的問題才是你爬蟲程序強壯與否的關鍵因素,什么是反爬蟲?
                    當越來越多的爬蟲在互聯網上橫沖直撞后,網頁資源維護者為了防止自身數據被抓取,開始進行一系列的措施來使得自身數據不易被別的程序爬取,這些措施就是反爬蟲。
                    比如檢測IP訪問頻率、資源訪問速度、鏈接是否帶有關鍵參數、驗證碼檢測機器人、ajax混淆、js加密等等。
                    對于目前市場上的反爬蟲,爬蟲工程師常有的反反爬蟲方案是下面這樣的:
                    ·不斷試探目標底線,試出單IP下最優的訪問頻率
                    ·構建自己的IP代理池
                    ·維護一份自己常用的UA庫
                    ·針對目標網頁的Cookie池
                    ·需要JS渲染的網頁使用無頭瀏覽器進行代碼渲染再抓取
                    ·一套破解驗證碼程序
                    ·扎實的JS知識來破解混淆函數
                    爬蟲工程師的進階之路其實就是不斷反反爬蟲,可謂艱辛,但換個角度想也是樂趣所在~

                    關于框架
                    爬蟲有自己的編寫流程和標準,有了標準,自然就有了框架,像Python這種生態強大的語言,框架自然是多不勝數,目前世面上用的比較多的有:
                    ·Scrapy
                    ·PySpider
                    ·Portia
                    這里不過多介紹,框架只是工具,是一種提升效率的方式,看你選擇。

                    說明
                    任何事物都有兩面性,爬蟲自然也不例外,因此我送諸位一張圖,關鍵時刻好好想想~

                    本文內容不用于商業目的,如涉及知識產權問題,請權利人聯系51Testing小編(021-64471599-8017),我們將立即處理
                  《2023軟件測試行業現狀調查報告》獨家發布~

                  關注51Testing

                  聯系我們

                  快捷面板 站點地圖 聯系我們 廣告服務 關于我們 站長統計 發展歷程

                  法律顧問:上海蘭迪律師事務所 項棋律師
                  版權所有 上海博為峰軟件技術股份有限公司 Copyright©51testing.com 2003-2024
                  投訴及意見反饋:webmaster@51testing.com; 業務聯系:service@51testing.com 021-64471599-8017

                  滬ICP備05003035號

                  滬公網安備 31010102002173號

                  亚洲欧洲自拍图片专区123_久久久精品人妻无码专区不卡_青青精品视频国产色天使_A免看的日黄亚洲