關閉

                  一文談談我對Python爬蟲的理解(1)

                  發表于:2021-10-18 09:37

                  字體: | 上一篇 | 下一篇 | 我要投稿

                   作者:howie6879    來源:思否

                    不知從何時起,Python這門語言和爬蟲就像一對戀人,二者如膠似漆 ,形影不離,你中有我、我中有你,一提起爬蟲,就會想到Python,一說起Python,就會想到人工智能……和爬蟲
                    所以,一般說爬蟲的時候,大部分程序員潛意識里都會聯想為Python爬蟲,為什么會這樣,我覺得有兩個原因:
                    ·Python生態極其豐富,諸如Request、Beautiful Soup、Scrapy、PySpider等第三方庫實在強大
                    ·Python語法簡潔易上手,分分鐘就能寫出一個爬蟲(有人吐槽Python慢,但是爬蟲的瓶頸和語言關系不大)
                    任何一個學習Python的程序員,應該都或多或少地見過甚至研究過爬蟲,我當時寫Python的目的就非常純粹——為了寫爬蟲。所以本文的目的很簡單,就是說說我個人對Python爬蟲的理解與實踐,作為一名程序員,我覺得了解一下爬蟲的相關知識對你只有好處,所以讀完這篇文章后,如果能對你有幫助,那便再好不過

                    什么是爬蟲
                    爬蟲是一個程序,這個程序的目的就是為了抓取萬維網信息資源,比如你日常使用的谷歌等搜索引擎,搜索結果就全都依賴爬蟲來定時獲取。

                    看上述搜索結果,除了wiki相關介紹外,爬蟲有關的搜索結果全都帶上了Python,前人說Python爬蟲,現在看來果然誠不欺我~
                    爬蟲的目標對象也很豐富,不論是文字、圖片、視頻,任何結構化非結構化的數據爬蟲都可以爬取,爬蟲經過發展,也衍生出了各種爬蟲類型:
                    ·通用網絡爬蟲:爬取對象從一些種子 URL 擴充到整個 Web,搜索引擎干的就是這些事
                    ·垂直網絡爬蟲:針對特定領域主題進行爬取,比如專門爬取小說目錄以及章節的垂直爬蟲
                    ·增量網絡爬蟲:對已經抓取的網頁進行實時更新
                    ·深層網絡爬蟲:爬取一些需要用戶提交關鍵詞才能獲得的 Web 頁面
                    不想說這些大方向的概念,讓我們以一個獲取網頁內容為例,從爬蟲技術本身出發,來說說網頁爬蟲,步驟如下:
                    ·模擬請求網頁資源
                    從HTML提取目標元素
                    ·數據持久化
                    什么是爬蟲,這就是爬蟲:
                  """讓我們根據上面說的步驟來完成一個簡單的爬蟲程序"""
                  import requests

                  from bs4 import BeautifulSoup

                  target_url = 'http://www.baidu.com/s?wd=爬蟲'

                  # 第一步 發起一個GET請求
                  res = requests.get(target_url)

                  # 第二步 提取HTML并解析想獲取的數據 比如獲取 title
                  soup = BeautifulSoup(res.text, "lxml")
                  # 輸出 soup.title.text
                  title = soup.title.text

                  # 第三步 持久化 比如保存到本地
                  with open('title.txt', 'w') as fp:
                      fp.write(title)

                    加上注釋不到20行代碼,你就完成了一個爬蟲,簡單吧~

                    本文內容不用于商業目的,如涉及知識產權問題,請權利人聯系51Testing小編(021-64471599-8017),我們將立即處理
                  《2023軟件測試行業現狀調查報告》獨家發布~

                  關注51Testing

                  聯系我們

                  快捷面板 站點地圖 聯系我們 廣告服務 關于我們 站長統計 發展歷程

                  法律顧問:上海蘭迪律師事務所 項棋律師
                  版權所有 上海博為峰軟件技術股份有限公司 Copyright©51testing.com 2003-2024
                  投訴及意見反饋:webmaster@51testing.com; 業務聯系:service@51testing.com 021-64471599-8017

                  滬ICP備05003035號

                  滬公網安備 31010102002173號

                  亚洲欧洲自拍图片专区123_久久久精品人妻无码专区不卡_青青精品视频国产色天使_A免看的日黄亚洲