Python爬蟲框架，哪個更好知乎

6個回答

匿名使用者2024-02-06

1.scrapy：是乙個為了捕捉最佳資料並提取資料的結構資料而編寫的應用框架，可以應用於包括資料探勘、資訊處理或歷史資料儲存在內的一系列程式中，並且可以通過這個框架輕鬆爬下各種資訊資料。

2. Pyspider：是用python實現的一款功能強大的網路爬蟲系統，可以在瀏覽器介面編寫指令碼，實時排程功能並檢視爬蟲結果，使用後端常用的資料庫來儲存爬蟲結構，還可以定期設定任務和任務優先順序。

4. Portia：它是乙個開源的視覺化爬蟲工具，允許你在沒有任何程式設計知識的情況下進行抓取，只需注釋你感興趣的頁面，並建立乙個爬蟲來從相似的頁面抓取資料。

6.Beautiful Soup：是乙個Python庫，可以從HTML或XML檔案中提取資料，可以通過自己喜歡的轉換器實現習慣的文件導航、查詢、修改文件; 同時，它可以為您節省數小時甚至數天的工作時間。

7. Grab：是乙個用於建立網頁抓取工具的 Python 框架，借助 Grab，您可以建立各種複雜的網頁抓取工具，從簡單的五行指令碼到處理數萬個網頁的複雜非同步抓取工具。 Grab 提供了乙個 API，用於執行網路請求和處理接收到的內容。

8. COLA：是乙個分布式爬蟲框架，對於使用者來說，只需要編寫幾個具體的功能，不用關注分布式操作的細節，任務就會自動分發到多台機器上，整個過程對使用者是透明的。
匿名使用者2024-02-05

它很有名，整合了一些常用的爬蟲需求。缺點：無法載入 js。

scrapy。
匿名使用者2024-02-04

它很有名，整合了一些常用的爬蟲需求。缺點：無法載入 js。

scrapy。
匿名使用者2024-02-03

beautiful soup。它很有名，整合了一些常用的爬蟲需求。缺點：無法載入 js。

scrapy。看起來像乙個強大的爬蟲框架，可以滿足簡單頁面抓取的需求（例如，當可以明確知道 URL 模式時）。這個框架可以很容易地爬下亞馬遜列表等資料。

但對於稍微複雜的頁面，比如微博的頁面資訊，這個框架並不能滿足需求。

mechanize。優點：可以載入JS。缺點：文件嚴重缺失。然而，通過官方的例子和人肉嘗試的方法，它仍然勉強可用。

selenium。這是乙個呼叫瀏覽器的驅動程式，通過這個庫可以直接呼叫瀏覽器來完成某些操作，比如輸入驗證碼。

cola。分布式爬網程式框架。專案整體設計有點差，模組間耦合度高，但值得學習。

以下是我的一些實踐經驗：

對於簡單的需求，例如具有固定模式的資訊，可以做任何事情。

對於比較複雜的需求，比如抓取動態頁面、涉及狀態轉換、涉及反爬蟲機制、涉及高併發等，在這種情況下很難找到滿足需求的庫，很多東西只能自己寫。

至於題主提到的：

另外，與直接使用內建庫相比，使用現有的 Python 爬蟲框架有什麼優勢？因為python本身編寫爬蟲已經非常簡單了。

第三方庫可以做內建庫不能或難以做到的事情，僅此而已。另外，爬蟲並不簡單，它完全取決於需求，與python無關。
匿名使用者2024-02-02

scrapy：是乙個為抓取資料和提取結構資料而編寫的應用程式框架。它可以應用於一系列程式，包括資料探勘、資訊處理或歷史資料的儲存; 這個框架可以很容易地爬下亞馬遜列表等資料。

PySpider：是用python實現的一款功能強大的網路爬蟲系統，可以在瀏覽器介面編寫指令碼，實時排程功能並檢視抓取結果，使用後台常用的資料庫來儲存爬蟲結果，還可以定期設定任務和任務優先順序。

Portia：是一款開源的視覺化抓取工具，讓你無需任何程式設計知識即可抓取**，只需對你感興趣的頁面進行註解，Portia就會建立乙個爬蟲，從相似的頁面中提取資料。

Beautiful Soup：是乙個 Python 庫，可以從 HTML 或 XML 檔案中提取資料，它可以通過在您喜歡的轉換器中導航、查詢和修改文件來幫助您節省數小時甚至數天的工作時間。
匿名使用者2024-02-01

1.刮牙

Scrapy 框架是乙個比較成熟的 Python 爬蟲操作和閉包框架，是 Python 開發的一款快速、高階的資訊爬蟲框架，可以高效抓取網頁，提取結構化資料。

Scrapy的應用範圍很廣，如爬蟲開發、資料探勘、資料監控破解、自動化測試等。

2. 皮蜘蛛

它是中國人用 python 編寫的強大網路爬蟲框架。主要特點如下：

1.強大的WebUI，包括：指令碼編寫器，任務監視器，專案管理器和結果檢視器;

2、多資料庫支援，包括：MySQL、MongoDB、Redis、SQLITE、Elasticsearch; PostgreSQL 與 SQLLalchemy 等;

3. 使用 rabbitmq、beanstalk、redis 和 kombu 作為訊息佇列;

4、支援任務優先順序設定、定時任務、失敗後重試等;

5.支援分布式爬蟲。

3. 克勞利

高速抓取對應的**內容，支援關係型和非關係型棚資料庫，資料可匯出為JSON、XML等。

相關回答

python2 X 和 python3 X 資料型別有什麼區別？

8個回答2024-02-25

刪除了 long 型別，現在只有乙個整數 int，但它的行為類似於 long 的乙個版本 >>>More

python目錄下MySQL的資料夾

10個回答2024-02-25

python install

新增環境變數（路徑應填寫在您自己的 python 目錄中的 scripts 資料夾中）。 >>>More

手機Python平台，3230自帶嗎

14個回答2024-02-25

不，您可以通過第三方軟體自行解決。

去哪裡參加 python 課程

20個回答2024-02-25

學習python課程去【達耐教育】，該機構python培訓擁有一支具有豐富教學經驗的教師團隊。他不僅有豐富的教學經驗，而且在python專案方面也有豐富的實踐經驗。教師將從模擬的python專案入手，依託真實的python業務專案進行實踐培訓。 >>>More

Python值得學習嗎學完之後到底能做什麼

7個回答2024-02-25

Python具有易學、免費開源、高階語言、超強可移植性、可擴充套件性、物件導向、可嵌入、庫豐富、標準化等特點。 Python可以說是全能的，除了極少量的開發：系統運維、圖形處理、數學處理、文字處理、資料庫程式設計、網路程式設計、Web程式設計、多**應用、PYMO引擎、爬蟲編寫、機器學習、人工智慧等等。 >>>More