400-650-7353

精品課程

分布式爬蟲(chóng)需要用多臺(tái)主機(jī)嗎 Python基礎(chǔ)分布式爬蟲(chóng)需要用多臺(tái)主機(jī)嗎

發(fā)布: Python培訓(xùn) 發(fā)布時(shí)間:2023-05-26 17:55:27

推薦答案
品牌型號(hào):聯(lián)想小新Pro16/系統(tǒng)版本:windows10

需要,分布式爬蟲(chóng)需要用多臺(tái)主機(jī)。

分布式爬蟲(chóng)是指在多個(gè)計(jì)算機(jī)上部署爬蟲(chóng)程序,共享隊(duì)列,去重,讓多個(gè)爬蟲(chóng)不爬取其他爬蟲(chóng)爬取過(guò)的內(nèi)容,從而實(shí)現(xiàn)實(shí)現(xiàn)聯(lián)合采集,是一種提高爬取效率的方法。相對(duì)應(yīng)的就是單機(jī)爬蟲(chóng),單機(jī)爬蟲(chóng)是指只在一臺(tái)服務(wù)器上部署爬蟲(chóng)程序,單機(jī)爬蟲(chóng)是使用本地電腦發(fā)出http請(qǐng)求,是一種反爬策略,可以突破ip限制。

分布式怕成的原理為:Spiders每個(gè)爬蟲(chóng)的調(diào)度器都從隊(duì)列中取出請(qǐng)求和存入請(qǐng)求。生成的請(qǐng)求經(jīng)由Scheduler調(diào)度器發(fā)送給Downloader下載器。下載器下載所需要的網(wǎng)絡(luò)數(shù)據(jù),再用Scheduler從隊(duì)列里取出請(qǐng)求。而scrapy-redis是建立一個(gè)redis隊(duì)列,實(shí)現(xiàn)多個(gè)爬蟲(chóng),多臺(tái)機(jī)器同時(shí)爬取的目標(biāo)。

其它答案
冰闊落 2020-06-22 18:56:36

一臺(tái)主機(jī)可以保證30個(gè)左右的從機(jī)的URL供應(yīng),所以分布式爬蟲(chóng)只需要一臺(tái)計(jì)算機(jī)作為主機(jī)就夠用了。

中公旗下IT培訓(xùn)品牌

  • 中公教育品牌

     中公教育是一家中國(guó)領(lǐng)先的全品類(lèi)職業(yè)教育機(jī)構(gòu),提供超過(guò)100個(gè)品類(lèi)的綜合職業(yè)就業(yè)培訓(xùn)服務(wù)。公司在全國(guó)超過(guò)1000個(gè)直營(yíng)網(wǎng)點(diǎn)展開(kāi)經(jīng)營(yíng),深度覆蓋300多個(gè)地級(jí)市,并正在快速向數(shù)千個(gè)縣城和高校擴(kuò)張。

  • 完善就業(yè)體系

    通過(guò)階段性授課機(jī)制,和每階段的定期考核,先讓學(xué)員能夠?qū)W會(huì)所學(xué)內(nèi)容,才能找打合適工作。最后一個(gè)階段為就業(yè)課程,從技術(shù)和面試兩個(gè)方面加深就業(yè)能力,并且還有不定期的雙選會(huì)供大家選擇。

  • 全程面授+實(shí)戰(zhàn)技術(shù)

    線下課程全程是師資面對(duì)面教學(xué),不會(huì)存在上課只對(duì)著大屏幕上課的情況,有問(wèn)題都可以在課上得到解答。并且優(yōu)就業(yè)通過(guò)自主研發(fā)大綱和學(xué)習(xí)路線,并且定期更新課程所學(xué)技術(shù),讓大家所學(xué)技術(shù)不落伍。

中公優(yōu)就業(yè)專(zhuān)業(yè)職業(yè)規(guī)劃老師

為您詳細(xì)答疑解惑,更能領(lǐng)取免費(fèi)課程

相關(guān)問(wèn)題

更多課程

專(zhuān)業(yè)課程老師將第一時(shí)間為您解答

立即答疑
修改
優(yōu)就業(yè):ujiuye

關(guān)注中公優(yōu)就業(yè)官方微信

  • 關(guān)注微信回復(fù)關(guān)鍵詞“大禮包”,領(lǐng)80G學(xué)習(xí)資料