Estou trabalhando em uma escala menor e pretendo raspar de 100 a 1000 resultados de pesquisa por dia. Apenas os primeiros ~5 links por pesquisa. Qual motor de busca devo usar para raspar? Qual não exigiria proxy ou VPN.
Nunca tentei, mas honestamente não acho que o Google vá te dar muitos problemas se você não bombardear com milhares de requisições paralelas do mesmo IP. Existem várias raspadoras de SERP por aí, então não deve ser tão difícil
Se encontrar problemas, pode tentar https://duckduckgo.com ou https://www.startpage.com
Para esses números, usar a API do Google Search é a melhor opção.
Brave Search tem uma API. Pode valer a pena dar uma olhada.
Qualquer um, 100-1000 resultados por dia não é muito, mas quando falamos de 100-1000 requisições por dia, pode dar alguns problemas, acho que nesse caso é DuckDuckGo.
Tudo que você precisa são proxies residenciais e você não precisa se preocupar com isso. Você praticamente precisa usar proxies para qualquer tipo de raspagem em grande escala.
Acho que é o googlesearch-python. Consegui fazer de 120 a 150 buscas com 5 links cada antes de ser expulso. Se usar alguns proxies ou mudar o timing, pode conseguir usar.
Quero dizer que a API do motor de busca Yandex permite 1000 requisições por dia gratuitamente.
Claro, mas isso é pago novamente. Por isso estou recorrendo ao scraping.
Então você está dizendo que o DuckDuckGo não teria problema com esses números?
Por favor, revise as regras do sub ![]()
Bem-vindo ao r/webscraping! Referenciar produtos ou serviços pagos não é permitido, e sua postagem foi removida. Por favor, reserve um momento para revisar o guia de promoções. Você também pode querer reenviar sua postagem para o fio mensal.
Você também pode conferir o motor de busca do Brave.
Então, como você pretende obter proxies residenciais/móveis gratuitamente? Você certamente será banido após algum acesso programático.
Acho que isso dará menos problemas do que qualquer outro motor de busca.
Já tenho alguns proxies residenciais que uso para outros crawlers, embora eles estejam pré-banned para o crawleo do Google.
Obrigado, até agora sem problemas!