Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Manutenção] Corrigir raspador para Niterói-RJ #1301

Open
3 tasks
ogecece opened this issue Oct 15, 2024 · 0 comments
Open
3 tasks

[Manutenção] Corrigir raspador para Niterói-RJ #1301

ogecece opened this issue Oct 15, 2024 · 0 comments
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário spider Adiciona robô raspador para município(s)

Comments

@ogecece
Copy link
Member

ogecece commented Oct 15, 2024

O raspador para Niterói-RJ não coleta diários em produção desde 2024-09-06.

O site que funcionava em https://www.niteroi.rj.gov.br/do.html mudou para https://diariooficial.niteroi.rj.gov.br/ e as URLs de documento que atendiam o formato http://www.niteroi.rj.gov.br/wp-content/uploads/do/{%Y}/{%m}_{%b}/{%d}.pdf também mudaram.

Por isso, é necessário:

  • Reescrever o arquivo do raspador para atualizar seu código para coletar diários oficiais do novo site.

Missões secundárias (se der pra fazer também):

  • Método .parse() está fazendo o papel de .start_requests(). Poderíamos fazer o uso mais apropriado dos dois métodos e também remover o .start_urls que não está sendo usado.
  • Lógica de iteração por datas no método .parse() poderia fazer uso de dateutil.rrule assim como é feito em Rondonópolis-MT
@ogecece ogecece added spider Adiciona robô raspador para município(s) priority Issue endereça algo prioritário maintenance Demanda de manutenção labels Oct 15, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário spider Adiciona robô raspador para município(s)
Projects
Status: novo
Development

No branches or pull requests

1 participant