Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Lista de características para implementar #13

Open
13 of 14 tasks
AndreaSanchezTapia opened this issue Mar 7, 2018 · 3 comments
Open
13 of 14 tasks

Lista de características para implementar #13

AndreaSanchezTapia opened this issue Mar 7, 2018 · 3 comments

Comments

@AndreaSanchezTapia
Copy link
Member

AndreaSanchezTapia commented Mar 7, 2018

  • metadados da rodada: um resumo da informação de cada rodada (sp, n, desenho, nback)
  • testes de que os metadados condizem com o que acaba de ser pedido
  • projeções (issue Implementar projeções #8)
  • filtro ambiental -com distância euclideana
  • filtro geográfico com spthin()
  • filtro geográfico com geo_filt() do diogo
  • plot do dataset opcional - voltar a guardar sdmdata.txt
  • separar a geração do dataset da modelagem
  • voltar às outras maneiras de fazer final_model() mas com condições
  • idem ensemble - mean, max, min.
  • implementar diferentes desenhos (issue Implementar 'rodadas' de partições.  #6)
  • parametros variáveis entre espécies
  • revisão geral dos métodos de avaliação, final, ensemble ¬¬ !
  • distância euclideana
@AndreaSanchezTapia
Copy link
Member Author

AndreaSanchezTapia commented May 14, 2018

  • tamanho do pacote
  • exemplo do buffer está muito demorado
  • documentar o ellipse (...)

@AndreaSanchezTapia
Copy link
Member Author

AndreaSanchezTapia commented Jun 20, 2018

  • brt

@AndreaSanchezTapia
Copy link
Member Author

AndreaSanchezTapia commented Dec 20, 2019

Novembro - dezembro 2019

  • final_model tem que criar a tabela com os valores médios dos algoritmos
    criar metadados em cada fase do workflow
  • do_any metadados
  • final metadados
  • ensemble metadados

Documentacao

  • documentar a criação da nova tabela (eval_mod)
  • e a formatação de th_table/evaluate. Fscore, Jaccard.
  • idem na software note

Buffer

  • env_dist_min implementado
  • nos tests: se a pessoa não botar buffer_type a função tem que funcionar (resolvi com um “none” tosco)
  • se a pessoa não indicar distancia maxima nem minima na hora de botar env_dist tem que dar erro
  • se ambas sao pedidas a distancia maxima tem que ser maior à distancia mínima
  • decidir se max_env_dist sai ou se a gente testa e decide depois SAI
  • se a pessoa só quer uma das duas distancias a função TEM que funcionar. (mas isto é assumindo que a gente vai manter max_env_dist)
  • se a pessoa bota as duas distâncias NAO tá funcionando BEM porque os valores da distancia euclidiana são muito loucos mas muito. o problema atual está aqui https://rpubs.com/andreasancheztapia/551901 a distancia euclidiana tem uma distribuição tão maluca que aplicar um limiar (sob forma de quantil) tipo 0.5 para a distância máxima e 0.05 para a distância mínima ainda dá muito estranho e isto varia com a extensao/resolucao das camadas explicativas (o numero de pixeis afinal). Uma distância máxima arbitrária (sob forma de x desvios padrão, ou de algum quantil mesmo) vai ser necessária antes de aplicar estes quantis. inclusive se a gente deixar só min_dist, o 5% mais próximo ambientalmente (removido) pode ser qualquer coisa, e pode ser muito grande
  • editar no software note
  • o parâmetro max_env_dist ainda serve para botar uma distância máxima
  • atualizar a figura de buffer_table.pdf só quando a gente tiver decidido

FINAL

  • tirar a selecao e a ponderacao
  • os parametros estao confusos - sobre tudo aquele que pode ser numérico cut_level, se confunde com o outro (sel_par?)
  • renomeei cut_level para mean_th_par, mantive o mesmo threshold o que corta os raw_mean e o que cria os binários (segunda coluna da figura)
  • documentar
  • aquela opcao de cut_level ser numérico tinha que ir embora.
  • cut_mean deve sair #polêmica ele se parece tanto a cut_mean_th mas com uns thresholds meio difusos…. se bobear é até igual ¬¬ vou checar isso
  • atualizar a figura de final model 😬
  • 191124 tirei cut_mean mesmo e acabei falando o seguinte: a partir dos raw_mean, pode-se fazer uma estratégia de mean first, cut later, que é a sequencia raw_mean -> pegar a media do threshold -> cortar -> recuperar ou não. ou uma estratégia de cut first (aí gera os binários) mean later (aí gera os consensos, ou um consenso) e fecha. daí a figura (figuraaaaaaaa :party_parrot:) ficaria só com duas colunas- do raw para abaixo, e do raw para o binario e daí para abaixo

ensemble

  • ler a tabela das estatísticas médias
  • deve ter um jeito de selecionar o melhor algoritmo de acordo com alguma métrica uma opção “best” uma opção “métrica” Só ficou best por uma métrica enquanto
  • implementar PCA (é basicamente pegar todos os final, fazer um PCA, extrair o primeiro eixo -> to editando aqui bestamente nao importa nao termos este histórico
  • quais consensos fora uma média (ponderada ou não) implementar?
  • marmion…
  • acabou sendo “best”, “average”, “weighted_average”, “median”, “pca” e um “frequency”, “consensus” .(que é a média dos binários, um consenso mesmo
  • está faltando uma seleção por performance metric (booleano?)
  • está com muito código repetido, comentado
  • está com parametros demais (velhos) tirar
  • não está devolvendo um stack mas só fazendo um por vez- dá até para deixar assim, na real, mas não é o que fazemos u_u. tipo a pessoa sempre pôde usar c("metodo2", "metodo4") ou qualquer vetor de nomes que preferisse.
  • vignette atualizada
  • 191126: AVALIAR ESTES ENSEMBLES. ler sdmdata. rodar evaluate, threshold para cada particao gerar as mesmas tabelas:facepalm:

sobre parametrizaçao e uso do HD - a gente sempre faz opcional a escrita de alguns outputs.
todos os pngs são opcionais (plot_sdmdata, write_png, write_final, write_ensemble (+ write_map + write_occs) às vezes os rasters - write_buffer, write_bin_cut. os rasters dos raw, final e ensemble não são opcionais.
Acho que a gente deveria usar write_png para todos ou png_sdmdata, png_any, png_final, png_ensemble. write sempre me causa a confusão de estarmos escrevendo os modelosem tif no disco.
então:

  • png_sdmdata, png_partitions, png_final, png_ensemble

TESTES

Firulas not firulas

  • checks
  • Travis
  • codecov
  • Remover maxent da vinheta (editar readme também :P)
  • Remover maxent de testthat e exemplos
  • remover glm também

@AndreaSanchezTapia AndreaSanchezTapia pinned this issue Dec 3, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant