Skip to content
This repository has been archived by the owner on Mar 23, 2023. It is now read-only.

converter HTML antes da limpeza #45

Open
ppKrauss opened this issue Apr 9, 2017 · 0 comments
Open

converter HTML antes da limpeza #45

ppKrauss opened this issue Apr 9, 2017 · 0 comments

Comments

@ppKrauss
Copy link

ppKrauss commented Apr 9, 2017

A inclusão de um arquivo HTML como campo XML no PostgreSQL requer que o conteúdo seja rastreável, vinculado ao original, e que indícios estatísticos de marcação possam ser resgatados. Os principais indícios vem do CSS e da marcação de layout, incluindo formatações sub, sup, bold, italico, etc. que também podem ser transformadas em marcações CSS.

Para tanto o texto original, depois de convertido para XML, precisa ser submetido a um conversor, que leva todas as propriedades CSS para o atributo style de cada tag onde foi previsto o seu uso.

Entre os mais utilizados estão:

Em seguida, depois de eliminadas propriedades espúrias (ex. animação de fontes), um novo CSS é reconstruído — fazendo uso de algoritmos similares ao CSSout — para arquivar como "assinatura de estilo" nas estatísticas, e as marcações básicas (bold, sub, sup, etc.) são realizadas para eliminação final do CSS.


PS: CSSout faz o inverso, leva do CSS-inline para a marcação otimizada.

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant