Ir para o conteúdo

Data Pipeline#

Nessa página, nós vamos descrever a pipeline de dados usados para gerar o dataset.

Fonte de dados#

Coletamos comentários de diferentes fontes, como Twitter, YouTube e conjuntos de dados relacionados.

Para cada rede social (Twitter e YouTube), definimos um conjunto de perfis públicos que consideramos relevantes para o tema.

Além disso, usamos textos em Português do Brasil de outros conjuntos de dados, como:

Arquitetura#

O seguinte diagrama mostra a arquitetura da pipeline de dados.

Arquitetura - Fonte: Elaborada pelo autor.

Filtragem#

Nós queremos filtrar comentários que não sejam relevantes para o escopo do dataset. Para isso, definimos alguns critérios que cada comentário deve possuir.

  • Comentários devem ser em português.
  • Comentários devem ter um nível de toxicidade (medido pela Perspective API) maior que 0.5.

Privacidade#

Para garantir a privacidade dos usuários, nós aplicaremos algumas regras de anonimização dos dados diretamente na pipeline de dados.

  • Usuários mencionados foram substituídos pelo texto "@USER".
  • URLs foram substituídos pelo texto "URL".

Última atualização: 1 de março de 2023