Data Pipeline#

Nessa página, nós vamos descrever a pipeline de dados usados para gerar o dataset.

Fonte de dados#

Coletamos comentários de diferentes fontes, como Twitter, YouTube e conjuntos de dados relacionados.

Para cada rede social (Twitter e YouTube), definimos um conjunto de perfis públicos que consideramos relevantes para o tema.

Além disso, usamos textos em Português do Brasil de outros conjuntos de dados, como:

rogersdepelle/OffComBR: Here we provide a data set of web comments which have been annotated for hate speech.
paulafortuna/Portuguese-Hate-Speech-Dataset: A Hierarchically-Labeled Portuguese Hate Speech Dataset
LaCAfe/Dataset-Hatespeech: Hate Speech Detection Dataset
JAugusto97/ToLD-Br: Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis

Arquitetura#

O seguinte diagrama mostra a arquitetura da pipeline de dados.

Filtragem#

Nós queremos filtrar comentários que não sejam relevantes para o escopo do dataset. Para isso, definimos alguns critérios que cada comentário deve possuir.

Comentários devem ser em português.
Comentários devem ter um nível de toxicidade (medido pela Perspective API) maior que 0.5.

Privacidade#

Para garantir a privacidade dos usuários, nós aplicaremos algumas regras de anonimização dos dados diretamente na pipeline de dados.

Usuários mencionados foram substituídos pelo texto "@USER".
URLs foram substituídos pelo texto "URL".

Última atualização: 1 de março de 2023