Get Started
O dataset está disponível no Kaggle e no Hugging Face.
Kaggle#
Você pode ver o conjunto de dados em OLID-BR | Kaggle.
O código abaixo mostra como baixar o conjunto de dados usando a API Kaggle.
1 2 3 4 5 | |
Hugging Face#
Você pode ver o dataset OLID-BR em dougtrajano/olid-br · Datasets at Hugging Face.
1 2 | |
Arquivos do conjunto de dados#
O conjunto de dados é composto pelos seguintes arquivos:
train.csv: contém o treinamento.test.csv: contém os dados de teste.train_metadata.csv: contém os metadados dos dados de treinamento.test_metadata.csv: contém os metadados dos dados de teste.train.json: contém os dados de treinamento no formato JSON.test.json: contém os dados de teste no formato JSON.additional_data.json: contém dados adicionais no formato JSON. Esses dados não foram usados na criação do conjunto de dados.
train.csv e test.csv seguem a atribuição de rótulo descrita na seção Label Assignment.
Os arquivos JSON (train.json, test.json e additional_data.json) contêm todas as três anotações e os metadados de cada instância.
Hugging Face tem apenas os arquivos train (train.csv) e test (test.csv).
Formato de dados#
CSV#
Os arquivos CSV são codificados em UTF-8 e possuem as seguintes colunas:
id(string): Identificador único da instância.text(string): O texto da instância.is_offensive(string): Se o texto é ofensivo (OFF) ou não (NOT).is_targeted(string): Se o texto é direcionado (TIN) ou não direcionado (UNT).targeted_type(string): Tipo de destino (individualIND, grupoGRPou outroOTH). Disponível apenas seis_targetedforTrue.toxic_spans(string): Lista de spans tóxicos.saúde(booleano): Se o texto contém discurso de ódio com base em condições de saúde, como deficiência, doença, etc.ideologia(boolean): Indica se o texto contém discurso de ódio baseado nas ideias ou crenças de uma pessoa.insult(boolean): se o texto contém conteúdo insultuoso, inflamatório ou provocativo.lgbtqphobia(booleano): se o texto contém conteúdo nocivo relacionado à identidade de gênero ou orientação sexual.other_lifestyle(boolean): Se o texto contém discurso de ódio relacionado a hábitos de vida (por exemplo, veganismo, vegetarianismo, etc.).physical_aspects(boolean): Se o texto contém discurso de ódio relacionado à aparência física.profanity_obscene(boolean): Se o texto contém palavrões ou conteúdo obsceno.racism(boolean): Se o texto contém pensamentos preconceituosos ou ações discriminatórias baseadas em diferenças de raça/etnia.religious_intolerance(boolean): Se o texto contém intolerância religiosa.sexism(booleano): se o texto contém conteúdo discriminatório com base em diferenças de sexo/gênero (por exemplo, sexismo, misoginia, etc.).xenophobia(boolean): Se o texto contém discurso de ódio contra estrangeiros.
Os arquivos CSV seguem nossa estratégia de atribuição de rótulos conforme descrito abaixo.
is_offensive: voto majoritário.is_targeted: voto majoritário.targeted_type: voto majoritário.toxic_spans: todos os spans rotulados.health: pelo menos um.ideology: pelo menos um.insult: pelo menos um.lgbtqphobia: pelo menos um.other_lifestyle: pelo menos um.physical_aspects: pelo menos um.profanity_obscene: pelo menos um.racism: pelo menos um.religious_intolerance: pelo menos um.sexism: pelo menos um.xenophobia: pelo menos um.
JSON#
Os arquivos JSON são codificados em UTF-8 e possuem o seguinte esquema:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | |
Metadados#
Nós forneceremos alguns metadados do dataset para auxiliar em futuras análises.
Anotadores#
Para cada anotador qualificado, nós coletamos as seguintes informações:
annotator_idO ID do anotador.genderO gênero do anotador.- Male
- Female
- Other
year_of_birthO ano de nascimento do anotador.education_levelO nível de educação do anotador.- Primary School
- Secondary School
- Bachelor's Degree
- Master's Degree
- Doctoral Degree
annotator_ typeO tipo do anotador.- Volunteer
- Researcher
- Contract Worker
backgroundA área de estudo do anotador.- Computer Science
- Social Science
Essas informações podem ser usadas para ajudar a entender o perfil dos anotadores, mantendo a anonimidade dos mesmos.
Comentários#
Para cada comentário, coletamos informações contextuais baseadas nas postagens em redes sociais.
sourceA rede social ou dataset onde o comentário foi coletado.created_atA data e hora da postagem do comentário.collected_atA data e hora da coleta do comentário.toxicity_scoreA pontuação de toxicidade do comentário.