Publicado na Phys
Uma nova pesquisa revelou que, usando big data para analisar conjuntos de dados massivos de notícias modernas e históricas, desde mídias sociais a páginas da Wikipédia, pode-se observar padrões periódicos no comportamento coletivo da população, que poderiam passar despercebidos.
Acadêmicos do projeto ThinkBIG, da Bristol University, liderados por Nello Cristianini, professor de Inteligência Artificial, publicaram dois artigos onde analisaram padrões periódicos de conteúdo e consumo de mídia diária: primeiros investigando jornais históricos, em seguida os posts do Twitter, e as visitas à Wikipedia.
Os dois conjuntos de achados, considerados em conjunto, mostraram que o comportamento coletivo das pessoas segue padrões periódicos fortes e é mais previsível do que se pensava anteriormente. No entanto, estes padrões só podem ser revelados quando se analisa as atividades de um grande número de pessoas durante muito tempo, e até recentemente, esta era uma tarefa muito difícil.
Usando tecnologias de big data, agora é possível obter uma visão unificada dos conteúdos de jornais, dezenas de jornais ao mesmo tempo, abrangendo várias décadas ou analisando conteúdos postados no Twitter por um grande número de usuários, ou até mesmo as páginas da Wikipedia visitadas.
O professor Nello Cristianini, do Departamento de Engenharia Matemática, disse: “O que emerge é um vislumbre das regularidades do nosso comportamento, que estão escondidas por trás das variações do dia-a-dia em nossas vidas. Nossos dois artigos mostraram, analisando conjuntos de dados massivos de notícias modernas e históricas, mídias sociais e páginas de páginas da Wikipedia, que podemos obter um olhar sem precedentes sobre nosso comportamento coletivo, revelando ciclos que certamente suspeitamos, mas que nunca foram observados antes”.
O primeiro artigo, publicado na revista PLOS ONE, analisou 87 anos de jornais dos EUA e do Reino Unido, entre 1836 e 1922. Os pesquisadores descobriram que o lazer e o trabalho das pessoas eram fortemente regulados pelo clima e pelas estações, no Reino Unido e nos EUA.
Grande parte de nossa dieta foi influenciada pelas estações, também, com tempos de pico muito previsíveis para diferentes frutas e alimentos, e até flores, nas notícias históricas. O mesmo foi encontrado para doenças, como a época de pico para o sarampo onde, em ambos os países, foi detectado com mais frequência no final de março ao início de abril. Curiosamente, um indicador forte foi fornecido pela reaparição muito periódica de groselhas, em junho, que não é mais encontrada nas notícias modernas, junto com muitas outras tradições perdidas.
Isso pode parecer óbvio, mas a equipe de pesquisas também notou que certas atividades que costumavam ser altamente regulares, como palestras no Natal, agora quase desapareceram, e foram substituídas por outras atividades periódicas, como o futebol, Ibiza, Oktoberfest. De certa forma, a TV substituiu parcialmente o clima como um fator importante de sincronização da vida das pessoas.
No segundo trabalho, que será apresentado no próximo mês, em uma oficina, na Conferência Internacional de Mineração de Dados (IADC) de 2016, os pesquisadores descobriram que as estações também podem ter fortes efeitos sobre a saúde mental. A equipe analisou o sentimento agregado no Twitter no Reino Unido, acrescido de acesso agregado à Wikipedia durante quatro anos. Eles descobriram que o sentimento negativo é super-exposto no inverno, atingindo o pico em novembro, e a ansiedade e raiva são super-expostos entre setembro e abril.
Ao mesmo tempo, uma análise das visitas da Wikipédia para páginas de saúde mental, globalmente, mas fortemente dominadas pelo tráfego no hemisfério norte, mostrou sazonalidade clara na busca de formas específicas de problemas mentais. Por exemplo, as visitas à página sobre picos de desordens afetivas sazonais ocorrem no final de dezembro e as visitas de transtorno de pânico atingem seu pico em abril, ao mesmo tempo das visitas à página sobre transtorno de estresse agudo.
Juntos, esses dois artigos mostram que o uso de múltiplas fontes de grandes dados podem permitir aos pesquisadores olhar para o comportamento coletivo e, até mesmo, para o humor e a saúde mental de grandes populações, revelando ciclos, pela primeira, vez suspeitos, mas difíceis de se observar.