Diálogos possíveis (II): análise de conteúdo, codificação e técnicas computacionais

Share on Facebook
Bookmark this on Delicious
Share on StumbleUpon

*Em parceria com Renato Vimieiro

Continuamos neste texto o assunto que já havíamos introduzido em post anterior: como a interface entre comunicação e computação tem contribuído para aperfeiçoar a gama de técnicas metodológicas adotadas pelos comunicólogos. Aqui, vamos explorar o primeiro ponto ou “nicho de mercado” nomeado naquele texto: a possibilidade de, através de ferramentas computacionais, lidarmos com amostras cada vez maiores nas pesquisas da comunicação.

Assim como na obra de Klaus Krippendorf, análise de conteúdo, neste post, é compreendida de forma mais ampla, sem filiação a uma corrente teórica específica ou à necessidade de ser uma análise apenas de teor quantitativo.

Na verdade, essas ferramentas não são necessariamente utilizadas só com grandes amostras. Mas é o aumento significativo de conteúdo digital que, de certa forma, tem impulsionado a apropriação dessas técnicas pela comunicação. Assim, o que elas possibilitam é justamente a produção de conhecimento a partir do cruzamento de uma “enxurrada” de dados — enxurrada essa que dificilmente seria compreensível que não dessa forma. Entretanto, muitas dessas técnicas não são novas (foram desenvolvidas já há tempo na computação e têm sido aplicadas em várias áreas também já há algum tempo). O que é novo é o interesse dos cientistas da computação pela análise de mídia — o acúmulo de conteúdo digital e o fenômeno das mídias sociais estão relacionados a isso — e a aplicação cada vez mais sistemática dessas ferramentas por profissionais que não têm um conhecimento especializado em computação — pesquisadores da comunicação, sociologia, ciência política, linguística etc.

Não é muito fácil abordar textualmente esse tipo de assunto. São tantos tipos de aplicação, com tantas pesquisas completamente distintas que utilizam uma mesma ferramenta. Além disso, abordar procedimentos metodológicos muitas vezes exige uma materialidade, no sentido de que só compreendemos o que uma técnica pode produzir quando vemos os resultados gerados a partir de um conjunto de dados. Esse post tem o intuito de abordar apenas as ferramentas mais corriqueiras. Especificamente, vamos explorar como as técnicas de clustering e associação podem fornecer aplicações interessantes tanto para pesquisas que partem da codificação automatizada de conteúdo em formato digital quanto para aquelas que aplicam uma codificação manual (humana) e precisam entender melhor as relações entre as categorias analisadas na pesquisa.

Análises de conteúdo automatizadas

Pois bem, as análises automatizadas de conteúdo (automatic textual analysis) são aquelas que partem do próprio texto como dados de entrada. Esse tipo de análise pode buscar coisas distintas em uma amostra e pode ser aplicada a diferentes materiais de análise. Por exemplo, pode-se buscar quais os tópicos mais comentados em uma rede social ou em um conjunto de notícias. Qualquer corpo de texto, desde que em formato digital, pode ser potencialmente analisado com ferramentas de text mining para identificar, entre outras coisas, a relação existente entre expressões usadas em vários textos. Pensemos em um caso: sempre que se fala de futebol, pode-se detectar que um jornal, portal ou blog associa esse tema a expressões como nomes de times, de jogadores e jogos. Ou, pode-se perceber que futebol está associado a termos como “corrupção”, “suborno” e “propina” em outro espaço. Nesse caso, é possível detectar mudanças de rumo na cobertura noticiosa sobre assuntos específicos ou mesmo quais os assuntos são abordados em uma linha do tempo — as inferências são inúmeras, dependendo da teoria que baliza o trabalho. O grau de confiabilidade dos resultados neste caso é bastante alto, já que a detecção de padrões e a própria codificação é feita pela máquina, que em si possui um padrão de atribuição de códigos mais estável do que um codificador humano. O problema aqui pode ser a validade dos resultados, na medida em que análises automáticas têm dificuldades em captar o aspecto semântico do conteúdo.

Análises com codificação humana (manual)

No caso das análises que partem de codificação humana, as ferramentas cruzam os dados já fornecidos pelo pesquisador. Então, da mesma forma, é possível identificar relações entre variáveis, só que, no caso, há um nível simbólico maior envolvido. Um dos grandes problemas das análises automatizadas é que elas se baseiam na análise sintática dos textos. A dificuldade, assim, é identificar o sentido do texto, aplicado à realidade em estudo. Já no caso das análises que partem de códigos gerados a priori, ou seja, os dados de entrada não são textos e sim os próprios códigos, é possível avançar na compreensão do sentido por trás do conteúdo. Por exemplo, é possível identificar a relação entre argumentos utilizados em uma notícia e atores sociais envolvidos sempre que aquele argumento é acionado. Logo, com qualquer tema, a partir da codificação dessas categorias, pode-se encontrar que, como padrão, sempre que o político X é fonte de uma notícia sobre uma matéria, ele usa os argumentos a, b e c. Além disso, é possível perceber a associação desse político específico não só com esse tópico, mas com outros tópicos. Neste caso, quando a amostra é bastante relevante, esse tipo de associação dificilmente é percebida sem a utilização desse tipo de ferramenta. Os graus de validade dos estudos são bastante altos, sobretudo porque é possível cruzar diferentes variáveis e detectar padrões bastante complexos de relação entre as categorias em análise. A confiabilidade, aqui, deve ser assegurada pela adoção de estratégias como codificação por múltiplos codificadores e testes de concordância entre eles.

Ferramentas de agrupamento

Existem duas ferramentas que são bastante utilizadas em pesquisas da área da Comunicação e afins: agrupamento e associação. De fato, técnicas de agrupamento (clustering) são amplamente utilizadas por pesquisas de diferentes áreas das ciências sociais. A ferramenta de agrupamento funciona tanto se o pesquisador trabalha com análise automática de conteúdo quanto se ele parte de material codificado manualmente. No caso, o que as ferramentas de clustering fazem é, basicamente, agrupar documentos (unidades de análise) similares de acordo com critérios estatísticos, por isso o nome da técnica — para compreender melhor, consultar Rezende et al (2011). Então, por exemplo, suponhamos que estamos analisando comentários em um site, se a unidade de análise é o comentário, as técnicas de clustering vão reunir em um grupo os comentários mais parecidos e separar aqueles mais díspares. Para fazer isso, elas podem partir do texto em si ou da codificação de categorias fornecida pelo pesquisador. Em ambos os casos, as técnicas agrupam os documentos a partir dos atributos (texto ou variáveis da codificação) que eles apresentam. Eles podem ser parecidos porque utilizam as mesmas expressões (análise automática) ou porque usam os mesmos argumentos (análise com codificação humana).

Um problema latente na aplicação de técnicas de agrupamento é a definição do número de grupos. Temos trabalhado com a utilização de ferramentas de clustering para a detecção dos enquadramentos em notícias e este tipo de estudo é bom para exemplificarmos essa questão. Neste caso, o problema do número ótimo de clusters é bastante claro, uma vez que, a partir de determinados atributos, buscamos agrupar as notícias similares (que têm o mesmo enquadramento) e separar aquelas que são distintas (possuem diferentes enquadramentos). Mas, a priori, não sabemos o número de enquadramentos presente na amostra. Nesse caso, como avaliar se os grupos resultantes da ferramenta são coerentes? Ou, como avaliar a qualidade dos grupos obtidos e do agrupamento como um todo? Existem algumas soluções para o problema, muitas baseadas na similaridade dos grupos. Todavia, esse é um desafio inerente e ainda não completamente sanado nessa área.

Ferramentas de associação

No caso das ferramentas de associação, o cruzamento não se dá levando em conta exatamente os documentos. As relações não se estabelecem entre documentos e sim entre atributos. Enquanto as ferramentas de clustering dividem uma amostra em documentos similares, as técnicas de associação indicam relações entre atributos que ocorrem com certa frequência no corpus. Ferramentas de associação buscam regras como se o atributo X e o Y estão presentes, há certa probabilidade do atributo Z também estar. No caso da pesquisa de enquadramentos, após dividir a amostra com técnicas de agrupamento, aplicamos técnicas de associação para entender melhor os grupos formados. Essas técnicas indicam, por exemplo, que, em um grupo, três variáveis (atributos) podem estar fortemente associadas, com, digamos, 60% de reincidência, juntas, naquele conjunto de textos. Algumas categorias que utilizamos como fontes, tópicos e causas apontadas para um determinado problema, quando associadas, mostram claramente a abordagem ou chave-de-leitura (enquadramento) dos conjuntos de notícias. Também é possível aplicar técnicas de associação em análises automáticas. Nesse caso, os atributos associados serão expressões.

Questões práticas

Diversos softwares podem ser utilizados para aplicar essas técnicas. Desde softwares pagos como SPSS, Stata, SAS, NVivo e Atlas.ti, até softwares livres como o RapidMiner e o R. Atualmente, utilizamos esse dois últimos, mas a adoção de ambos depende bastante do conhecimento pelo menos intermediário das próprias técnicas e dos softwares. Abaixo, um vídeo que explica alguns passos para fazer text mining (análise automatizada) com o RapidMiner.

Algumas experiências

- Media patterns: em uma das pesquisas, eles analisam 1.3 milhão de notícias publicadas em 22 línguas durante seis meses e apontam relações entre o que é publicado e as relações geográficas, econômicas e culturais dos países.

Gráfico da rede de relações ente as notícias publicadas em países da União Européia criado pelo projeto Media Patterns. Nesse caso, diferente de nosso exemplo de análise a partir de veículos de comunicação, os pesquisadores utilizaram os países como ponto de partida para compreender como o conteúdo publicado se associa.

- REACTION (Retrieval, Extraction and Aggregation Computing Technology for Integrating and Organizing News). Em geral, têm o interesse voltado para Computational Journalism (tópico que abordaremos em breve), mas as ferramentas também podem ser aplicadas em um contexto acadêmico.

Referências interessantes

- É “obrigatório”, em certa medida, para quem tem um forte interesse por esse tipo de tópico, a leitura de Content Analysis: an introduction to its methodology, de Klaus Krippendorf. Várias questões abordadas aqui estão presentes no trabalho de forma bem pouco técnica — é voltado para pesquisadores da comunicação. Diversos tópicos importantes em metodologia são cobertos pela obra, como técnicas para definição de amostra, processo de codificação e testes de confiabilidade.

- A International Sociological Associaton (ISA) tem um Comitê de Pesquisa em Lógica e Metodologia (RC33), desde 1973. Eles têm conferências bi-anuais e vários problemas que a comunicação enfrenta em termos metodológicos podem ser contornados com o auxílio do conhecimento já produzido na sociologia. Vale à pena também conhecer.

- Alguns periódicos dedicados a tópicos como o deste post: Social Science Computer Review e Communication Methods and Measures.

Ana Carolina Vimieiro é mestre em Comunicação Social pela UFMG e jornalista graduada pela PUC Minas. Passou por redações de portal, impresso, TV, rádio e assessoria, antes de se dedicar à área acadêmica. Tem interesse por análise de enquadramentos e, em especial, pelos procedimentos metodológicos adotados nesta linha de estudos. É atleticana fanática, apaixonada por futebol e maníaca por seriados. Vive atualmente na Austrália.
Teste
Renato Vimieiro é doutorando em Ciência da Computação pela University of Newcastle, Austrália, onde integra o Centre for Bioinformatics, Biomarker Discovery and Information-Based Medicine (CIBM). Mestre em Computação pela UFMG, atua na área de mineração de dados, com interesse específico por aplicacões em bioinformática e análise de mídia.


Posts relacionados



Um comentário para “Diálogos possíveis (II): análise de conteúdo, codificação e técnicas computacionais”

  1. Samuel Barros disse:

    oi Ana e Renato, muito bom o post de vcs. Quando visitarem o Brasil, vcs bem q poderiam fazer uma oficina sobre o RapidMiner ^^ E obrigado pelas dicas de bibliografia. Aproveitando, cês indicam alguma coisa sobre estatística? vlw :)

Deixe um comentário