1
SOUZA, Marcos de. Análise de Termos dos Títulos Publicados nos Anais do XXI ENANCIB por meio do Software
NVivo. Brazilian Journal of Information Science: research trends, vol. 17, publicação contínua 2023, e023003.
DOI: 10.36311/1981-1640.2023.v17.e023003
Alise de Termos dos Títulos Publicados nos Anais do
XXI ENANCIB por meio do Software Nvivo
Analysis of the terms of the titles published in the proceedings of the XXI ENANCIB using the NVivo
software
Marcos de Souza (1)
(1) Universidade Federal de Minas Gerais, Brasil, marcosdesouza82@gmail.com.
Resumo
O objetivo geral da pesquisa foi analisar a eficiência na extração de termos por meio do software NVivo.
Dentre os objetivos específicos, buscou-se identificar os termos mais frequentes contidos nos títulos dos
Grupos de Trabalho (GTs), bem como compará-los aos extraídos do GT7 - Produção e Comunicação da
Informação em Ciência, Tecnologia & Inovação. Outro objetivo foi analisar cluster por similaridade entre
os termos contidos nos títulos. Para o tratamento dos dados empíricos, foram realizadas as etapas: a) pré-
análise, seleção e preparação do material; construção de corpora; b) exploração do material técnicas de
codificação; extração de termos; e c) tratamento dos resultados operações estatísticas; interpretação,
descrição e análise. Os termos com maior frequência em todos os GTs foram “informação, “análise”,
“ciência”, “conhecimento” e “gestão”. os termos do GT7 com maior frequência foram “ciência”,
“análise”, “informação”, “produção” e “coautoria”. O termo de maior impacto do GT7 foi “produção”, que
representou 46,1% do total de frequência. A maior similaridade entre os termos ocorreu com os títulos dos
GTs: 5 e 8; 2 e 7 e; 3 e 6. A extração de termos utilizando o software NVivo são ineficazes para análises
profundas, uma vez que os resultados são apresentados no formato de unigramas e podem ficar fora de
contexto quando analisados individualmente.
Palavras-chave: Extração automática de termos; Frequência de termos; Similaridade de cluster;
Comunicação Científica
Abstract
The general objective of the research was to analyze the efficiency in the extraction of terms through the
NVivo software. Among the specific objectives, we sought to identify the most frequent terms contained
in the titles of the Working Groups (WGs), as well as to compare them to those extracted from WG7 -
Production and Communication of Information in Science, Technology & Innovation. Another objective
was to analyze cluster by similarity between the terms contained in the titles. For the treatment of empirical
data, the following steps were carried out: a) pre-analysis, selection and preparation of the material; corpora
construction; b) exploration of the material coding techniques; term extraction; and c) treatment of results
2
SOUZA, Marcos de. Análise de Termos dos Títulos Publicados nos Anais do XXI ENANCIB por meio do Software
NVivo. Brazilian Journal of Information Science: research trends, vol. 17, publicação contínua 2023, e023003.
DOI: 10.36311/1981-1640.2023.v17.e023003
statistical operations; interpretation, description and analysis. The most frequent terms in all GTs were
“information, “analysis”, “science”, “knowledge” and “management”. The terms of GT7 most frequently
were “science”, “analysis”, “information”, “production” and “co-authorship”. The term with the greatest
impact in GT7 was “production”, which represented 46.1% of the total attendance. The greatest similarity
between the terms occurred with the titles of the GTs: 5 and 8; 2 and 7 and; 3 and 6. Extraction of terms
using the NVivo software is ineffective for in-depth analyses, as the results are presented in unigram format
and may be out of context when analyzed individually.
Keywords: Automatic term extraction; Term frequency; Cluster similarity; Scientific Communication
1 Introdução
A análise de um conjunto de documentos, denominado corpus ou corpora quando existe
mais de um conjunto de documentos , pode ser realizada com base em diferentes métodos e
técnicas que possibilitam, por exemplo, insights ou a identificação de perspectivas futuras sobre
uma determinada área de conhecimento. A extração de termos de um conjunto de documentos é
uma dessas técnicas ao identificar as palavras e suas respectivas frequências contagem de quantas
vezes um determinado termo apareceu em um conjunto de documentos.
Esse tipo de análise, antes da era tecnológica, era realizado de maneira manual e,
dependendo do quantitativo de material a ser analisado, poderia levar meses ou anos. Com o
advento as tecnologias computacionais na primeira metade do culo XX e da computação
eletrônica na década de 1970, software para análise de dados qualitativos e quantitativos aplicados
em pesquisas, não em Ciências Sociais Aplicadas, tornaram-se mais dinâmicos e precisos no
tratamento dos dados e, consequentemente, em seus resultados.
Partindo desse princípio, pergunta-se: de que maneira os termos extraídos dos títulos das
pesquisas científicas têm se apresentado nos anais do XXI Encontro Nacional de Pesquisa e Pós-
graduação em Ciência da Informação (ENANCIB)? Acredita-se como hipótese que a extração de
termos por meio de combinações sequenciais de palavras pode apresentar resultados que
contribuem para interpretações de conteúdos de maneira mais assertivas quando se comparado a
extração de termos únicos, listados por meio de frequências.
Diante disso, o objetivo geral da pesquisa está em analisar a eficiência na extração de
termos em corpora por meio do software NVivo. Dentre os objetivos específicos, estão: a)
identificar os termos mais frequentes contidos nos tulos do Grupos de Trabalho (GTs) do
3
SOUZA, Marcos de. Análise de Termos dos Títulos Publicados nos Anais do XXI ENANCIB por meio do Software
NVivo. Brazilian Journal of Information Science: research trends, vol. 17, publicação contínua 2023, e023003.
DOI: 10.36311/1981-1640.2023.v17.e023003
ENANCIB; b) comparar a representação dos termos mais frequentes dos títulos do GT7 com a
totalidade dos termos encontrados nos títulos dos demais GTs do ENANCIB; e c) analisar cluster
por similaridade de termos contidos nos tulos dos GTs do ENANCIB, com ênfase no GT7. Faz
necessário ressaltar que não faz parte dos objetivos da pesquisa identificar tendências temáticas
dos corpora analisados.
Esta pesquisa justifica-se, uma vez que a análise da extração de termos contidos em um
corpus ou corpora pode apresentar tendência sobre o desenvolvimento atual e/ou sobre
perspectivas futuras para uma determinada área de conhecimento. A escolha do GT7 do
ENANCIB como paramtro referencial de comparação com os títulos dos demais GTs, ocorre pelo
alinhamento de seu ementário com os elementos constituintes no referencial teórico da pesquisa
em questão.
Na primeira subseção do referencial teórico deste estudo, são apresentados os conceitos
teóricos sobre pesquisa, linguagem científica, comunicação e divulgação científica. Na subseção
seguinte, são apresentados os conceitos empíricos da pesquisa, como linguística de corpus,
extração de termos, tokenização, n-gramas e análise de cluster.
2 Referencial teórico
2.1 Conceitos teóricos que norteiam a pesquisa
Enquanto atividade básica da ciência, a pesquisa é a descoberta científica da realidade,
sendo a própria geração do conhecimento que antecede a transmissão do conhecimento. Como
existem diferentes possibilidades para explicar determinada realidade, as formas humanas não
esgotam a verdade. Assim, sempre há o que descobrir na realidade (Michel 2015).
A pesquisa é definida como um procedimento racional e sistemático, cujo objetivo está em
buscar soluções para problemas propostos. A pesquisa pode surgir em dois momentos: a) quando
não se dispõe de informações necessárias para solucionar um problema; e b) quando as
informações disponíveis se encontram em desordem e o podem ser adequadas para solucionar o
problema (Gil 2010).
4
SOUZA, Marcos de. Análise de Termos dos Títulos Publicados nos Anais do XXI ENANCIB por meio do Software
NVivo. Brazilian Journal of Information Science: research trends, vol. 17, publicação contínua 2023, e023003.
DOI: 10.36311/1981-1640.2023.v17.e023003
O desenvolvimento da pesquisa ocorre ao longo de um processo constituído por diferentes
fases, que vão desde a adequação do problema até a apresentação satisfatória dos resultados,
utilizando-se de métodos e técnicas de investigação científica (Gil 2010).
A linguagem utilizada na pesquisa científica deve ser objetiva (Aquino 2010). Trata-se de
uma linguagem técnica, com agrupamento de ideias sequências lógicas, cuja finalidade é transmitir
o conhecimento. Além disso, deve ter uma linguagem coerente com as regras gramaticais, ser a
mais didática possível, utilizar a impessoalidade no texto e evitar vocabulários populares, vulgares
e pomposos (Marconi e Lakatos 2003). Outras características estão relacionadas como a
organização e apresentação final do texto (Luiz 2018).
Refere-se à comunicação científica um conjunto de atividades associadas à produção,
disseminação e uso da informação (Garvey e Griffith 1979). A comunicação científica é
constituída por pesquisas científicas submetidas e aprovadas em eventos acadêmicos, como
congressos, simpósios, fóruns, colóquios, encontros e reuniões. Esse tipo de pesquisa possui
estrutura resumida, que pode variar de acordo com a instituição organizadora (Michel 2015).
Outras formas que constituem a comunicação científica são os livros e capítulos de livros, artigos
e resumos publicados em periódicos científicos (Mueller 2007).
Durante a construção da pesquisa, - que perpassar por diferentes etapas como escolha do
tema, revisão de literatura, formualação do problema, determinação dos objetivos, construção da
justificativa, elaboração de hipóteses, escolha da metodologia e descrição dos métodos, coleta,
tabulação e análise de dados, análise e discussão dos resultados, considerações finais, redação e
apresentação - é realizada a geração da informação, que, posteriormente, submetida aos crivos
realizados em avaliação por pares e se aprovada, é disseminada conferindo a transparência da
pesquisa por meio dos canais de comunicação, podendo ser formais ou informais, escritos ou orais
(Garvey e Griffith 1979).
Dentro do contexto de pesquisas científicas submetidas e aprovadas em eventos científicos,
fazem parte da estrutura de elementos o nome, local, data, patrocinador do evento, título, nome e
credenciais do autor, resumo, conteúdo introdução, desenvolvimento, conclusão e referências.
As pesquisas são expostas oralmente ou em forma de painéis e buscam a divulgação dos resultados
e não a profundidade da análise, considerando sua dinâmica (Michel 2015).
5
SOUZA, Marcos de. Análise de Termos dos Títulos Publicados nos Anais do XXI ENANCIB por meio do Software
NVivo. Brazilian Journal of Information Science: research trends, vol. 17, publicação contínua 2023, e023003.
DOI: 10.36311/1981-1640.2023.v17.e023003
a divulgação científica se refere à “[...] utilização de recursos, técnicas, processos e
produtos (veículos ou canais) para a veiculação de informações científicas, tecnológicas ou
associadas a inovações ao público leigo” (Bueno 2009 p. 162). Constituem a divulgação científica:
a) tornar a ciência mais compreensível; b) aproximar a sociedade da comunidade científica; c)
levar conhecimento e ampliar o debate; e d) estimular o pensamento crítico (Albagli 1996).
Valeiro e Pinheiro (2008) destacam que a comunicação científica é responsável por
estabelecer o diálogo entre o pesquisador e o público da comunidade científica. a divulgação
científica busca a comunicação com a comunidade em geral.
O ENANCIB é considerado o principal evento brasileiro de pesquisa e pós-graduação na
área da Ciência da Informação que busca discutir, refletir e compartilhar informações acerca da
produção do conhecimento científico (ENANCIB, 2021a). O Quadro 1 apresenta os GTs e
ementários do ENANCIB.
Quadro 1 GTs e ementários do ENANCIB
Grupos de Trabalho
Ementários
GT1 Estudos Históricos e
Epistemológicos da Ciência
da Informação
Estudos históricos e epistemológicos da Ciência da Informação (escolas de
pensamento, correntes teóricas, autores e obras de fundamentação, leituras
teórico-metodológicas e conceituações). Constituição, desenvolvimento e
inovação conceitual, teórica e metodológica do campo científico informacional.
Os objetos de estudos da Ciência da Informação e suas transformações teórico-
conceituais. Reflexões e discussões sobre disciplinaridade,
interdisciplinaridade e transdisciplinaridade.
GT2 Organização e
Representação do
Conhecimento
Teorias, metodologias, políticas, instrumentos, processos e produtos para a
organização e representação do conhecimento recuperação e acesso à
informação, nas suas dimensões epistemológicas, aplicadas, sociais, culturais e
terminológicas enquanto conhecimento socializado, institucionalizado ou não,
em ambientes informacionais (tais como: arquivos, museus, bibliotecas e
congêneres), incluindo o uso e desenvolvimento das tecnologias de informação
e as relações inter, multi e transdisciplinares neles verificadas.
GT3 Mediação, Circulação
e Apropriação da
Informação
Estudo dos processos e das relações entre mediação, circulação e apropriação
de informações, em diferentes contextos e tempos históricos, considerados em
sua complexidade, dinamismo e abrangência, bem como relacionados à
construção e ao avanço do campo científico da Ciência da Informação,
compreendido em dimensões inter e transdisciplinares, envolvendo múltiplos
saberes e temáticas, bem com contribuições teórico-metodológicas
diversificadas em sua constituição.
6
SOUZA, Marcos de. Análise de Termos dos Títulos Publicados nos Anais do XXI ENANCIB por meio do Software
NVivo. Brazilian Journal of Information Science: research trends, vol. 17, publicação contínua 2023, e023003.
DOI: 10.36311/1981-1640.2023.v17.e023003
GT4 Gestão da Informação
e do Conhecimento
Gestão de ambientes, sistemas, unidades, serviços, produtos de informação e
recursos informacionais. Estudos de fluxos, processos, usos e usuários da
informação como instrumentos de gestão. Gestão do conhecimento e
aprendizagem organizacional no contexto da Ciência da Informação. Marketing
da informação, monitoramento ambiental e inteligência competitiva. Estudos
de redes para a gestão. Aplicação das tecnologias de informação e comunicação
à gestão da informação e do conhecimento.
GT5 Política e Economia
da Informação
Políticas e regimes de informação. Informação, Estado e governo. Propriedade
intelectual. Acesso à informação. Economia política da informação e da
comunicação. Produção colaborativa. Poder, ativismo e cidadania.
Conhecimento, aprendizagem e inovação. Ética da informação. Informação e
ecologia.
GT6 Informação,
Educação e Trabalho
O mundo do trabalho informacional: atores, cenários, competência em
informação, dimensões e habilidades. Organização, processos de trabalho em
dispositivos de informação e cultura. As relações entre informação, educação,
trabalho, saúde e tecnologia. Regulamentação profissional, entidades sindicais,
associações de classe e mercado de trabalho e competência profissional.
Diversidade cultural, representações sociais, práticas e construção identitária
dos profissionais da informação. Responsabilidade social, ética e profissional
na Ciência da Informação. As bases curriculares e experiências pedagógicas:
formação e perfil profissional ou docente.
GT7 Produção e
Comunicação da Informação
em Ciência, Tecnologia &
Inovação
Estudos teóricos, aplicados e metodológicos sobre a produção, comunicação e
uso da informação em Ciência, Tecnologia e Inovação. Inclui pesquisas
relacionadas aos processos de comunicação, divulgação, análise e formulação
de indicadores para planejamento, avaliação e gestão em CT&I.
GT8 Informação e
Tecnologia
Estudos e pesquisas teórico-práticos sobre e para o desenvolvimento de
tecnologias de informação e comunicação que envolvam os processos de
geração, representação, armazenamento, recuperação, disseminação, uso,
gestão, segurança e preservação da informação em ambientes digitais.
GT9 Museu, Patrimônio e
Informação
Análise das relações entre o museu (fenômeno cultural), o patrimônio (valor
simbólico) e a informação (processo), sob ltiplas perspectivas teóricas e
práticas de análise. Museu, patrimônio e informação: interações e
representações. Patrimônio musealizado: aspectos informacionais e
comunicacionais.
GT10 Informação e
Memória
Estudos sobre a relação entre os campos de conhecimento da Ciência da
Informação e da Memória Social. Pesquisas transdisciplinares que envolvem
conceitos, teorias e práticas do binômio ‘informação e memória’. Memória
coletiva, coleções e colecionismo, discurso e memória. Representações sociais
e conhecimento. Articulação entre arte, cultura, tecnologia, informação e
memória, através de seus referenciais, na contemporaneidade. Preservação e
virtualização da memória social.
GT11 Informação & Saúde
Estudos das teorias, métodos, estruturas e processos informacionais em
diferentes contextos da saúde, considerada em sua abrangência e complexidade.
Impacto da informação, tecnologias, e inovação em saúde. Informação nas
organizações de saúde. Informação, saúde e sociedade. Políticas de informação
em saúde. Formação e capacitação em informação em saúde.
Fonte: ENANCIB (2021b online)
7
SOUZA, Marcos de. Análise de Termos dos Títulos Publicados nos Anais do XXI ENANCIB por meio do Software
NVivo. Brazilian Journal of Information Science: research trends, vol. 17, publicação contínua 2023, e023003.
DOI: 10.36311/1981-1640.2023.v17.e023003
No ano de 2022 foi incorporado ao ENANCIB o GT12 Informação, Estudos Étnico-
Raciais, Gênero e Diversidades, tendo como ementa:
Estudos teóricos e aplicados em informação sobre Raça, Classe, Gênero, Sexualidades e
Interseccionalidades. Teorias Críticas, Culturais, Racial, Feministas e Queer. Correntes
teóricas, escolas de pensamento, bases metodológicas-conceituais e aplicações técnico-
científicas dos estudos étnico-raciais, de gênero e de diversidade. Teorias, discursos,
saberes, atividades científicas e profissionais em ambientes informacionais comunitários,
populares e organizacionais. Relações sociais, de poder e resistências. Epistemicídio,
violências e insurgências. Estudos s-Coloniais, Decoloniais e Anticoloniais. Estudos
Críticos da Branquitude. Justiça Social, Informacional, Racial e de Gênero (ENANCIB
2022 online).
2.2 Conceitos empíricos que compõem a pesquisa
A Linguística de Corpus refere-se à coleta e exploração de conjuntos de dados linguísticos
textuais, coletados a partir da utilização de critérios cujo propósito está em servir para uma
pesquisa de uma determinada língua ou fazendo uso de uma variedade linguística. A exploração
do conteúdo é realizada por meio de evidências empíricas extraídas do computador (Sardinha
2000).
De acordo com o dicionário Aurélio (2021), o termo corpus é corpo, conjunto de
documentos sobre um assunto ou tema. São exemplos de corpus não computacionais o Corpus
Helenístico definido por Alexandre, o Grande, na Grécia Antiga. Na Antiguidade e na Idade
Média, foi produzido corpora de citações da Bíblia (Sardinha 2000).
Sardinha (2004) destaca diferentes tipos de aplicações que podem resultar em estudos
baseados em corpora eletrônico, como por exemplo, a função de autorresumo, sintetizadores de
voz, tradutores e digitadores recursos disponíveis de usuários de um sistema operacional como
o do Windows ou da Apple. O autor ainda enfatiza os programas para manuseamento de corpora,
como concordanciadores, etiquetadores e extratores de frequência.
Grande parte dos corpora são constituídos por publicações eletrônicas textuais em
diferentes formantos, como artigos científicos, resumos, notas, relatórios, correspondência
eletrônica, dentre outros. Considera-se assim uma forma natural de armazenar informações (Han
e Kamber 2006). Esse conjunto de documentos pode apresentar um quantitativo representativo de
conhecimento a ser utilizado para diferentes finalidades (Shaw et al. 2001).