1
SILVA, Fabiano Couto Corrêa da; WITT, Amanda Santos; UMPIERRE, Larissa Weber; WENDT, Lucas George;
BOHNERT, Michele Krieger; WESSFLL, Wagner Silva. Diagnóstico dos Repositórios de Dados no Brasil.
Brazilian Journal of Information Science: research trends, vol. 17, publicação continua, 2023, e023031. DOI:
10.36311/1981-1640.2023.v17.e023031.
DIAGNÓSTICO DOS REPOSITÓRIOS DE DADOS
NO BRASIL
Diagnosis of Data Repositories in Brazil
Fabiano Couto Corrêa da Silva (1), Amanda Santos Witt (2), Larissa Weber Umpierre (3),
Lucas George Wendt (4), Michele Krieger Bohnert (5), Wagner Silva Wessfll (6)
(1) Universidade Federal do Rio Grande do Sul (UFRGS), Brasil, fabianocc@gmail.com
(2) amandawitt.asw@gmail.com
(3) larissaumpierreb@gmail.com
(4) lucas.george.wendt@gmail.com
(5) michele.bohnert@gmail.com
(6) wagnerwessfll@yahoo.com.br
Resumo
Os dados digitais se tornaram essenciais para alavancar a pesquisa científica. Em parte, servem a um papel
funcional e efêmero, mas sua importância se torna permanente e o seu valor como substrato da comunicação
científica pode aumentar ou diminuir, dependendo das demandas e usos a que são destinados. A preservação
dos dados passou a ser uma demanda tanto para pesquisadores quanto para universidades e centros de
pesquisa. Em resposta, no Brasil têm surgido diferentes repositórios, que permitem armazenar dados em
variadas áreas do conhecimento. Esta pesquisa objetiva localizar repositórios que reúnem dados primários
de pesquisa científica no Brasil. Foram empreendidas buscas nos diretórios Re3Data, OpenDoar, ROAR e
revisão dos repositórios das Universidades Federais cadastradas no Ministério da Educação. Isto
possibilitou localizar 20 repositórios que abrangem dados e a análise das suas principais características em
relação às áreas de cobertura temática e aos padrões de preservação. Os dados obtidos demonstram que,
embora a maioria dos repositórios disponibilizem alinhamento com padrões internacionais, alguns não
apresentam infraestruturas adequadas para os conjuntos de dados disponibilizados. Considera-se que pode
haver falha na gestão de determinados repositórios, mas a maioria oferece adequação às necessidades para
disponibilização e busca dos dados científicos em todos os indicadores.
Palavras-chave: Repositórios de Dados; Comunicação Científica; Dados Científicos; Gestão de dados;
Preservação digital.
2
SILVA, Fabiano Couto Corrêa da; WITT, Amanda Santos; UMPIERRE, Larissa Weber; WENDT, Lucas George;
BOHNERT, Michele Krieger; WESSFLL, Wagner Silva. Diagnóstico dos Repositórios de Dados no Brasil.
Brazilian Journal of Information Science: research trends, vol. 17, publicação continua, 2023, e023031. DOI:
10.36311/1981-1640.2023.v17.e023031.
Abstract
Digital data have become essential to leverage scientific research. In part, they serve a functional and
ephemeral role, but their importance becomes permanent and their value as a substrate for scientific
communication can increase or decrease depending on the demands and uses to which they are put. Data
preservation has become a demand for researchers as well as for universities and research centers. In
response, different repositories have emerged in Brazil, which allow storing data in various areas of
knowledge. This research aims to locate repositories that gather primary scientific research data in Brazil.
Searches were undertaken in the directories Re3Data, OpenDoar, ROAR and review of the repositories of
the Federal Universities registered with the Ministry of Education. This made it possible to locate 20
repositories covering data and to analyze their main characteristics in relation to subject coverage areas and
preservation standards. The data obtained show that, although most repositories provide alignment with
international standards, some do not have adequate infrastructures for the datasets provided. It is considered
that there may be a failure in the management of certain repositories, but most offer adequacy to the needs
for availability and search of scientific data in all indicators.
Keywords: Data Repositories; Scientific Communication; Scientific data; Data management; Digital
preservation.
1 Introdução
A tentativa de proporcionar uma definição precisa dos dados científicos é um desafio, pois
implica adaptar-se ao contexto no qual se faz a pergunta. Eles compreendem uma área muito
extensa (todas as disciplinas) e devido a isso a definição pode variar em relação às abordagens dos
diferentes participantes (pesquisadores, instituições, financiadores, etc.) e com os diversos
contextos nacionais (SILVA, 2019). Em quaisquer dos casos, uma definição em termos gerais pode
ser: os dados científicos são definidos como registros de fatos - numéricos, textuais, imagens e
sons - usados como fontes primárias para pesquisa e são cada vez mais aceitos na comunidade
científica como necessários para validar os resultados de pesquisas (OECD, 2007).
O Gerenciamento de Dados Científicos está presente em todas as fases da pesquisa e
abrange coleta, organização, documentação, armazenamento e preservação dos dados utilizados
ou gerados durante um projeto de pesquisa. Desse modo, configuram-se, por exemplo, como dados
estatísticos, medições, respostas de questionários, registros de entrevistas, fotografias e
observações resultantes do trabalho de campo. Especificamente, Arano et al. (2011) distinguem
como dados primários experimentos científicos; modelos e simulações; observações; dados
derivados tanto do processo como da combinação de dados brutos; dados referenciais (por
3
SILVA, Fabiano Couto Corrêa da; WITT, Amanda Santos; UMPIERRE, Larissa Weber; WENDT, Lucas George;
BOHNERT, Michele Krieger; WESSFLL, Wagner Silva. Diagnóstico dos Repositórios de Dados no Brasil.
Brazilian Journal of Information Science: research trends, vol. 17, publicação continua, 2023, e023031. DOI:
10.36311/1981-1640.2023.v17.e023031.
exemplo, estruturas químicas ou sequências genômicas); e material suplementar como instruções
de codificação e guias de entrevistadores, entre outros. Desse modo, os dados científicos são
definidos como registros de fatos que são usados como fontes primárias de pesquisa e são cada
vez mais aceitos pela comunidade científica como necessários para validar resultados (OCDE,
2007).
Diante do interesse pelos dados e a consequente necessidade de classificá-los com
metadados que possibilitem a sua recuperação e eventual utilização por parte da comunidade
científica, estamos passando por um momento de mudança na forma como a ciência é conduzida.
Trata-se de um desafio seja para os pesquisadores, seja para as universidades e outras instituições
afins. Consequentemente, estamos diante de um novo paradigma baseado no fato de que a ciência
deve ser aberta, colaborativa e feita com e para a sociedade (Anglada e Abadal, 2018).
Parte-se da premissa que a maneira como a ciência atualmente é gerada não atende a
valores básicos da comunicação científica, tais como: registro da descoberta, velocidade da
publicação, solidez nos dados, replicabilidade e reprodutibilidade das pesquisas, bem como sua
ampla distribuição. A expressão “ecossistema da Ciência Aberta” e seu conceito não estão ligados
apenas às tecnologias da informação, visto que o seu modelo tem um alcance além da plataforma
por onde é divulgada, abrangendo assim, uma simbiose entre as tecnologias, as pessoas e os
processos do ciclo de vida da pesquisa.
A Ciência Aberta, entendida como uma das manifestações do movimento de livre acesso à
informação, tem ganhado aceitação na comunidade científica. É uma consequência do
desenvolvimento da Internet, sua massificação e sua atratividade de expandir o acesso a dados e
informações resultantes de pesquisas acadêmicas (SILVEIRA, et. al, 2021). Por estarem
disponíveis em formato digital, os usuários podem, portanto, acessar, recuperar, explorar,
reproduzir e disseminar dados de pesquisa de acesso aberto gratuitamente. E aliás, por serem
abertos, os dados também podem ser reutilizados por outros pesquisadores, transformados por
novos métodos ou adicionados a outras fontes, evitando assim a duplicação de ensaios, garantindo
a transparência de sua obtenção e permitindo sua validação (Melero, 2014).
4
SILVA, Fabiano Couto Corrêa da; WITT, Amanda Santos; UMPIERRE, Larissa Weber; WENDT, Lucas George;
BOHNERT, Michele Krieger; WESSFLL, Wagner Silva. Diagnóstico dos Repositórios de Dados no Brasil.
Brazilian Journal of Information Science: research trends, vol. 17, publicação continua, 2023, e023031. DOI:
10.36311/1981-1640.2023.v17.e023031.
Pesquisas anteriores mostram a viabilidade e importância de analisar repositórios
institucionais a partir do estabelecimento de dimensões para tal, como por exemplo, softwares
utilizados e áreas do conhecimento, no âmbito dos Estados Unidos (Lynch; Lippincott, 2005;
Westrienen; Lynch, 2005; Markey et al.2007) e da América Latina (Costa; Leite, 2017). No Brasil,
Lucas, Picalho e Caitano (2020) caracterizaram e mapearam repositórios de dados científicos
abertos com fins de constituir uma alternativa para subsidiar a tomada de decisão institucional no
âmbito da gestão de dados científicos. Os pesquisadores, para a descrição dos dados de cada
repositório, empreenderam uma análise a partir das categorias, como tipos e formatos de arquivos
aceitos, curadoria de conteúdo; identificadores persistentes de conteúdo, controle de versões,
dentre outras. Concluíram que o conhecimento sobre esses repositórios é pertinente não apenas
aos pesquisadores, mas especialmente às instituições. Estas, devem escolher entre as opções
possíveis, qual se enquadra melhor a sua estrutura, de modo a elaborar políticas institucionais que
incentivem a disponibilização de dados científicos segundo os parâmetros da Ciência Aberta
(Open Science).
O portal Re3data e a Web foram utilizados por Santos e Freitas (2021) para identificar
instituições que possuem repositórios de dados de pesquisa. Os dois repositórios da Embrapa
chamaram a atenção de Santos e Freitas (2021) em função da proposta de compartilhamento de
informação e pela possibilidade de interação social por eles viabilizada. Observaram em seu
estudo, que muitos dos repositórios que integraram o corpus da pesquisa, não seguiam a
padronização de acordo com os novos modelos de repositório de dados compatíveis com os
princípios Findable, Accessible, Interoperable, Reproducible (FAIR), não tendo, outrossim,
identificador digital persistente, apesar de estarem em acesso aberto. Salientam que, apesar de este
assunto ainda não ser familiar para muitos, ele tem se tornado mais comum em função das políticas
fomentadas pelos movimentos favoráveis à temática e pelas demandas sociais por dados
científicos. Os repositórios configuram assim, segundo a percepção das autoras, importantes
instrumentos de organização e de visibilidade da informação e constituem uma oportunidade para
o Brasil expandir a visibilidade dos seus pesquisadores, obter melhores resultados para as
instituições de pesquisa em que estão inseridos e promover o diálogo com disciplinas variadas
(Santos; Freitas, 2021).
5
SILVA, Fabiano Couto Corrêa da; WITT, Amanda Santos; UMPIERRE, Larissa Weber; WENDT, Lucas George;
BOHNERT, Michele Krieger; WESSFLL, Wagner Silva. Diagnóstico dos Repositórios de Dados no Brasil.
Brazilian Journal of Information Science: research trends, vol. 17, publicação continua, 2023, e023031. DOI:
10.36311/1981-1640.2023.v17.e023031.
Ademais, Santos e Freitas (2021) entendem que o surgimento de novos repositórios de
pesquisa é uma realidade, uma vez que profissionais da informação, pesquisadores e instituições
têm se conscientizado sobre os benefícios implicados, incluindo a contribuição para promover
novos estudos científicos. Isto enseja um olhar mais atento para o caso brasileiro, que é objeto de
estudo do presente artigo.
Peter Suber, um dos principais promotores do acesso aberto à ciência e um dos
idealizadores da Declaração de Budapeste, define literatura de acesso aberto como aquela que é
digital, online, gratuita e livre da maioria das restrições devido a direitos autorais (Suber, 2004 ).
Desse modo, o acesso aberto pode ser alcançado através da publicação em revistas de acesso
aberto, ou uma cópia do documento pode ser depositada em um repositório, seja ele institucional,
temático ou entidade financiadora (Budapest Open Access Initiative, 2002). A Declaração da
Bethesda sobre Publicação de Acesso Aberto (2003) define uma publicação de acesso aberto como
aquela que atende a duas condições: o autor e o detentor dos direitos autorais garantem a todos os
usuários o direito de acesso gratuito, irrevogável, mundial e perpétuo; e também ao depósito de
uma versão e do material complementar em formato eletrônico em pelo menos um repositório
online, pertencente a uma instituição acadêmica, ou a qualquer instituição que garanta acesso e
preservação. A Declaração de Berlim (Berlin Declaration on Open Access to Knowledge in the
Sciences and Humanities, 2002) reitera o apoio às duas declarações anteriores de acesso aberto e
defende o papel fundamental da Internet como ferramenta de divulgação da pesquisa.
Conforme evidenciamos mediante o diagnóstico realizado nos repositórios que foram
elencados, o compartilhamento de dados científicos atualmente é uma tendência crescente,
principalmente nas ciências naturais, mas nem todos os campos do conhecimento a têm abraçado
com a mesma intensidade. As idiossincrasias particulares dos pesquisadores nas ciências sociais e
humanas resultam em poucos dados acessíveis. Como atenuante, a falta de compartilhamento pode
ser devido à falta de conhecimento sobre onde e como depositar os dados científicos. A Ciência
Aberta requer uma infraestrutura tecnológica adequada e um modelo de governança (OpenAire,
2017). Dados valiosos de pesquisa são perdidos ou destruídos devido à falta de estruturas para
organizá-los, protegê-los e disponibilizá-los ao longo do tempo. Essas infraestruturas fazem parte
de uma abordagem de compartilhamento e abertura de dados de acordo com os princípios FAIR
6
SILVA, Fabiano Couto Corrêa da; WITT, Amanda Santos; UMPIERRE, Larissa Weber; WENDT, Lucas George;
BOHNERT, Michele Krieger; WESSFLL, Wagner Silva. Diagnóstico dos Repositórios de Dados no Brasil.
Brazilian Journal of Information Science: research trends, vol. 17, publicação continua, 2023, e023031. DOI:
10.36311/1981-1640.2023.v17.e023031.
de "Findable, Accessible, Interoperable, Reusable" (Localizável, Acessível, Interoperável,
Reutilizável).
O depósito de um conjunto de dados em um repositório é geralmente acompanhado pela
captura ou coleta de informações (metadados) sobre os dados depositados, o que facilita a
compreensão e interpretação dos dados (por exemplo, cobertura geográfica, temporal, etc.). Além
dos metadados padrão como os metadados do Dublin Core que descrevem o autor, tulo, ano de
criação, etc. de um conjunto de dados, um repositório geralmente oferece um conjunto de
metadados específicos para o assunto, tema, disciplina (por exemplo, dados biológicos,
astronômicos, ambientais, etc.) dos dados que hospeda.
O armazenamento e o depósito de dados são duas coisas distintas: enquanto o
armazenamento diz respeito ao momento em que os dados são recolhidos e tratados, o depósito se
constitui em um processo de preservação, partilha e divulgação que permitirá estabelecer uma
ligação entre os dados e as publicações. O depósito dos dados é, portanto, garantia de transparência
e reprodutibilidade da pesquisa. Os dados depositados em um repositório existem
independentemente do artigo científico: eles devem ser descritos pelos metadados mais ricos
possíveis, a fim de encontrá-los facilmente para incentivar o compartilhamento e a reutilização. A
cada conjunto de dados é atribuído um identificador permanente ou número de acesso, que o torna
visível, acessível e citável, da mesma forma que a publicação. Os Repositórios de Dados
Científicos são, desse modo, bancos de dados projetados para hospedar, armazenar, tornar visíveis
e acessíveis os dados oriundos de pesquisas científicas. Seu papel é permitir que os dados sejam
depositados ou coletados, descritos, acessados e compartilhados para reutilização. Cada
repositório geralmente tem uma política para o depósito, descrição e divulgação de dados. Essas
infraestruturas fazem parte de uma abordagem de compartilhamento e abertura de dados de acordo
com os princípios FAIR.
O objetivo geral deste trabalho é apresentar um diagnóstico dos repositórios de dados
científicos no Brasil. Por sua vez, os objetivos específicos são:
Estabelecer um conjunto de parâmetros e indicadores para avaliar a qualidade dos
repositórios.
7
SILVA, Fabiano Couto Corrêa da; WITT, Amanda Santos; UMPIERRE, Larissa Weber; WENDT, Lucas George;
BOHNERT, Michele Krieger; WESSFLL, Wagner Silva. Diagnóstico dos Repositórios de Dados no Brasil.
Brazilian Journal of Information Science: research trends, vol. 17, publicação continua, 2023, e023031. DOI:
10.36311/1981-1640.2023.v17.e023031.
Aplicar os atributos elencados baseados em infraestruturas globais de sistemas de
arquivamento de dados na web.
Determinar um panorama amplo sobre os mecanismos de preservação e os conteúdos
contemplados nos repositórios analisados.
Um Repositório de Dados Científicos tem a função, portanto, de permitir o depósito, a sua
descrição, o seu acesso e o seu compartilhamento com vista à sua reutilização. Um dos critérios
para a escolha de um repositório pode ser a possibilidade de concessão de licença, exigindo a
citação dos criadores dos dados quando estes forem reutilizados. Os Repositórios de Dados
Científicos analisados no presente diagnóstico configuram-se como bancos de dados projetados
para hospedar, armazenar, tornar visíveis e acessíveis os dados oriundos de pesquisas científicas.
Seu papel é permitir que os dados sejam depositados ou coletados, descritos, acessados e
compartilhados para reutilização. Desse modo, embora cada repositório geralmente tenha uma
política para o depósito, descrição e divulgação de dados, o nosso foco reside na análise estrutural
das infraestruturas disponíveis, no que concerne às adequações para tornar os dados devidamente
registrados.
A fim de empreender um levantamento e análise dos Repositórios de Dados no Brasil, foi
realizada uma pesquisa para localizar os Repositórios de Dados que estão atualmente em operação.
Assim, representamos um diagnóstico sobre as principais áreas e recursos utilizados em âmbito
nacional para oferecer infraestruturas que suportam a complexidade da preservação de dados e
atendem a comunidade científica. De modo amplo, analisamos as principais características que
envolvem os repositórios de dados científicos em âmbito nacional, em relação às infraestruturas e
áreas predominantes.
2 Metodologia
A pesquisa é de natureza descritiva-explicativa, pois teve como objetivo fornecer uma
visão geral dos Repositórios de Dados no Brasil por intermédio de um levantamento de
infraestruturas online que hospedam dados científicos. Existem diretórios ou registros deste tipo
8
SILVA, Fabiano Couto Corrêa da; WITT, Amanda Santos; UMPIERRE, Larissa Weber; WENDT, Lucas George;
BOHNERT, Michele Krieger; WESSFLL, Wagner Silva. Diagnóstico dos Repositórios de Dados no Brasil.
Brazilian Journal of Information Science: research trends, vol. 17, publicação continua, 2023, e023031. DOI:
10.36311/1981-1640.2023.v17.e023031.
de ferramentas que fornecem conhecimento global da existência de diferentes tipos de repositórios,
incluindo os repositórios de dados. O problema identificado quando este trabalho começou foi a
existência de repositórios de dados de instituições brasileiras que não estão incluídas nestes
registros. Por este motivo, foi necessário realizar uma pesquisa sistemática para tentar dar conta
do universo de portais e repositórios de dados de pesquisa no Brasil. O levantamento foi realizado
no dia 19 de novembro de 2022.
Os passos para realizar esta pesquisa foram:
1. Revisão de cada um dos repositórios registrados nos seguintes diretórios: Registry of
Research Data Repositories (Re3Data), Directory of Open Access Repositories
(OpenDOAR) e Registry of Open Access Repositories (ROAR);
2. Identificação de registros de repositório com o mecanismo de busca Google, utilizando
como filtro os domínios existentes no Brasil e as seguintes palavras-chave:
1. portal dados abertos
2. repositório dados pesquisa
3. repositório dados científicos
4. repositório institucional
5. repositório;
3. Revisão de cada uma das 64 Universidades Federais registradas no portal do Ministério
da Educação.
3 Resultados
A seguir apresentaremos os resultados de acordo com os indicadores estabelecidos para
analisar as infraestruturas de repositórios de dados científicos no contexto brasileiro, a saber:
Identificação (instituição, estado, ano criação); Software, Identificador Persistente, Cobertura
temática, Tipo de repositório, Tipologia de arquivos, Versionamento, Vínculo institucional, Data
de criação, Região e Padrão de metadados.
9
SILVA, Fabiano Couto Corrêa da; WITT, Amanda Santos; UMPIERRE, Larissa Weber; WENDT, Lucas George;
BOHNERT, Michele Krieger; WESSFLL, Wagner Silva. Diagnóstico dos Repositórios de Dados no Brasil.
Brazilian Journal of Information Science: research trends, vol. 17, publicação continua, 2023, e023031. DOI:
10.36311/1981-1640.2023.v17.e023031.
Identificação dos repositórios:
Foram identificadas 20 organizações responsáveis pelas infraestruturas que reúnem os
conjuntos de dados por diferentes esquemas ou estruturas organizacionais, com o objetivo de
proporcionar opções de acesso aos utilizadores e assegurar um crescimento ordenado dos
repositórios analisados.
O levantamento realizado no diretório Re3Data apresentou 03 (três) consórcios em nível
nacional: Lattes Data (CNPq), FAPESP COVID-19 DataSharing/BR e Scielo Data. Também pelo
Re3Data foi possível identificar os repositórios que o Brasil participa em consórcios em nível
internacional: WorldClim - Global Climate Data, International Ocean Discovery Program e o
Global Collaboration Engine (GLOBE). Por meio do diretório OpenDoar identificamos os
repositórios CarpeDIEN: Dados e Informações em Energia Nuclear e o Portal de Dados Abertos
do TSE. No diretório ROAR identificamos o Portal Brasileiro de Dados Abertos, mas foi
descartado, por ser um metabuscador e não um repositório de dados. Já no buscador Google,
localizamos o Repositório de Dados da Universidade Federal do ABC; Embrapa: Geoinfo
(Infraestrutura de Dados Espaciais da Embrapa), Embrapa: Redape (Repositório de Dados de
Pesquisa da Embrapa) e a Sapientia: Repositório do Instituto Butantan.
O primeiro repositório identificado é oriundo de uma parceria brasileira junto ao
International Ocean Discovery Program, sob a supervisão da CAPES e de algumas instituições
associadas, tendo iniciado em 2013. Em nível estritamente nacional, foi localizado, por intermédio
do Re3Data, o Open Research Data @PUC-Rio, sendo o primeiro repositório, lançado em 2014.
Dentre os repositórios observados, salienta-se a distinção entre os que o Brasil atua como
colaborador em consórcios com outros países e os que são repositórios institucionais ou temáticos
que reúnem conjuntos de dados de pesquisas das instituições em âmbito nacional. No caso da
parceria com outros países, foram identificados os repositórios da International Ocean Discovery
Program e o WorldClim - Global Climate Data.