Acesso Rápido: Docentes | Alunos | Funcionários | Visitantes

Google Dataset Search - Pesquisa de conjunto de dados

Google Dataset Search – Facilitando a descoberta de conjuntos de dados

Link: https://www.sibi.usp.br/?p=37231



No mundo de hoje, cientistas em muitas disciplinas e um número crescente de jornalistas vivem e respiram dados. Existem muitos milhares de repositórios de dados na web, fornecendo acesso a milhões de conjuntos de dados; e os governos locais e nacionais em todo o mundo também publicam seus dados. Para facilitar o acesso a esses dados, foi lançada a Pesquisa Google de Conjunto de Dados, para que cientistas, jornalistas de dados, “geeks” de dados ou qualquer outra pessoa possam encontrar os dados necessários para seu trabalho e suas histórias, ou simplesmente para satisfazer sua curiosidade intelectual.

Semelhante ao funcionamento do Google Scholar, a Pesquisa Google de conjunto de dados permite que você encontre conjuntos de dados onde quer que eles estejam hospedados, seja no site de um editor, em uma biblioteca digital ou uma página web pessoal do autor. Para criar uma pesquisa de conjunto de dados, desenvolvemos diretrizes para provedores de conjunto de dados para descrever seus dados de uma forma que o Google (e outros mecanismos de busca) possam entender melhor o conteúdo de suas páginas. 

Essas diretrizes incluem informações importantes sobre conjuntos de dados: quem criou o conjunto de dados, quando foi publicado, como os dados foram coletados, quais são os termos utilizados para definir os dados etc. Coletamos e vinculamos essas informações, analisamos onde podem estar as diferentes versões de um mesmo conjunto de dados e encontramos publicações que podem estar descrevendo ou discutindo o conjunto de dados. Nossa abordagem é baseada em um padrão aberto para descrever essas informações (schema.org) e qualquer pessoa que publique dados pode descrever seu conjunto de dados dessa maneira. Incentivamos os provedores de conjunto de dados, grandes e pequenos, a adotarem esse padrão comum, de modo que todos os conjuntos de dados façam parte desse ecossistema robusto.

Nesta nova versão, você pode encontrar referências à maioria dos conjuntos de dados em ciências ambientais e sociais, bem como dados de outras disciplinas, incluindo dados do governo e dados fornecidos por organizações de notícias, como a ProPublica. À medida que mais repositórios de dados usam o padrão schema.org para descrever seus conjuntos de dados, a variedade e a cobertura dos conjuntos de dados que os usuários encontrarão na Pesquisa de conjunto de dados continuarão crescendo.

A pesquisa de conjunto de dados funciona em vários idiomas, com suporte para idiomas adicionais em breve. Basta digitar o que você está procurando e nós ajudaremos a guiá-lo ao conjunto de dados publicado no site do provedor de repositório.

Por exemplo, se você quisesse analisar os registros meteorológicos diários, poderia tentar essa consulta na Pesquisa de conjunto de dados:

conjunto de dados

Você verá dados da NASA e da NOAA, bem como de repositórios acadêmicos como o Dataverse de Harvard e o Consórcio Interuniversitário de Pesquisa Política e Social (ICPSR). Ed Kearns, diretor de dados da NOAA, é um forte defensor desse projeto e ajudou a NOAA a tornar muitos de seus conjuntos de dados pesquisáveis nessa ferramenta. “Esse tipo de busca tem sido o sonho de muitos pesquisadores nas comunidades de dados abertos e ciências”, disse ele. “E para a NOAA, cuja missão inclui o compartilhamento de nossos dados com outras pessoas, essa ferramenta é fundamental para tornar nossos dados mais acessíveis a uma comunidade ainda maior de usuários”.

Este lançamento é uma de uma série de iniciativas para trazer conjuntos de dados de forma mais proeminente para nossos produtos. Recentemente, ficou mais fácil descobrir dados tabulares na Pesquisa, que usa esses mesmos metadados junto com os dados tabulares vinculados para fornecer respostas a consultas diretamente nos resultados de pesquisa. Embora essa iniciativa tenha se concentrado mais em organizações de notícias e jornalistas de dados, a pesquisa de Dataset pode ser útil para um público muito mais amplo, esteja você procurando dados científicos, dados governamentais ou dados fornecidos por organizações de notícias.

Uma ferramenta de pesquisa como essa é tão boa quanto os metadados que os editores de dados estão dispostos a fornecer. Esperamos ver muitos de vocês usando os padrões abertos para descrever seus dados, permitindo que os usuários encontrem os dados que estão procurando. Se você publicar dados e não os constatar nos resultados, acesse nossas instruções no site de nossos desenvolvedores, que também inclui um link para fazer perguntas e fornecer feedback.

Este post é uma tradução do artigo de Natasha Noy, Cientista Pesquisadora de Inteligência Artificial do Google, intitulado Making it easier to discover datasets e disponível em: https://www.blog.google/products/search/making-it-easier-discover-datasets/

FONTE DA NOTÍCIA:

Divisão de Gestão de Desenvolvimento e Inovação
Departamento Técnico - SIBiUSP
Fone: +5511-3091-4195

 

Término: 
24/05/2019

Desenvolvido por IFUSP