Ce sont les meilleures sources de données ouvertes gratuites que tout le monde peut utiliser

Qu'est-ce que l'Open Data?

En termes simples, Open Data désigne le type de données qui est ouvert à tout le monde pour l'accès, la modification, la réutilisation et le partage.

L'Open Data tire sa base de divers «mouvements ouverts» tels que l'open source, le matériel ouvert, le gouvernement ouvert, la science ouverte, etc.

Les gouvernements, les organisations indépendantes et les agences se sont manifestés pour ouvrir les vannes des données afin de créer de plus en plus de données ouvertes pour un accès gratuit et facile.

Pourquoi les données ouvertes sont-elles importantes?

Les données ouvertes sont importantes car le monde est de plus en plus axé sur les données. Mais s'il y a des restrictions sur l'accès et l'utilisation des données, l'idée d'entreprise et de gouvernance axée sur les données ne se matérialisera pas.

Par conséquent, les données ouvertes ont leur propre place unique. Cela peut permettre une meilleure compréhension des problèmes mondiaux et des problèmes universels. Cela peut donner un gros coup de pouce aux entreprises. Cela peut être une excellente impulsion pour l'apprentissage automatique. Il peut aider à lutter contre les problèmes mondiaux tels que la maladie, la criminalité ou la famine. Les données ouvertes peuvent autonomiser les citoyens et par conséquent renforcer la démocratie. Il peut rationaliser les processus et les systèmes que la société et les gouvernements ont mis en place. Cela peut aider à transformer la façon dont nous comprenons et interagissons avec le monde.

Voici donc ma liste de 15 formidables sources Open Data:

1. Données ouvertes de la Banque mondiale

En tant que référentiel des données les plus complètes au monde sur ce qui se passe dans différents pays du monde, les données ouvertes de la Banque mondiale sont une source vitale de données ouvertes. Il permet également d'accéder à d'autres ensembles de données qui sont mentionnés dans le catalogue de données.

Les données ouvertes de la Banque mondiale sont massives car elles contiennent 3000 ensembles de données et 14000 indicateurs englobant des microdonnées, des statistiques de séries chronologiques et des données géospatiales.

L'accès et la découverte des données souhaitées sont également assez faciles. Tout ce que vous avez à faire est de spécifier les noms des indicateurs, les pays ou les sujets et cela vous ouvrira le trésor de l'Open Data. Il vous permet également de télécharger des données dans différents formats tels que CSV, Excel et XML.

Si vous êtes journaliste ou universitaire, vous serez fasciné par l'éventail d'outils mis à votre disposition. Vous pouvez accéder à des outils d'analyse et de visualisation qui peuvent renforcer votre recherche. Cela peut favoriser une compréhension plus profonde et meilleure des problèmes mondiaux.

Vous pouvez accéder à l'API qui peut vous aider à créer les visualisations de données dont vous avez besoin, des combinaisons en direct avec d'autres sources de données et bien d'autres fonctionnalités de ce type.

Par conséquent, il n'est pas surprenant que l'Open Data de la Banque mondiale soit en tête de toutes les sources de données ouvertes!

2. OMS (Organisation mondiale de la Santé) - Répertoire de données ouvertes

Le référentiel de données ouvertes de l'OMS permet à l'OMS de suivre les statistiques spécifiques à la santé de ses 194 États Membres.

Le référentiel maintient les données systématiquement organisées. Il peut être consulté selon différents besoins. Par exemple, qu'il s'agisse de mortalité ou de fardeau des maladies, on peut accéder à des données classées sous 100 catégories ou plus telles que les objectifs du Millénaire pour le développement (nutrition infantile, santé infantile, santé maternelle et reproductive, vaccination, VIH / SIDA, tuberculose, paludisme, maladies négligées, eau et assainissement), maladies non transmissibles et facteurs de risque, maladies à tendance épidémique, systèmes de santé, santé environnementale, violence et traumatismes, équité, etc.

Pour vos besoins spécifiques, vous pouvez parcourir les ensembles de données selon les thèmes, la catégorie, l'indicateur et le pays.

La bonne chose est qu'il est possible de télécharger toutes les données dont vous avez besoin au format Excel. Vous pouvez également surveiller et analyser les données en utilisant son portail de données.

L'API du contenu des données et statistiques de l'Organisation mondiale de la santé est également disponible.

3. Google Public Data Explorer

Lancé en 2010, Google Public Data Explorer peut vous aider à explorer de vastes quantités d'ensembles de données d'intérêt public. Vous pouvez visualiser et communiquer les données pour vos utilisations respectives.

Il met à disposition les données de différentes agences et sources. Par exemple, vous pouvez accéder aux données de la Banque mondiale, du Bureau américain des statistiques du travail et du Bureau américain, de l'OCDE, du FMI, etc.

Différentes parties prenantes accèdent à ces données à diverses fins. Que vous soyez étudiant ou journaliste, que vous soyez un décideur politique ou un universitaire, vous pouvez utiliser cet outil pour créer des visualisations de données publiques.

Vous pouvez déployer diverses manières de représenter les données telles que des graphiques linéaires, des graphiques à barres, des cartes et des graphiques à bulles à l'aide de Data Explorer.

La meilleure partie est que vous trouveriez ces visualisations assez dynamiques. Cela signifie que vous les verrez changer avec le temps. Vous pouvez changer de sujet, vous concentrer sur différentes entrées et modifier l'échelle.

Il est également facilement partageable. Dès que vous préparez le graphique, vous pouvez l'intégrer sur votre site Web ou votre blog ou simplement partager un lien avec vos amis.

4. Registre des données ouvertes sur AWS (RODA)

Il s'agit d'un référentiel contenant des ensembles de données publics. Ce sont des données disponibles à partir des ressources AWS.

En ce qui concerne RODA, vous pouvez découvrir et partager les données qui sont accessibles au public.

Dans RODA, vous pouvez utiliser des mots-clés et des balises pour des types de données courants tels que la génomique, l'imagerie satellite et le transport afin de rechercher les données que vous recherchez. Tout cela est possible sur une simple interface Web.

Pour chaque jeu de données, vous découvrirez une page de détail, des exemples d'utilisation, des informations de licence et des didacticiels ou applications utilisant ces données.

En utilisant une large gamme de produits de calcul et d'analyse de données, vous pouvez analyser les données ouvertes et créer les services de votre choix.

Bien que les données auxquelles vous accédez soient disponibles via les ressources AWS, vous devez garder à l'esprit qu'elles ne sont pas fournies par AWS. Ces données appartiennent à différentes agences, organisations gouvernementales, chercheurs, entreprises et particuliers.

5. Portail des données ouvertes de l'Union européenne

Vous pouvez accéder à toutes les données ouvertes que les institutions, agences et autres organisations de l'UE publient sur une plate-forme unique, à savoir le portail des données ouvertes de l'Union européenne.

Le portail des données ouvertes de l'UE héberge des données ouvertes vitales relatives aux domaines politiques de l'UE. Ces domaines politiques comprennent l'économie, l'emploi, la science, l'environnement et l'éducation.

Environ 70 institutions, organisations ou services de l'UE tels qu'Eurostat, l'Agence européenne pour l'environnement, le Centre commun de recherche et d'autres directions générales de la Commission européenne et agences de l'UE ont rendu leurs ensembles de données publics et en ont autorisé l'accès. Ces ensembles de données ont dépassé le nombre de 11700 jusqu'à ce jour.

Le portail permet un accès facile. Vous pouvez facilement rechercher, explorer, lier, télécharger et réutiliser les données via un catalogue de métadonnées communes. Vous pouvez le faire pour vos besoins spécifiques. Cela peut être à des fins commerciales ou non commerciales.

Vous pouvez rechercher dans le catalogue de métadonnées via un moteur de recherche interactif (onglet Données) et des requêtes SPARQL (onglet Données liées).

En utilisant ce catalogue, vous pouvez accéder aux données stockées sur les différents sites Web des institutions, agences et organisations de l'UE.

6. FiveThirtyEight

C'est un excellent site pour le journalisme et la narration basés sur les données.

Il fournit ses différentes sources de données pour une variété de secteurs tels que la politique, le sport, la science, l'économie, etc. Vous pouvez également télécharger les données.

Lorsque vous accédez aux données, vous rencontrerez une brève explication concernant chaque ensemble de données par rapport à sa source. Vous apprendrez également à savoir ce qu'il représente et comment l'utiliser.

Afin de rendre ces données conviviales, il fournit des ensembles de données dans des formats aussi simples et non propriétaires que possible, tels que des fichiers CSV. Inutile de dire que ces formats peuvent être facilement accessibles et traités par les humains ainsi que par les machines.

À l'aide de ces ensembles de données, vous pouvez créer des histoires et des visualisations selon vos propres besoins et préférences.

7. Bureau américain du recensement

Le US Census Bureau est le plus grand organisme statistique du gouvernement fédéral. Il stocke et fournit des faits et des données fiables concernant les personnes, les lieux et l'économie de l'Amérique.

Le Bureau du recensement considère sa noble mission d'étendre ses services en tant que fournisseur le plus fiable de données de qualité.

Qu'il s'agisse d'un gouvernement fédéral, d'État, local ou tribal, tous utilisent les données du recensement à diverses fins. Ces gouvernements utilisent ces données pour déterminer l'emplacement des nouveaux logements et des installations publiques. Ils l'utilisent également au moment de l'examen des caractéristiques démographiques des communautés, des États et des États-Unis.

Ces données sont également utilisées dans la planification des systèmes de transport et des routes. Lorsqu'il s'agit de décider des quotas et de créer des postes de police et d'incendie, ces données sont utiles. Lorsque les gouvernements créent des zones locales d'élections, d'écoles, de services publics, etc., ils utilisent ces données. C'est une pratique de compiler des informations démographiques une fois par décennie et ces données sont très utiles pour accomplir la même chose.

Il existe divers outils tels que American Fact Finder, Census Data Explorer et Quick Facts qui sont utiles au cas où vous souhaiteriez rechercher, personnaliser et visualiser des données.

Par exemple, Quick Facts contient à lui seul des statistiques pour tous les États, comtés, villes et même villes de 5 000 habitants ou plus.

De même, American Fact Finder peut vous aider à découvrir des faits populaires tels que la population, le revenu, etc. Il fournit des informations fréquemment demandées.

L'avantage est que vous pouvez rechercher, interagir avec les données, vous familiariser avec les statistiques populaires et voir les graphiques associés via le Census Data Explorer. De plus, vous pouvez également utiliser un outil visuel pour personnaliser les données sur une expérience de cartes interactives.

8. Data.gov

Data.gov est le trésor des données ouvertes du gouvernement américain. Ce n'est que récemment que la décision a été prise de rendre toutes les données gouvernementales disponibles gratuitement.

Lors de son lancement, il n'y en avait que 47. Il existe aujourd'hui 180 000 ensembles de données.

Pourquoi Data.gov est une excellente ressource parce que vous pouvez trouver des données, des outils et des ressources que vous pouvez déployer à diverses fins. Vous pouvez mener vos recherches, développer vos applications web et mobiles et même concevoir des visualisations de données.

Tout ce que vous avez à faire est de saisir des mots-clés dans la zone de recherche et de parcourir les types, les balises, les formats, les groupes, les types d'organisation, les organisations et les catégories. Cela facilitera l'accès aux données ou aux ensembles de données dont vous avez besoin.

Data.gov suit le schéma de données ouvertes du projet - un ensemble de champs requis (titre, description, balises, dernière mise à jour, éditeur, nom du contact, etc.) pour chaque ensemble de données affiché sur Data.gov.

9. DBpedia

Comme vous le savez, Wikipedia est une excellente source d'informations. DBpedia vise à obtenir un contenu structuré à partir des informations précieuses créées par Wikipédia.

Avec DBpedia, vous pouvez rechercher et explorer sémantiquement les relations et les propriétés de la ressource Wikipedia. Cela inclut également des liens vers d'autres ensembles de données connexes.

Il y a environ 4,58 millions d'entités dans l'ensemble de données DBpedia. 4,22 millions sont classés en ontologie, dont 1 445 000 personnes, 735 000 lieux, 123 000 albums de musique, 87 000 films, 19 000 jeux vidéo, 241 000 organisations, 251 000 espèces et 6 000 maladies.

Il existe des étiquettes et des résumés pour ces entités dans environ 125 langues. Il existe 25,2 millions de liens vers des images. Il existe 29,8 millions de liens vers des pages Web externes.

Tout ce que vous devez faire pour utiliser DBpedia est d'écrire des requêtes SPARQL sur un point final ou en téléchargeant leurs vidages.

DBpedia a profité à plusieurs entreprises, comme Apple (via Siri), Google (via Freebase et Google Knowledge Graph), et IBM (via Watson), et notamment leurs projets prestigieux respectifs associés à l'intelligence artificielle.

10. Données ouvertes freeCodeCamp

C'est une communauté open source. Ce qui compte, c'est que cela vous permet de coder, de créer des projets pro bono après des organisations à but non lucratif et de décrocher un emploi de développeur.

Pour y parvenir, la communauté freeCodeCamp.org met à disposition d'énormes quantités de données chaque mois. Ils en ont fait des données ouvertes.

Vous trouverez une variété de choses dans ce référentiel. Vous pouvez trouver des ensembles de données, des analyses de ceux-ci et même des démos de projets basés sur les données freeCodeCamp. Vous pouvez également trouver des liens vers des projets externes impliquant les données freeCodeCamp.

Il peut vous aider avec une diversité de projets et de tâches que vous pourriez avoir à l'esprit. Qu'il s'agisse d'analyse Web, d'analyse des médias sociaux, d'analyse de réseaux sociaux, d'analyse de l'éducation, de visualisation de données, de développement Web basé sur les données ou de bots, les données offertes par cette communauté peuvent être extrêmement utiles et efficaces.

11. Ensembles de données ouverts Yelp

L'ensemble de données Yelp est essentiellement un sous-ensemble de rien d'autre que nos propres entreprises, avis et données d'utilisateurs à utiliser dans des activités personnelles, éducatives et académiques.

Il y a 5 996 996 avis, 188 593 entreprises, 280 991 photos et 10 zones métropolitaines incluses dans les ensembles de données ouverts Yelp.

Vous pouvez les utiliser à des fins différentes. Comme ils sont disponibles sous forme de fichiers JSON, vous pouvez les utiliser pour enseigner aux étudiants les bases de données. Vous pouvez les utiliser pour apprendre la PNL ou pour obtenir des exemples de données de production tout en comprenant comment concevoir des applications mobiles.

Dans cet ensemble de données, vous trouverez chaque fichier composé d'un seul type d'objet, un objet JSON par ligne.

12. Ensemble de données de l'UNICEF

Étant donné que l'UNICEF se préoccupe d'un large éventail de problèmes critiques, il a compilé des données pertinentes sur l'éducation, le travail des enfants, le handicap infantile, la mortalité infantile, la mortalité maternelle, l'eau et l'assainissement, l'insuffisance pondérale à la naissance, les soins prénatals, la pneumonie, le paludisme, la carence en iode désordre, mutilation / excision génitale féminine et adolescents.

Les ensembles de données ouverts de l'UNICEF publiés sur le registre de l'IITA: //www.iatiregistry.org/publisher/unicef ​​ont été extraits directement du système d'exploitation de l'UNICEF (VISION) et d'autres systèmes de données, et reflètent les contributions des différents bureaux de l'UNICEF.

La bonne chose est qu'il y a une mise à jour régulière de ces ensembles de données. Chaque mois, les données sont mises à jour afin de les rendre plus complètes, fiables et précises.

Vous pouvez accéder librement et facilement à ces données. Pour ce faire, vous pouvez télécharger ces données au format CSV. Vous pouvez également prévisualiser des exemples de données avant de les télécharger.

Bien que tout le monde puisse explorer et visualiser les ensembles de données de l'UNICEF, il existe trois principaux éditeurs:

PORTAIL DE L'UNICEF POUR LA TRANSPARENCE DE L'AIDE: Vous pouvez accéder beaucoup plus facilement aux ensembles de données si vous utilisez ce portail. Il comprend également des détails sur chaque pays dans lequel l'UNICEF travaille.

Editeur d-portal: Il est, pour le moment, en BETA. Avec ce portail, vous pouvez explorer les données de l'IITA.

Vous pouvez rechercher les informations relatives aux activités de développement, aux budgets, etc. Vous pouvez explorer ces informations par pays.

Plateforme de données de l'éditeur: sur cette plateforme, vous pouvez facilement accéder aux statistiques, graphiques et métriques sur les données accessibles via le registre de l'IITA. Si vous cliquez sur les en-têtes, vous pouvez également trier de nombreux tableaux que vous voyez sur la plate-forme. Vous trouverez également de nombreux ensembles de données dans les plates-formes au format JSON lisible par machine.

13. Kaggle

Kaggle est génial car il favorise l'utilisation de différents formats de publication d'ensembles de données. Cependant, la meilleure partie est qu'il recommande fortement que les éditeurs de jeux de données partagent leurs données dans un format accessible et non propriétaire.

La plateforme prend en charge les formats de données ouverts et accessibles. C'est important non seulement pour l'accès, mais aussi pour tout ce que vous voulez faire avec ces données. Par conséquent, Kaggle Dataset définit clairement les formats de fichiers recommandés lors du partage de données.

La particularité des ensembles de données Kaggle est qu'il ne s'agit pas simplement d'un référentiel de données. Chaque ensemble de données représente une communauté qui vous permet de discuter des données, de découvrir des codes et des techniques publics et de conceptualiser vos propres projets dans les noyaux.

CSV, JSON, SQLite, Archive, Big Query, etc. sont des types de fichiers pris en charge par Kaggle. Vous pouvez trouver une variété de ressources pour commencer à travailler sur votre projet de données ouvertes.

La meilleure partie est que Kaggle vous permet de publier et de partager des ensembles de données en privé ou en public.

14. LODUM

Il s'agit de l'initiative Open Data de l'Université de Münster. Dans le cadre de cette initiative, il est possible à quiconque d'accéder à toute information publique sur l'université dans des formats lisibles par machine. Vous pouvez facilement y accéder et le réutiliser selon vos besoins.

Des données ouvertes sur les artefacts scientifiques et encodées sous forme de données liées sont mises à disposition dans le cadre de ce projet.

À l'aide des données liées, il est possible de partager et d'utiliser des données, des ontologies et diverses normes de métadonnées. Il est en fait envisagé que ce soit la norme acceptée pour fournir des métadonnées et les données elles-mêmes sur le Web.

L'équipe LODUM a co-initié LinkedUniversities.org et LinkedScience.org.

Vous pouvez utiliser l'éditeur SPARQL ou le package SPARQL de R pour analyser les données.

Le package SPARQL permet de se connecter à un endpoint SPARQL via HTTP, de poser une requête SELECT ou une requête de mise à jour (LOAD, INSERT, DELETE).

15. Référentiel UCI Machine Learning

Il sert de référentiel complet de bases de données, de théories de domaine et de générateurs de données qui sont utilisés par la communauté d'apprentissage automatique pour l'analyse empirique des algorithmes d'apprentissage automatique.

Dans ce référentiel, il existe actuellement 463 ensembles de données en tant que service pour la communauté d'apprentissage automatique.

Le Center for Machine Learning and Intelligent Systems de l'Université de Californie à Irvine l'héberge et le maintient. David Aha l'avait initialement créé en tant qu'étudiant diplômé à l'UC Irvine.

Depuis lors, les étudiants, les enseignants et les chercheurs du monde entier l'utilisent comme une source fiable d'ensembles de données d'apprentissage automatique.

Son fonctionnement est que chaque ensemble de données a sa page Web distincte qui répertorie tous les détails connus, y compris toutes les publications pertinentes qui l'étudient. Vous pouvez télécharger ces ensembles de données sous forme de fichiers ASCII, souvent au format CSV utile.

Les détails des ensembles de données sont résumés par des aspects tels que les types d'attributs, le nombre d'instances, le nombre d'attributs et l'année de publication qui peuvent être triés et recherchés.

Portails de données ouvertes et moteurs de recherche:

Bien qu'il existe de nombreux ensembles de données publiés par de nombreuses agences chaque année, très peu d'ensembles de données sont reconnus et établis.

La raison pour laquelle très peu de ces ensembles de données sont considérés comme des ressources utiles est qu'il est difficile de développer, gérer et fournir les données d'une manière que les personnes et les organisations les trouvent utiles et faciles à utiliser.

Cependant, veuillez trouver ci-dessous une liste de quelques autres portails et plates-formes de données ouvertes importants qui permettent aux utilisateurs d'accéder assez facilement aux données ouvertes, d'étudier l'impact et de recueillir des informations précieuses.

  1. Recherche d'ensembles de données Google
  2. Dataverse
  3. Kit de données ouvertes
  4. Ckan
  5. Moniteur de données ouvertes
  6. Plenar.io
  7. Carte d'impact des données ouvertes

Conclusion

Les données ouvertes sont à l'ordre du jour. Le monde a progressivement commencé à évoluer vers des systèmes ouverts et les données ouvertes sont à juste titre synchronisées avec cela.

Les entreprises et les organisations qui exploitent les données ouvertes acquerront un avantage concurrentiel et pourront dominer l'avenir.