# Connaître les formats de données Atelier par Clément Renaud - Fréquence Ecoles - 20 Février 2014 ## Objectifs du cours * Alphabétisation aux formats de données standard * Conversion de jeux de données * Extraction de données depuix le web ## Vocabulaire de base ### Type de données * données tabulaires * données relationnelles * données de réseaux Présentation : la structure de la base de données d'un microblog ### Type de sources * fichier * site * API : http://explorer.content.guardianapis.com ### Anatomie d'une jeu de données * en-tête / header * colonne / column * ligne / row * valeur / value * base de données / database * clé primaire / primary key * table / table * matrice / matrix EXERCICE : créer une description du groupe d'apprenants ## Les formats de données [Afficher les extensions de données sous Windows](http://www.linternaute.com/hightech/encyclo-pratique/logiciels/windows-xp/1585/comment-afficher-l-extension-d-un-fichier-sous-windows.html) Général : Une [liste des types de fichiers](http://fr.wikipedia.org/wiki/Liste_d'extensions_de_fichiers) ### Données * pdf * xls * doc * txt * json * xml * tsv * csv Voir les exemples : * [Liste des bibliothèques publiques en 2011](http://www.data.gouv.fr/fr/dataset/adresses-des-bibliotheques-publiques) * [Liste des établissements d'enseignement des premier et second degrés](http://www.data.gouv.fr/fr/dataset/liste-des-etablissements-d-enseignement-des-premier-et-second-degres-du-ministere-de-l-educat-564055) ### Cartographie * GIS, ARCGIS, etc. * shp : shapefile * kml : google maps * geojson : web map Un exemple sur le site [Smart Data du Grand Lyon](http://smartdata.grandlyon.com/limitesadministratives/limite-administrative-du-grand-lyon-lieux-et-fdifices/) ### Images * bmp, jpeg, png, tiff, gif plus d'infos et détails sur [les formats d'images](http://www.cndp.fr/crdp-montpellier/images/articles/cd48/fichiers_pdf/formats_fichiers_images.pdf) ## Convertir les fichiers Comment convetir un fichier dans un autre format * [CSV > d'autres formats](http://www.convertcsv.com/csv-to-json.htm) ### PDF > CSV Solutions en ligne : * [PDF to Excel online](https://www.pdftoexcelonline.com/) * [Zamzar](http://www.zamzar.com/) * [Comet Docs](http://www.cometdocs.com/) * [DocumentCloud](http://www.documentcloud.org/home) et OpenCalais Le gagnant : * [Tabula](http://tabula.nerdpower.org/) Outils plus avancés: * [Data Science Toolkit](http://www.datasciencetoolkit.org/) * [Scraper Wiki](https://scraperwiki.com/) * [OKFN avec Python](http://okfnlabs.org/dataconverters/) ## Extraire des données d'une page Web Exemple : [Banque de France, Endettement des Agents non financiers - Comparaisons internationales](http://webstat.banque-france.fr/fr/browseTable.do?node=5384355) Plugins Google Chrome : * [Chrome plugin TableCapture](https://chrome.google.com/webstore/detail/table-capture/iebpjdmgckacbodjpijphcplhebcmeop/related) * [Chrome plugin Table2CSV](https://chrome.google.com/webstore/detail/table2csv/bcjpegmibcoolkaoloohgjcagfhifiah/related) Utiliser Google Drive : * Comprendre la structure d'une page web à l'aide de la console de Chrome ou Safari * [Utiliser Google Drive et la commande ImportHtml()](http://www.labnol.org/internet/import-html-in-google-docs/28125/) Autres solutions : * [Extraire des données du web avec ScraperWiki](http://datajournalismhandbook.org/1.0/en/getting_data_3.html) (en anglais) ## Autres ressources * http://gijn.org/resources/data-journalism/ * https://leanpub.com/scrapingforjournalists * http://clairemiller.net/blog/2012/01/huge-list-of-data-journalism-resources/