Outils simples de visualisation pour le data scientist


Je présenterai les outils de visualisations pour la caractérisation et de modélisation d'un jeu de données (Python, Tableau), d'aide au nettoyage (Trifacta, Data wrangler) et la communication de résultats sur le web avec storytelling (D3JS, HighChart, NVD3).


Toute données doit être visualisée, et à toute étape de leurs traitements. C'est un outil essentiel du data scientist.

La visualisation intervient depuis le nettoyage des données pour détecter des données manquantes, anomalies, et identifier leurs caractéristiques (type, domaine). Ensuite, pour la modélisation qui nécessite au préalable de bien comprendre la distribution, pour informer le choix du modèle, ses différents paramètres et échantillons de données. Enfin par la communication visuelle pour communiquer des résultats à un public à la foi expert mais aussi à une audience qui ne l'est pas forcément mais intéressée par le sujet (exemple: data journaliste)

Cet atelier sera très pratique avec l'utilisation d'un unique jeu de données qui passera par toutes ces étapes de traitements et de visualisation. Nous utiliserons des bibliothèques disponibles en ligne (Python, D3JS/HighChart/NVD3) pour former un pipeline de traitement, de l'extraction jusqu'à la présentation. Nous utiliserons aussi quelques outils parfois payant ou en version limitée pour montrer leur potentiel et leur rôle de ce pipeline de traitement de données (à titre informatif pour montrer leur rôle et potentiel). De nombreux exemples (historiques, emblématiques) de visualisations seront introduit (New York Times, d3 blocks, ..).

Enfin la conclusion de l'atelier sera d'initier les participants aux methodes de design via une session de 'design critique' où les participants seront invités à prototyper sur papier une visualisation liée aux données qui ont été présentées. Ensuite ces prototypes seront discutés afin d'en étudier les points positifs et négatifs. Et dans quelle mesure ces visualisations peut être faite ou customisées maintenant, ou celles qui sont propres à un sujet et nécessiterons un development pointu (e.g. New York Times).


#WORKSHOP en Français

Romain Vuillemot

LIRIS Ecole Centrale de Lyon

Ma bio



Autres talks de Romain

  • 2018 - Dataviz sans data: le prototypage rapide de visualisation de données.. sans données!

    Romain Vuillemot

    Les dataviz sont de plus en plus populaires mais restent difficile à créer. Ce workshop propose a pour but d'initier les participants aux méthodes de prototypes de visualisation de données sous forme de grids et de maquettes interactives, en noir et blanc. La particularité du prototypage sera d'être réalisé en live coding en JavaScript.


  • 2017 - La DataViz avancée sur le Web en JavaScript avec D3.js

    Romain Vuillemot

    D3.js est depuis quelques années la bibliothèque standard pour la création de visualisation de données (dataviz) sur le web. Il est donc indispensable de maîtriser cette bibliothèque si un programmeur souhaite :

    • Créer sa propre dataviz from scratch à partir de mockups
    • Adapter un des nombreux exemples D3.js disponibles sur https://d3js.org/
    • Contribuer à une bibliothèque de visualisation basée sur D3.js (c3js, nvd3, ..)
    • Intégrer une visualization ou une bibliothèque basée sur D3.js dans un framework (react, angular) sous forme de component