La conférence pour l'éthique et la diversité dans la tech
avec des crêpes et du cœur Mixit heart

#WORKSHOP

Outils simples de visualisation pour le data scientist

Je présenterai les outils de visualisations pour la caractérisation et de modélisation d'un jeu de données (Python, Tableau), d'aide au nettoyage (Trifacta, Data wrangler) et la communication de résultats sur le web avec storytelling (D3JS, HighChart, NVD3).

Other Other

Toute données doit être visualisée, et à toute étape de leurs traitements. C'est un outil essentiel du data scientist.

La visualisation intervient depuis le nettoyage des données pour détecter des données manquantes, anomalies, et identifier leurs caractéristiques (type, domaine). Ensuite, pour la modélisation qui nécessite au préalable de bien comprendre la distribution, pour informer le choix du modèle, ses différents paramètres et échantillons de données. Enfin par la communication visuelle pour communiquer des résultats à un public à la foi expert mais aussi à une audience qui ne l'est pas forcément mais intéressée par le sujet (exemple: data journaliste)

Cet atelier sera très pratique avec l'utilisation d'un unique jeu de données qui passera par toutes ces étapes de traitements et de visualisation. Nous utiliserons des bibliothèques disponibles en ligne (Python, D3JS/HighChart/NVD3) pour former un pipeline de traitement, de l'extraction jusqu'à la présentation. Nous utiliserons aussi quelques outils parfois payant ou en version limitée pour montrer leur potentiel et leur rôle de ce pipeline de traitement de données (à titre informatif pour montrer leur rôle et potentiel). De nombreux exemples (historiques, emblématiques) de visualisations seront introduit (New York Times, d3 blocks, ..).

Enfin la conclusion de l'atelier sera d'initier les participants aux methodes de design via une session de 'design critique' où les participants seront invités à prototyper sur papier une visualisation liée aux données qui ont été présentées. Ensuite ces prototypes seront discutés afin d'en étudier les points positifs et négatifs. Et dans quelle mesure ces visualisations peut être faite ou customisées maintenant, ou celles qui sont propres à un sujet et nécessiterons un development pointu (e.g. New York Times).

Romain Vuillemot

Ma bio

Hosted and supported by