Kaggle : The Home of Data Science & Machine Learning
Kaggle, c'est vraiment là que cela se passe ... C'est une communauté allant du débutant aux meilleurs experts du machine learning. C'est aussi un site hyper complet qui propose une multitude de services. Google ne s'y est pas trompé puisqu'ils ont racheté Kaggle en mars dernier.
Le sujet Kaggle étant tellement vaste, je vous propose de consacrer ce premier article aux kernels, bases de données et tutoriaux fournis par Kaggle.
Il est en effet important de comprendre que Kaggle ne nécessite pas de charger des logiciels de data science sur votre ordinateur ou sur un serveur. Les 'kernels', c'est à dire les systèmes d'exploitation sont pré-chargés sur les serveurs de Kaggle et sont mis directement à votre disposition par le site.
Néanmoins, pour faire tourner des modèles, il est obligatoire de maîtriser quelques notions de base du langage informatique Python. Pour les 'épiciers', ce n'est pas forcément plus difficile que le Turbo Pascal que l'on apprenait pour le concours de l'Essec. Il existe aussi des cours bien faits et proposés par exemple par datacamp.
Le tutorial pour maîtriser les premières bases de Python et de statistiques vous mettra aussi directement dans le bain avec un set de données utilisant le Pokemon Challenge dont le but est de déterminer le gagnant d'une partie de Pokemon.
Personnellement, je me suis aussi essayé au Titanic Challenge dont le but est de construire un modèle permettant de prédire si un passager pourra survivre ou non au naufrage du Titanic. Kaggle va vous fournir l'ensemble des éléments pour créer votre modèle, en particulier la base des données propres à chaque passager. Le forum de discussion est une aide précieuse pour s'en sortir. C'est passionnant de construire son vrai premier modèle.
Je reviendrais plus particulièrement sur ce challenge, en particulier pour voir quels auraient été les résultats en faisant tourner les données du challenge dans Amazon Machine Learning (voir mon post anterieur).
Kaggle ne propose pas que des modèles fondés sur des données chiffrées. Il possible d'apprendre et de s’entraîner sur des problématiques utilisant par exemple les images ou du son. Plus de 2.000 équipes ont participé au Digigt Recognizer Challenge pour créer un modèle de reconnaissance d'image.
Amis VCs, la prochaine fois qu'une équipe vous dira qu'elle a développé ses propres moteurs de reconnaissance d'images, de voix ou autre algorithme intelligence artificielle... prenez cela avec un peu de recul :-)
Prochain article à paraître : les compétitions Kaggle