L'INGÉNIERIE DE DONNÉES AU TEMPS DE LA COVID-19

L'INGÉNIERIE DE DONNÉES AU TEMPS DE LA COVID-19

Le 24 septembre dernier, QuantumBlack, une filiale de McKinsey & Company dédiée à l’IA, organisait une courte conférence sur un projet récemment complété en lien avec la COVID-19.

CENTRE D’EXPERTISE EN IA

Créé en 2015, QuantumBlack a connu une croissance fulgurante depuis. À ses débuts, le groupe était composé de 30 personnes et aujourd’hui, il en compte plus de 500! Concrètement, QuantumBlack aide les entreprises à adopter et implémenter des solutions en intelligence artificielle dans une multitude de domaines. Par exemple, QuantumBlack tente d’optimiser la mise en marché de médicaments et de réduire les défectuosités dans les semi-conducteurs. 

PANDÉMIE ET BOULEVERSEMENTS

En mars 2020, l’OMS déclare que la COVID-19 est une pandémie et le nombre de cas monte en flèche. Les questions et inquiétudes soulevées par cette pandémie sont nombreuses : comment progressera-t-elle? Est-ce que le système de santé pourra répondre aux besoins des patients? Quels sont les scénarios possibles à long terme? Immédiatement, QuantumBlack a mis en place une équipe de 20 personnes (scientifiques et ingénieurs de données) pour développer des modèles en analytique avancée pour répondre à ces questions.

Non seulement la solution devait être prête dans un délai de 12 semaines, mais elle devait respecter de nombreuses exigences. Il fallait offrir des données pertinentes, peu importe l’emplacement géographique, mais assez spécifiques pour offrir une information pertinente à des industries pointues. Le résultat final est une plateforme web où les clients peuvent soumettre une demande d’information en sélectionnant des champs spécifiques. Un rapport adapté à leurs besoins est bâti automatiquement. Lors de l’atelier du 24 septembre, les responsables du projet nous présentaient les défis rencontrés et les apprentissages acquis lors de cette aventure.

DÉFIS ET APPRENTISSAGES

Dès le premier jour du projet, les ingénieurs devaient générer une valeur ajoutée pour leurs clients tout en créant des pipelines de données réutilisables et évolutives. Certains éléments ont considérablement augmenté la complexité de la tâche, notamment :

  • Bases de données complexes et nombreuses
  • Fréquence de mise-à-jour différente entre chaque source de donnée
  • Caractéristiques du virus (mortalité, transmission, etc.) qui évoluent constamment

Pour surmonter ces défis, les conférenciers ont d’abord souligné l’importance d’utiliser judicieusement GitHub, un service web d’hébergement et de gestion de développement de logiciels. Ils avaient donné à chaque membre de l’équipe soit le titre de propriétaire du code ou de contributeur, de telle sorte que chaque partie de code ait un responsable désigné. Également, ils ont misé sur un protocole d’assurance qualité rigoureux avec des tests unitaires automatisés.

Durant la période de questions qui concluait la séance, un participant a demandé qu’est-ce que le groupe avait le plus apprécié du projet. Sans hésitation, les informaticiens et mathématiciens ont mentionné avoir adoré travailler dans une équipe multidisciplinaire. Le projet en était un des plus significatifs et épanouissants.