Aller au contenu principal
Encore 1/5 articles gratuits à lire
L'analyse de milliards de tweets, par des algorithme d'intelligence artificielle, permet notamment d'extraire des données libres de tout contexte médical.
© Dado Ruvic / Reuters

Santé numérique

Traquer les maladies, un tweet à la fois

Les traces que nous laissons sur la toile ne servent pas qu’à pister nos habitudes de consommation: elles sont également prisées des épidémiologistes qui les utilisent pour étudier des maladies

Un épidémiologiste «un peu geek» venu mettre une touche de numérique dans les pratiques de sa communauté: voilà comment se présente Marcel Salathé, 40 ans. Fer de lance de l’épidémiologie digitale dans son laboratoire de l’EPFL, le chercheur co-organise ces jeudi et vendredi à Genève un symposium sur la santé numérique et la médecine personnalisée. Il y racontera comment il fouille, à l’aide d’ordinateurs, des milliards de tweets afin d’en extraire des informations pertinentes destinées à étudier, façon web 2.0, la propagation des maladies.

A consulter également: notre dossier «médecine de précision»

Le Temps: Vous travaillez dans un champ d’études émergent, l’épidémiologie numérique. En quoi consiste votre travail?

Marcel Salathé: Lorsque des confrères épidémiologistes me posent la question, je leur réponds souvent que je suis leur collègue un peu geek venu pour leur donner un coup de main! En tant qu’épidémiologistes numériques, nous les aidons à faire sens des gigantesques masses de données informatiques qui constituent pour eux des sources inédites d’information.

Alors que leur travail habituel repose sur des données de nature biologique ou médicale, son pendant numérique s’appuie sur les traces que nous laissons sur internet, telles que nos publications sur les réseaux sociaux. Nous étudions ainsi les tweets postés sur Twitter ou les requêtes sur Google et essayons d’en déduire, par exemple, comment les épidémies de grippe se propagent.

- Quel est l’intérêt de ce type de données?

- C’est leur contexte. En épidémiologie classique, les données proviennent d’examens médicaux ou d’analyses biologiques, bref, d’un environnement purement médical. C’est un biais important: le fait d’être dans un cabinet, voire de remplir un questionnaire de santé, oriente fortement les réponses des participants.

Un tel biais est inexistant sur Twitter: les gens parlent librement sans savoir que nous allons utiliser leurs tweets a posteriori. De plus, chaque tweet est associé à une date de publication, voire à une géolocalisation, c’est donc une précision supplémentaire.

Bien sûr, travailler avec des tweets est un défi dans le sens où ces données sont dénuées de structure, il faut les «nettoyer» avant de pouvoir les utiliser. Mais en même temps, c’est une opportunité intéressante car ils renferment des informations qui nous échappent totalement en épidémiologie classique.

- Est-ce à dire que la manière dont on étudie les épidémies n’est plus satisfaisante?

- Non, pas du tout, et d’ailleurs nous ne sommes pas là pour remplacer les épidémiologistes! Ils font très bien leur travail, mais il existe selon moi trois principaux défauts que l’on pourrait corriger avec un savoir-faire numérique.

D’abord, dans les pays moins développés, l’épidémiologie classique atteint ses limites: très peu de gens peuvent consulter un médecin, alors qu’ils ont en général plus facilement accès à internet. Deuxième point, les données épidémiologiques sont biaisées: elles reposent plus sur les maladies (puisque nous n’allons consulter que lorsque nous sommes malades) que sur la santé. Enfin, la majorité des données restent prisonnières des établissements et des systèmes informatiques fermés dans lesquels elles ont été collectées, ce qui limite leur utilisation.

- Est-ce que vous vous sentez plutôt médecin, ou plutôt informaticien?

- Les deux. Disons que nous sommes animés par des questions d’ordre biologique, auxquelles nous répondons grâce à l’informatique.

- Pourquoi l’épidémiologie numérique fait-elle parler d’elle en ce moment? Internet et les réseaux sociaux ne datent pourtant pas d’hier…

- En fait, les premières idées remontent aux débuts d’internet. Mais démontrer qu’une nouvelle méthode a un intérêt prend du temps. C’est ainsi que fonctionne la science.

Et puis il faut garder en tête que nous travaillons avec d’importantes quantités de données: il a donc fallu attendre que les réseaux sociaux soient massivement adoptés avant de démarrer. N’oublions pas non plus que nous ne collectons que des données publiquement accessibles (c’est le cas des tweets), pas des statuts Facebook privés ou des historiques individuels de recherche sur Google. Forcément, cela prend plus de temps à collecter.

- Comment compareriez-vous la surveillance des épidémies d’il y a quinze ans avec celle que vous promouvez aujourd’hui?

- L’épidémiologie numérique est beaucoup plus rapide, plus réactive. Elle permet de répondre à des questions insolubles avec les outils classiques. Prenons l’exemple du débat sur la vaccination, qui fleurit sur les réseaux sociaux. En analysant les commentaires, nous pouvons en extraire du sens et obtenir des informations que nous n’aurions jamais acquises en temps normal.

Autre exemple, en cas d’épidémie dans un pays au système de santé peu développé, on ne peut absolument pas étudier les déplacements de population. En revanche, en examinant la géolocalisation des tweets publiés dans ce pays, on peut en avoir une idée bien plus précise.

- Comment analysez-vous les tweets? S’agit-il d’un travail automatisé ou bien est-il réalisé par des humains?

- C’est un mélange des deux. Le gros du travail est assuré par des machines capables d’analyser d’énormes quantités de données en très peu de temps. Elles réalisent, grâce à des algorithmes d’intelligence artificielle dits d’apprentissage automatique («machine learning»), un premier tri des tweets en éliminant les messages inutiles et en gardant ceux qui nous intéressent.

Ensuite, des êtres humains prennent le relais en contrôlant si les tweets conservés sont bien utilisables pour notre étude. A l’avenir, la partie humaine devrait cependant tendre à la diminution. Les algorithmes apprennent en effet de leurs erreurs et deviennent chaque jour de plus en plus performants. Bientôt, ils seront meilleurs que nous.

- Qu’en pensent les grandes instances de santé publique telles que l’Organisation mondiale de la santé (OMS)?

- Il serait prématuré de dire qu’elles intègrent l’épidémiologie numérique dans leurs opérations. Disons qu’elles se montrent très enthousiastes et qu’elles suivent nos travaux, et ceux des autres équipes, avec intérêt. Que l’on parle de l’OMS ou des centres européen ou américain de prévention et de contrôle des maladies, il s’agit d’instances qui avancent avec prudence et c’est la moindre des choses lorsque l’on agit sur la santé publique.

- Selon vous, à quoi ressemblera l’épidémiologie dans dix ans?

- Difficile de répondre, compte tenu de l’évolution rapide des technologies. Si on devait dégager quelques tendances je dirais que la partie numérique fera peu à peu partie du quotidien de l’épidémiologiste. Peut-être travaillerons-nous aussi avec d’autres services que Twitter.

- Des services plus respectueux de la vie privée?

- Ce qui est certain, c’est que de plus en plus de données vont circuler en court-circuitant les instances de santé. Elles iront directement du consommateur au service, il faudra donc réfléchir à la manière dont on veut les protéger, ce qui constitue un important défi en termes de confidentialité.

A ce titre, la Suisse constitue un parfait laboratoire pour expérimenter cela à grande échelle. Certaines plateformes suisses innovantes telles que Healthbank. coop ou Midata. coop proposent ainsi de centraliser toutes nos données personnelles relatives à la santé en un seul et même endroit, un peu comme une banque stocke notre argent. Pour accéder à ces données, chaque service, chaque laboratoire doit demander une autorisation. C’est une idée intéressante à expérimenter, car cela garantit à la fois la confidentialité tout en donnant un accès sécurisé aux données dont la science a besoin pour progresser.

Dossier
Santé personnalisée: espoirs et enjeux

Publicité
Publicité

La dernière vidéo sciences

Sécheresse et feux de forêts vus de l’espace

Chaque année, 350 millions d’hectares de forêts, friches et cultures sont ravagés par des incendies, soit la taille de l’Inde. L’astronaute allemand Alexander Gerst partage sur Twitter sa vue panoramique sur le réchauffement climatique depuis la Station spatiale internationale

Sécheresse et feux de forêts vus de l’espace

This handout picture obtained from the European Space Agency (ESA) on August 7, 2018 shows a view taken by German astronaut and geophysicist Alexander Gerst, showing wildfires in the state of California as seen from the International Space Station…
© ALEXANDER GERST