TEST 15 JOURS

Les données de santé

Les données de santé sont devenues le nerf de la guerre pour l'ensemble de l'écosystème. Le volume mondial de ces données aurait atteint cette année 2,3 milliards de giga-octets. Les enjeux sont tout aussi divers qu'essentiels : accélérer la recherche, améliorer le parcours de soins, mieux cibler ses actions de marketing... Mais la masse de données aujourd'hui disponibles requiert obligations réglementaires et nouvelles technologies. Quelles sont-elles ? Qui sont les acteurs à suivre et quels sont les chiffres à connaître ? mind Health vous donne toutes les ressources nécessaires à la maîtrise de cet enjeu.

Par La rédaction. Publié le 27 novembre 2020 à 10h10 - Mis à jour le 13 janvier 2021 à 15h58
Synthèse

LE CONTEXTE 

La donnée de santé a été définie pour la première fois précisément par le règlement général sur la protection des données (RGPD), entré en application en mai 2018 : “les données à caractère personnel concernant la santé devraient comprendre l’ensemble des données se rapportant à l’état de santé d’une personne concernée qui révèlent des informations sur l’état de santé physique ou mentale passé, présent ou futur de la personne concernée”. Elles recouvrent les informations collectées lors d’une inscription en vue de bénéficier de services de soins, celles obtenues “lors du test ou de l’examen d’une partie du corps ou d’une substance corporelle, y compris à partir de données génétiques et d’échantillons biologiques”, le numéro de Sécurité sociale (NIR) et bientôt l’identifiant national de santé (INS), et “toute information concernant, par exemple, une maladie, un handicap, un risque de maladie, les antécédents médicaux, un traitement clinique ou l’état physiologique ou biomédical de la personne concernée, indépendamment de sa source, qu’elle provienne par exemple d’un médecin ou d’un autre professionnel de la santé, d’un hôpital, d’un dispositif médical ou d’un test de diagnostic in vitro”.

De fait, une grande variété d’acteurs se retrouvent à collecter et traiter des données de santé, bien avant le RGPD, et ils sont de plus en plus nombreux. Les sources de données sont tout aussi diverses – essais cliniques, dossiers patients, applications mobiles, solutions connectées, réseaux sociaux… – et des agrégateurs de données ont vu le jour – Health Data Hub, entrepôts de données de santé hospitaliers… 

Parmi ces données, figurent désormais les “données de vie réelle” ou “de vraie vie”, des données qui n’interviennent pas sur la prise en charge des malades et ne sont pas collectées dans un cadre expérimental mais qui sont générées à l’occasion des soins réalisés en routine pour un patient ou via des objets connectés comme les montres, balances…, qui reflètent donc a priori la pratique courante. Ces données ont accru les possibilités en matière de suivi de l’usage et de l’efficacité des produits de santé et révolutionnent les champs de recherche.

Les données de santé sont ainsi devenues le nerf de la guerre pour l’ensemble de l’écosystème. Pour en mesurer l’ampleur, leur volume mondial représenterait en 2020 2,3 milliards de giga-octets. Les établissements de santé et les industriels, comme les laboratoires pharmaceutiques ou les fabricants de dispositifs médicaux, mais aussi les assureurs disposent désormais, en interne, de bases de données XXL. 

LES ENJEUX 

L’enjeu que représente l’accès à ces données pour le secteur est économique, mais il vise aussi à accélérer la recherche et améliorer le parcours de soins : la collecte, le traitement et l’analyse des données de santé peut aujourd’hui permettre de réduire le délai d’identification d’un candidat médicament, de gagner du temps dans les essais cliniques – qu’il s’agisse de recrutement des patients ou de la réalisation d’un essai in silico -, de développer des outils d’aide au diagnostic, de mieux cibler ses actions de marketing, etc. Les données de vie réelle combinées à des sources comme celles du Système national des données de santé (SNDS) en France permettent également de réaliser des études médico-économiques pour la fixation du prix des produits de santé ou leur réévaluation.

Mais l’accès à ces données impose de respecter une série d’obligations réglementaires, encadrant leur collecte, leur traitement et leur stockage. Outre le RGPD, sont applicables une série de textes : la loi Informatique et libertés adaptée en 2019, le décret qui a défini en 2018 la procédure de certification des hébergeurs de données de santé (HDS), le texte de loi et les décrets remplaçant le NIR par l’INS mais aussi la loi Kouchner de 2002 relative aux droits des patients, pour ne citer qu’eux. Sans compter les référentiels de sécurité et d’interopérabilité émis par les autorités sanitaires, ou encore les méthodologies de recherche de la Commission nationale de l’informatique et des libertés (Cnil). 

Le traitement des données de santé, de par sa complexité et les volumes concernés, impose aussi désormais d’embarquer de nouvelles compétences : non seulement les acteurs ont dû se doter d’un délégué à la protection des données (DPO) mais ceux qui en ont les moyens recrutent également des data managers, des data scientists, des développeurs, etc., quand ils ne font pas appel à des compétences externes. Tous doivent également assumer les nouveaux risques en matière de cybersécurité.

Enfin, des bases de données encore fragmentées, de qualité hétérogène et qui ne sont pas interopérables constituent également un des défis à relever pour l’écosystème.

LES TECHNOLOGIES EN PRÉSENCE

Hébergement des données de santé : la certification HDS implique de répondre à des exigences relatives à la protection et à la sécurité de ces données, comme la traçabilité des actions sur les données, l’intégrité des échanges de données sur le réseau ou le chiffrement des données transmises sur des réseaux publics. Des exigences nécessitant de développer les technologies appropriées. 

Intelligence artificielle : pour collecter et traiter des données en masse, mais aussi pour les analyser, peuvent être appliqués du machine learning (ou apprentissage automatique), du deep learning (ou apprentissage profond) ou du natural processing language (ou traitement automatique du langage). 

La technologie blockchain et le federated learning (ou apprentissage fédéré) permettent quant à eux de travailler sur des données entre différents acteurs, y compris publics et privés, voire avec des patients, sans les partager et de façon sécurisée. L’apprentissage fédéré est une forme de deep learning inversé : plutôt que de centraliser des données pour entraîner un algorithme sur le serveur d’un fournisseur, l’algorithme est entraîné sur la machine des utilisateurs, sur différents sites, qui en partagent les apprentissages. La technologie blockchain repose sur une base de données décentralisée permettant d’échanger de la valeur sans tiers de confiance.

Objets connectés : montres, bracelets…, ces dispositifs vont permettre de collecter des données de vie réelle et sont de plus en plus utilisés dans les essais cliniques.

Applications mobiles : souvent adossées à un site internet, elles sont désormais proposées par tous les acteurs de l’écosystème : assureurs, industriels, établissements de santé… démultiplient ainsi les services proposés. Surtout, ils peuvent ainsi collecter et accéder à de la donnée.

LES CHIFFRES CLÉS 

– En France, le Système national des données de santé (SNDS) compte plusieurs centaines de téraoctets de données. 

– La Haute Autorité de santé (HAS) recense quant à elle, à fin 2019, près de 100 000 applications santé disponibles. 

– Le nombre d’hébergeurs certifiés de données de santé est passé de 19 à 104 en un an. 

– Et, pour ne citer que lui, l’entrepôt de données de santé (EDS) de l’Assistance publique-Hôpitaux de Paris (AP-HP) contient les données de 11,4 millions de patients, occupant 170 téraoctets d’espace disque. 

– De huit études en 2000 à près de 1 200 en 2017, le nombre d’essais cliniques mentionnant l’utilisation d’objets numériques a connu une croissance moyenne annuelle de 34 %, selon une étude publiée dans npj Digital Medicine (groupe Nature) le 3 avril 2020.

– En juillet 2020 sur Google Play, 24 laboratoires pharmaceutiques (une vingtaine de laboratoires pharmaceutiques parmi le top 25 mondial ainsi que quelques entreprises françaises hors classement) proposaient 236 applications françaises, soit une dizaine chacun en moyenne.

DANS L’ACTUALITÉ 

– Le ministère de la Santé a dévoilé en avril 2019 sa “feuille de route du numérique en santé”, soit 26 actions destinées à “accélérer le virage numérique” en santé dont certaines portent sur le format des données de santé, sur le déploiement de l’identifiant national de santé (INS), sur l’interopérabilité des systèmes d’information en santé ou le dossier médical personnel (DMP). Ce vaste projet est aussi à l’origine de l’Agence du numérique en santé (ANS, ex-Asip), de la délégation ministérielle du numérique en santé (DNS) et du Health Data Hub.

– Le 10 octobre 2020, un arrêté interdisait au Health Data Hub tout transfert de données personnelles en dehors de l’Union européenne pour ce qui est des données collectées dans le cadre de l’épidémie de COVID-19. Le 13 octobre, le Conseil d’État enjoignait le Health Data Hub à trouver une solution “pérenne” pour éviter tout risque de transfert de données aux États-Unis. Dans ce cadre, la Commission nationale de l’informatique et des libertés (CNIL) a estimé que les données de santé – pas seulement celles du Health Data Hub – ne peuvent plus être stockées par des hébergeurs soumis au droit américain en l’absence de certaines garanties. Trois mois plus tôt, la Cour de justice de l’Union européenne invalidait en effet le Privacy Shield. Depuis, le Comité européen à la protection des données (CEPD) a proposé des mesures à mettre en place par les acteurs européens pour continuer à transférer légalement des données en dehors de l’UE.

– Les autorités sanitaires définissent, progressivement, leur stratégie en matière de données en vie réelle : la Food & Drug Administration (FDA) travaille sur le sujet depuis 2007 mais a initié un plan stratégique 2019-2023 et le réseau des National Institutes of Health (NIH) a publié en juin 2018 son plan stratégique pour la science des données. Plus proche de nous, l’Agence européenne du médicament (EMA) a inclus la mise en place de la plateforme de données de santé européennes Darwin, pour Data analytics and real-world interrogation network, dans son programme de travail 2020-2021 et plus récemment défini les contours des études sur registre. Agences qui n’hésitent plus à collaborer avec des acteurs privés pour travailler sur ces données.

 

Pour aller plus loin
Les acteurs à suivre
Les personnes à suivre
Les Articles à lire
Les data à consulter