top of page

Le challenge des entrepôts de données hospitaliers

Un article proposé par le Dr Alain Livartowski


Le Dr Alain Livartowski est oncologue spécialisé dans les tumeurs thoraciques. Il a piloté la mise en œuvre du dossier électronique et a été Directeur-adjoint de la Direction des data à l’Institut Curie. Il est coordinateur médical du projet Consore, entrepôt de données réparti utilisé dans 10 Centres de lutte contre le cancer ; il pilote le projet UNIBASE qui consiste à réaliser des projets multicentriques dans le domaine du cancer. Alain Livartowski est membre du Conseil Scientifique Consultatif du Health Data Hub ; il en assuré la Présidence jusqu’en 2022.


 

Les données dites « de vie réelle » sont les données collectées en pratique courante pour les soins aux patients dans différents progiciels et systèmes d’information hospitaliers (SIH). Le principe d’un entrepôt de données de santé (EDS) hospitalier est de les regrouper dans un système unique pour les utiliser pour d’autres finalités, la recherche, l’évaluation ou un retour aux soins.


Le principe d’une mise en commun des données et d’un regroupement n’est pas récent ; le premier ouvrage en langue française sur le data Warehouse remonte à 1997 (1) ; depuis, les établissements hospitaliers ont mis en place des outils pour le pilotage dans ce qu’on appelle l’informatique décisionnelle. La numérisation de tous les processus, de tous les textes médicaux et de toutes les images ouvre des perspectives nouvelles grâce aux capacités d’archivage, à la puissance de calcul des ordinateurs et aux avancées des techniques d’intelligence artificielle (IA). Les finalités ne se résument plus au pilotage mais ouvre des perspectives pour la recherche inductive à partir des données. Les grands principes d’un EDS hospitalier sont une alimentation automatique, en temps réel ou légèrement différé pour être constamment à jour, sans saisie manuelle, à visée multi-usage avec une structuration des données issues des comptes rendus.


Plusieurs stratégies sont possibles dans la constitution d’un EDS. Une première stratégie consiste à alimenter l’EDS de toutes les données brutes disponibles, données structurées et textes, dans un lieu unique (ce que les anglo-saxons appellent un data lake). Une deuxième stratégie consiste à alimenter l’EDS des données spécifiques à un projet, (un Data mart, un « magasin ») où on ne trouve qu’une partie des données correctement classées dans un modèle. Enfin, s’il existe une transformation et une agrégation des données en amont pour les rendre directement exploitables, on parlera plus volontiers d’un data Warehouse. Ces différentes approches ne sont pas exclusives et il est possible de les combiner : agréger toutes les sources de données du SIH, les transformer pour les intégrer dans un modèle de données puis en extraire un sous-ensemble pour un projet particulier. Les différentes stratégies impactent les choix techniques et le mode d’organisation. En octobre 2022, la Haute autorité de santé a publié un panorama des EDS hospitaliers en France ; ce travail révèle l’hétérogénéité d’un écosystème en construction (2).


La stratégie ne peut être définie que si les priorités et les finalités sont partagées au sein de l’établissement car un EDS est avant tout construit pour un usage local : études des produits de santé, études épidémiologiques observationnelles, veille sanitaire. Il permet de réaliser des études monocentriques avec des données de « vie réelle », de mettre en place des partenariats industriels ou académiques et de participer à des projets d’IA reposant sur un apprentissage fédéré. Un EDS « idéal » doit aussi avoir pour objectifs, dans une « boucle fermée », de permettre un pré-screening pour les essais cliniques et imaginer des solutions permises par l’IA comme les jumeaux numériques, l’aide au diagnostic, la prédiction ou à l’aide à décision thérapeutique. L’EDS local doit également s’intégrer dans un écosystème plus large et permettre des études épidémiologiques ou cliniques multicentriques avec un regroupement des données. Ceci est indispensable pour les maladies rares, la médecine de précision reposant sur des biomarqueurs et des thérapies ciblées, nécessitant des données récentes. Il est possible d’envisager un appariement avec d’autres bases de données comme avec le Système National des données de santé ouvrant la voie à des études combinant données hospitalières et données « de ville » sous l’égide du Health Data Hub. Il est alors permis de partager ces données s’il existe un objectif d’intérêt public.


De nombreuses problématiques se posent et doivent être résolues. Nous n’en citerons que trois : le coût élevé d’un EDS, l’interopérabilité indispensable pour le partage, la sécurité des EDS.


Le coût d’un EDS

Un EDS est plus une structure de coût qu’une structure de recettes. Constituer un EDS est un projet complexe qui nécessite la collaboration des directions informatiques, l’implication des médecins, d’acteurs académiques et d’industriels. L’équipe doit s’appuyer sur des compétences diverses tant dans les domaines médicaux, informatiques que règlementaires. Certes, les données existent, enfouies dans de multiples outils utilisés pour la production de soins et d’aucuns s’imaginent que le

coût d’utilisation pour la recherche est nul. Outre les dépenses d’informatique pour présenter des données de qualité aux chercheurs, le coût le plus important est lié à la constitution d’une équipe pérenne dans une unité dédiée en sachant que ces ressources humaines sont rares et convoitées. La question est celle du modèle économique pour bâtir le socle, le maintenir, l’exploiter alors que les données ne peuvent être vendues.

La puissance publique a admis la nécessité de participer au financement de ces nouveaux systèmes hospitaliers et un appel à projets a été lancé qui a pour but de construire les outils, le socle, afin de mettre en place un réseau d’EDS hospitaliers (3).



L’interopérabilité


Les données ne sont pas exploitables sans transformation car elles sont issues de sources multiples, de natures et de formats divers ; le langage médical permet de décrire de façon plus ou moins précise la réalité perçue pour la consigner sous forme de textes libres ; il est nécessaire de les structurer selon des référentiels reconnus en contrôlant la qualité des données. Les données de vie réelle sont réparties dans de multiples SIH, puis intégrées dans de multiples EDS, sans gouvernance commune, avec des choix technologiques différents et n’utilisant pas les mêmes référentiels. Ceci conduit à ce que ces données ne pourront, en l’état, être exploitables dans des

projets multicentriques ou réutilisables par d’autres.



La sécurité

En novembre 2021, la CNIL a adopté un nouveau référentiel encadrant la constitution des EDS (4). La cible est difficile à atteindre et les contraintes sont très fortes. Il existe un paradoxe : d’un côté, les SIH qui utilisent par nature des données nominatives, sont peu encadrés, parfois mal protégés comme le montre la vulnérabilité aux cyberattaques. De l’autre, les règles et procédures sont contraignantes pour des EDS qui ne devrait conserver que des données pseudonymisées ; une simplification des règles et procédures pour aider la recherche serait bienvenue. Construire un EDS est un challenge ; soyons attentifs à les construire avec une vision commune et partagée.



1. Le Data Warehouse - Jean-Michel Franco, Eyrolles Edition 1997

Comments


bottom of page