Skip to content

Overview

This content is not available in your language yet.

Ecosystem FondaMental

L’ecosystème numérique FondaMental peut se résumer de la manière suivante: Image

Overview Dev

Overview

Overview Data

Le besoin de la Data à FondaMental peut se résumer dans les missions suivantes :

  • Archiver les données collectée des études cliniques et FACE
  • Mettre en qualité les données des études cliniques et FACE
  • Faire des extractions selon les demandes des chercheurs
    • Les chercheurs demandent les variables dont ils ont besoin en “cochant” les variables dans le thesaurus
    • Fondamental extrait un .csv avec variables demandées

Tous ces besoins cités sont couverts aujourd’hui avec une base de donnée Postgres et la mise en qualité dbt dans le repo data_transform.

Depuis l’arrivée du projet PEPR Propsy, et son étude clinique French Minds, il y a un besoin de se préparer à accueillir une nouvelle nature et volumétrie de données. Ce qui change c’est de stocker les données d’imagerie, génomique et electrophysiologies principalement. Une première estimation fin 2023 (disponible sur Fondation Fondamental\Projet EDS - Documents\EDS\FrenchMinds_DataEstimation.xlsx) permettait de s’attendre à ~300Go/sujet. L’étude French Minds doit inclure 3000 sujets. Pour toutes estimations, une marge de x4 a été prise en compte.

Pour l’arrivée de French Minds, une infrastructure différente à été travaillée. On peut distinguer les éléments dans le sujet “Entrepôt” selon les trois catégories suivantes :

  • Technique : infrastructure cloud
  • Documentation : Catalogue/Thesaurus
  • Réglementaire : Référentiel CNIL sur les entrepôts de données de santé

Technique

FACE & Trials

A date le besoin en base de donnée de Fondamental et de ses collaboration se résume aux études suivantes:

Overview
Data

La liste des données dans l’entrepôt :

A cela s’ajoutent deux types de données :

  • PRB Mondor : métadonnée des échantillons stockés dans la BioBanque de l’équipe de Caroline Barau. Reception de fichiers Excel tous les 6 mois. Géré par Christelle Laganot.
  • IMRB - Immuno : données immuno gérée par le labo IMRB à Mondor. Donnée envoyée manuellement sous format Excel/csv. Géré par Wahid Boukouaci et Ching-Lien. Donnée centralisée dans le groupe Teams “FondaMental x IMRB
Infra

Comme présent sur le schéma, une seule base de donnée PostgreSQL permet de centraliser TOUTES les données gérée par FondaMental à date.

Deux repository permettent de gérer les pipelines des données :

  • fondationfondamental/data_transform : centralise toute la mise en qualité des variables de toutes les donnée avec la documentation. Les pipelines sont faites avec la stack dbt qui permet de gérer la transformation des données raw_ aux extractions avec une tracabilité et une documentation.
  • fondationfondamental/fondamental_entrepot : ce repo permet de gérer les scripts d’extraction et autres manipulation spécifiques sur les bases de données. Le dossier extract/ contient tous les scripts relatif a ces data.

French Minds

Overview

Etat de l’entrepôt aujourd’hui

Toute les données brutes sont stockées ici :

  • OneDrive :
    • FACE & Trials : Fondation Fondamental\Centre Experts - Databases - Databases
    • Donnée IMRB - immuno : Fondation Fondamental\FondaMental - IMRB
  • S3 (OOS chez Outscale): suivre ce tutorial de Outscale
    • ffm-testing : contient les données FACE et études cliniques
    • ffm-oos4 : contient des donnée de recherche
    • ffm-oos5 : contient les backups du serveur prod.vps.ovh et apps HDS gérés par LecPac.
    • ffm-oos6 : n’est pas utilisé

Pour French Minds, les éléments datant de 2023 :

  • Cahier des charges : Fondation Fondamental\Projet EDS - Documents\EDS\cahier-des-charges_eds-technique_v6.pdf
  • Etude de marché: Fondation Fondamental\Projet EDS - Documents\EDS\PEPR_EDS_20230628.pptx

Travail fait par Umar, fin 2023 en prenant le sujet :

  • Travail fait en Oct 2023: Fondation Fondamental\Projet EDS - Documents\EDS\EDS_Commentaires.docx
  • PPT: Fondation Fondamental\Projet EDS - Documents\EDS\2024_09_20_EDS-FrenchMinds.pptx
  • Estimation volumétrie et budget: Fondation Fondamental\Projet EDS - Documents\EDS\FrenchMinds_DataEstimation.xlsx
Outscale
Overview

Outscale: Contact:

Créteil

Par soucis de compétence dans les équipes qui utilisent et travaillent sur les données et pour “faire comme avant”, le choix de mettre les données sur un VM on-prem sur le site de Créteil a été prise.

Ce qui est utilisé aujourd’hui en alliant complexité d’utilisation, simplicité d’accès, besoin pour les extractions et volumétrie des données tient sur 2 Machines Virtuelles :

Overview

Documentation

Historiquement chaque frontend permettant la collecte de donnée (“Google forms”) à une base de donnée associée, et un “Thesaurus” (fichier excel) est fait pour documenter la description de chaque variable. Les thesaurus existants, pour exemple :

  • FACE ASP : Fondation Fondamental\FACE - Documents\FACEASP\5-FACEASP_THESAURUS\FACETSASDI_Thesaurus_V1.0_20220224_KS.xlsx
  • FACE BP : Fondation Fondamental\FACE - Documents\FACEBP\2-FACEBP_DM\5-FACEBP_THESAURUS\FACEBP_thesaurus_CDISC_V1.74_VB.xlsx
  • FACE DR : Fondation Fondamental\FACE - Documents\FACEDR\2-FACEDR_DM\5-FACEDR_THESAURUS\FACEDR_thesaurusV1.91.xlsx
  • FACE SZ : Fondation Fondamental\FACE - Documents\FACESZ\2-FACESZ_DM\5-FACESZ_THESAURUS\FACESZ_thesaurus_V2.9.1.xlsx
  • C0733 (appelé aussi InfoR) : Fondation Fondamental\FACE - Documents\FACEASP\5-c0733InfoR_Thesaurus\Thesaurus201909_Template.xlsx
  • C16 : Fondation Fondamental\FACE - Documents\FACEASP\5-C16_THESAURUS\C16_thesaurus_20220105_KS_1.2.xlsx

Depuis l’été 2024, un travail a été entrepris de ne plus utiliser les Excel comme source de vérité pour documenter les bases de données. En effet, des disparités existent entre l’excel et la base de donnée.

Le choix a été fait d’utiliser la stack dbt pour mettre en qualité et même temps documenter les bases de données. Une documenation, avec lineage, est auto-générée.

Réglementaire

Référentiel CNIL sur les entrepôts de données de santé