Inquiétudes sur la sécurité des fichiers de sécurité sociale et des données de santé de la population

Par Florian Borg

Comment analyser la mise en demeure faite par la Commission nationale informatique et libertés (CNIL) à la Caisse nationale d’assurance maladie des travailleurs salariés (CNAMTS) le 8 février dernier ?[1]

Par une délibération de bureau en date du 15 février 2018, la CNIL a décidé de publier sur legifrance la mise en demeure faite à la CNAMTS de prendre toutes les mesures pour garantir la sécurité et la confidentialité des données à caractère personnel traitées.[2]

Pour que la CNIL décide de publier une décision de mise en demeure – c’est-à-dire une décision qui s’inscrit au stade de la procédure de contrôle avant sanction éventuelle et qui n’a pas vocation à être publiée – c’est que le manquement est d’une particulière gravité et qu’il fait courir un risque majeur d’atteinte à la confidentialité de données sensibles.

La particulière gravité concerne non seulement la quantité de données qui ne sont pas correctement protégées, mais aussi la nature de ces données ; des données de santé :

« Après en avoir délibéré, le bureau considère que la publicité de la décision de mise en demeure se justifie par la particulière sensibilité des données traitées par la CNAMTS, à savoir les actes médicaux, feuilles de soins et séjours hospitaliers qui révèlent les données de santé de patients très hautement identifiables par la présence de multiples informations : âge, code postal, date de soins, médecin traitant etc.

En outre, le bureau estime que le risque pour la sécurité des données est particulièrement élevé compte tenu du volume de données enregistrées dans le SNIIRAM et du nombre important de destinataires des données. »

Qu’est-ce que le SNIIRAM ?

Le SNIIRAM est le système national d’information inter-régimes de l’assurance Maladie, prévu par les dispositions de l’article L.161-28-1 du code de la Sécurité sociale.[3][4]

Il s’agit d’une base de données regroupant les informations des différents régimes d’assurance maladie (salariés, agricole, indépendants,…) ainsi que des informations relatives à l’hospitalisation. Concrètement, ces informations sont les données relatives aux actes de soins et remboursements des assurés sociaux, telles les dates, les modes de prise en charge, les remboursements, les professionnels de santé sollicités… Bref, le parcours de chaque individu qui bénéficie d’un soin pris en charge par son régime de base d’assurance maladie est tracé dans ce fichier.

L’objet de cette base est de permettre une meilleure connaissance des dépenses de santé et de définir, mettre en œuvre et évaluer les politiques de santé publique.

L’accès à ce fichier est également essentiel en matière de recherche puisqu’il permet de croiser des millions de données faisant par exemple ressortir des risques liés à la prescription des certains produits de santé. Des chercheurs viennent ainsi récemment de repérer qu’un antidiabétique augmenterait le risque de cancer de la vessie.[5]

Mais il est évident qu’un tel fichier contenant l’ensemble des données de santé de la population bénéficiant de soins en France est un fichier très sensible : les données médicales de chaque personne sont par nature confidentielles, une divulgation porterait une atteinte grave à la vie privée. De surcroît, son libre accès libre aux assureurs ou aux organismes de crédit ouvrirait la voie à une sélection des clients selon les risques de santé et donc à une discrimination pour raisons de santé.

Pour éviter ces risques, le texte de loi prend soin de préciser que les conditions d’utilisation de cette base de données doivent préserver « la vie privée des personnes ayant bénéficié des prestations de soins » ; l’arrêté d’application du texte de loi fixe ainsi des limites à l’accès à la base et un contrôle préalable des autorisations par la CNIL.[6]

Utilisation des données de santé

Jusqu’à la promulgation de la loi n°2016-41 du 26 janvier 2016 de modernisation du système de santé, l’accès à ces données était ainsi relativement limité : il concernait principalement les médecins conseils de l’assurance maladie et des médecins des agences régionales de santé pour les données individuelles, ainsi que des agents habilités au sein des principales agences sanitaires ; l’accès aux données sous formes de statistiques agrégées et avec limitation des données d’identification est autorisé aux agents de certains ministères, certains organismes publics ou parapublics de santé et à des organismes de recherche, après autorisation de la CNIL.

Vu l’intérêt d’exploitation d’un tel fichier ainsi que des données produites par d’autres organismes de santé, la loi de 2016 a élargi les possibilités d’exploitation des bases de données de santé.

Elle a créé un système national des données de santé (SNDS), auquel est intégré le SNIIRAM. La finalité de ce nouveau système est plus large que celui du SNIIRAM puisqu’il doit permettre une meilleure connaissance de l’offre de soins et des dépenses de santé, permettre aux professionnels d’y accéder dans un souci d’information sur leurs pratiques, mais aussi participer à la veille sanitaire.

Il doit enfin et surtout permettre d’enrichir les données accessibles à la recherche en matière sanitaire et de prise en charge médico-sociale.

Ces nouvelles dispositions s’inscrivent à la fois dans une volonté d’ajouter des catégories de bénéficiaires de l’accès aux données tout en posant des garde-fous supplémentaires pour maîtriser les diffusions des données individualisées et éviter les diffusions des données personnelles[7].

Ainsi, le texte du code de la santé publique (articles L.1461-1 et suivants[8]) prévoit expressément l’anonymisation de ces données en excluant les « noms et prénoms des personnes, (le) numéro d’inscription au répertoire national d’identification des personnes physiques, (l’) adresse ». Il prévoit en outre la séparation les fichiers concernant les données des bénéficiaires de ceux des professionnels de santé.

Il exclu également toute utilisation des données pour des finalités de promotion des produits de santé ou d’exclusion de personnes de garanties des contrats d’assurance ou de modulation des cotisations d’assurance en fonction des risques sanitaires propres à chaque individu ou groupe d’individu.

Dernière précaution, le texte prévoit que les données mises à disposition du public ne doivent permettre en aucune façon l’identification directe ou indirecte des personnes concernées et interdit l’utilisation des données en vue d’une identification.

Les risques d’identification

Cette dernière précision n’est pas superflue ; elle est au cœur de la problématique de l’open data en matière d’identification. En effet, une base de données même anonymisée n’empêche pas l’identification, même indirecte, des personnes concernées.

Lors de la préparation du projet de loi de modernisation du système de santé, la commission open-data installée par la Ministre de la santé de l’époque et composée de producteurs et utilisateurs de données (chercheurs, représentants des usagers, professionnels de santé, industriels,…) avait très exactement définis ces risques de ré-identification afin que le texte de loi en préparation précise bien le niveau d’anonymisation des données personnelles et les différents accès possibles aux données.[9]

Ainsi, retirer des bases de données les éléments d’identification tels les noms, prénoms, adresses et dates de naissance ne permet pas l’anonymisation dès lors qu’y figurent toujours les dates et lieux de consultation d’un praticien, l’âge, les pathologies, les traitements prescrits… Plus les données composant la base sont rares et précises, plus la ré-identification de la personne concernée sera aisée : s’il est difficile de ré-identifier un enfant de 3 ans résidant dans une ville de plus de 200 000 habitants, souffrant d’une otite et ayant consulté un médecin généraliste, il est en revanche plus simple d’identifier un homme de 30 ans, résidant dans un village de moins de 3 000 habitants, ayant consulté un service hospitalier spécialisé en maladie infectieuse et s’étant rendu dans la pharmacie de son village pour disposer d’un traitement antiviral de l’hépatite B.

Pour éviter ces risques, l’ouverture des données de santé à un public élargi doit prévoir des niveaux distincts d’anonymisation selon les personnes qui utilisent le fichier, et des accréditations particulières pour utiliser des données sensibles en fonction d’un objet d’utilisation qui empêche tout risque de discrimination ou de ciblage des populations pour des intérêts commerciaux.

Le texte fixe ces niveaux.

Mais il ouvre une brèche importante en permettant aux laboratoires pharmaceutiques, aux assureurs et aux organismes de crédit d’y avoir accès, dès lors qu’ils inscrivent leur demande d’accès aux données dans une finalité de recherche, répondant à un motif d’intérêt public. La philosophie qui sous-tend cette possibilité est connue et correspond à l’idée selon laquelle la recherche publique n’est pas la seule à contribuer aux biens être des populations. Elle s’inscrit également dans les possibilités de financement de recherche d’intérêt public par des organismes privé. Mais la contrepartie de cette ouverture d’accès réside dans les verrous empêchant des utilisations des données non conformes à l’intérêt public voir discriminatoire, interdisant la ré-identification et organisant un contrôle strict des utilisations et des accès.

Si le code de la santé publique le prévoit, un texte de loi peut vite se transformer en déclaration de bonnes intentions dès lors que les moyens de son application ne sont pas rigoureusement mis en œuvre.

La responsabilité de la CNAMTS

La personne responsable du traitement de cette base de données, comme du SIIRAM, est la CNAMTS. L’autorité de contrôle est la CNIL.

La mise en demeure de la CNIL du 8 février 2018 sur le traitement du fichier SIIRAM, composante du SNDS, montre que l’autorité de contrôle joue son rôle et que les mécanismes d’alerte ont fonctionné. Mais La mise en demeure publiée ne dévoile pas quels sont les risques auquel est actuellement soumis le SIIRAM et quels sont les manquements de la CNAMTS :

S’agit-il d’un risque informatique d’un fichier mal protégé ? D’autorisations d’accès laissées à un trop grand nombre de personnel sans vérification stricte de leur qualité ? D’un accès ouvert à des sous-traitant sans protection ? D’une mauvaise application des règles d’anonymisation ?

Dans sa réponse publique à la CNIL, la CNAMTS insiste bien sur l’absence d’obligation de divulguer les points soulevés par la CNIL. Mais elle ajoute que les précautions supplémentaires qu’elle entend mettre en œuvre pour répondre à la mise en demeure « concernent, par exemple, la pseudonymisation des données des assurés sociaux, qui, si elle est déjà assurée de manière sécurisée, peut encore être renforcée par l’utilisation de nouveaux algorithmes »[10] ; sans atténuer les inquiétudes posée par la décision de la CNIL concernant les « nombreuses insuffisances (…) en termes de sécurité des données, (et) le manquement à l’article 34 de la loi du 6 janvier 1978 modifiée, (…) d’une particulière gravité ».

Les nouvelles possibilités d’utilisation des bases de données de santé depuis 2016, la multiplication des acteurs et des accès, l’élargissement des finalités d’exploitation nécessitent pourtant qu’un plus large public soit mis en alerte : ces données concernent la quasi-totalité de la population résidant en France ; les conditions de leur utilisation restent trop confidentielles.

Comme si, s’agissant de la sécurité sanitaire, nous devions rester confiant dans l’utilisation de données sensibles de santé et ne pas mieux protéger des atteintes aux libertés et à la vie privée.

[1] https://www.legifrance.gouv.fr/affichCnil.do?oldAction=rechExpCnil&id=CNILTEXT000036641332&fastReqId=414804632&fastPos=3

[2] https://www.legifrance.gouv.fr/affichCnil.do?oldAction=rechExpCnil&id=CNILTEXT000036641360&fastReqId=770302041&fastPos=1

[3] https://www.legifrance.gouv.fr/affichCodeArticle.do;jsessionid=D60DFF9744FDAA72EC083CD9FF3F29EA.tplgfr26s_2?idArticle=LEGIARTI000031931979&cidTexte=LEGITEXT000006073189&categorieLien=id&dateTexte=

[4] https://www.ameli.fr/l-assurance-maladie/statistiques-et-publications/sniiram/finalites-du-sniiram.php

[5] http://abonnes.lemonde.fr/sciences/article/2018/01/30/big-data-premier-succes-dans-l-alerte-sanitaire_5249195_1650684.html

[6] https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000027830713&categorieLien=id

[7] Sur la distinction données personnelles et données individuelles, voir DREES. Données de santé : anonymat et risque de ré-identification. Données de santé, juillet 2015, n°64, page 8. http://drees.solidarites-sante.gouv.fr/etudes-et-statistiques/publications/les-dossiers-de-la-drees/dossiers-solidarite-et-sante/article/donnees-de-sante-anonymat-et-risque-de-re-identification

[8] https://www.legifrance.gouv.fr/affichCode.do;jsessionid=7A68B55DBE901C3424D3B2ABCB2E3F95.tplgfr39s_1?idSectionTA=LEGISCTA000031923880&cidTexte=LEGITEXT000006072665&dateTexte=20180228

[9] http://solidarites-sante.gouv.fr/IMG/pdf/rapport_final_commission_open_data-2.pdf

[10] https://www.ameli.fr/fileadmin/user_upload/documents/Communique_en_reponse_a_la_mise_en_demeure_de_la_CNIL_27_fevrier_2018_VF.pdf

Laisser un commentaire Annuler la réponse