Secrétisation des données

Principes généraux

Dans un objectif de fiabilisation progressive des données produites, l’ORCAE Auvergne-Rhône-Alpes utilise de plus en plus des données réelles (collectées via des conventions de partenariat), qui ne sont pas rediffusables en l’état. Il s’agit notamment des données de consommation réelles et d'émissions de gaz à effet de serre de certains établissements industriels.

Les données diffusées dans le cadre de l’ORCAE ne sont pas des données unitaires (par exemple la consommation de gaz de telle entreprise) mais des données agrégées (par exemple la consommation de gaz dans telle commune). Comme certaines données unitaires sont confidentielles, cela peut générer de la confidentialité sur les données agrégées.

Afin de respecter la confidentialité des données, l’ORCAE développe une méthode s’appuyant sur l’analyse de la « diffusabilité » des différentes données produites.

Cette analyse s’effectue en deux temps :

  • Dans un premier temps, l’application des règles de confidentialité permet d’identifier les données non diffusables d’un point de vue du secret direct.
  • Dans un second temps, la démarche consiste à « masquer » progressivement certaines données, pour faire en sorte que les données finalement diffusées ne permettent pas de retrouver, par déduction, des données confidentielles. On parle dans ce cas de secret indirect.

Secret direct

Une donnée produite est considérée comme « confidentielle » si et seulement si elle correspond à une des deux situations suivantes :

  • Elle est produite sur la base d’une ou de deux données unitaires et ces données sont confidentielles.
  • Elle est produite sur la base de plusieurs données unitaires dont une est confidentielle et correspond à au moins 85% du total.

Dans ces cas, la donnée est automatiquement masquée lors de sa diffusion par l’ORCAE.

Secret indirect

La gestion du secret indirect a pour objectif de rendre impossible la déduction d’une donnée confidentielle à partir de l’ensemble des données diffusées sur le site de l’ORCAE. Le caractère multidimensionnel des données produites (données par énergie, par secteur, par usage, par territoire, etc…) rend l’analyse complexe.

Ainsi, toute « catégorie » créée selon un axe d’analyse des données est susceptible de créer des cas de secret indirect :

  • Dans le cas d’un territoire constitué d’un ensemble de communes pour lesquelles, à une exception près, les données de consommation d’énergie dans l’industrie sont diffusables, la diffusion du total de consommation sur l’ensemble du territoire, permet de fait la déduction de la valeur pour la commune présentant un cas de confidentialité.
  • Des difficultés similaires existent pour l’analyse des consommations d’énergie par énergie, par secteur, ou par usage.

Depuis 2015, l’ORCAE a développé une méthode permettant d’assurer le secret indirect des données confidentielles. La règle générale suivante est retenue, pour un regroupement de n valeurs :

  • Si une et une seule des n valeurs est confidentielle et que le total des n valeurs n’est pas confidentiel, alors une seconde valeur des n valeurs initiales est masquée.
  • Si aucune des n valeurs n’est confidentielle et que le total est confidentiel, alors une des n valeurs est masquée.

La secrétisation indirecte s’effectue de façon itérative. Par exemple, un cas de secret direct va entrainer du secret indirect sur une seconde valeur qui va elle-même engendrer de la confidentialité indirecte sur un autre territoire. Cette secrétisation par propagation peut ainsi entrainer des réactions en chaîne complexes.

Un suivi de cette propagation est mis en place. Il permet pour chaque cas de secret indirect de retrouver l’origine de la confidentialité.

Pour chacun des axes d’analyse, un ordre de secrétisation est défini. Certaines modalités d’une catégorie sont ainsi secrétisées de façon préférentielle. Par exemple, pour la catégorie « Secteurs », l’ordre est le suivant : "Industrie hors branche énergie" (1), "Gestion des déchets" (2), "Tous secteurs hors branche énergie" (3), "Tertiaire" (4), "Résidentiel" (5), "Agriculture, sylviculture et aquaculture" (6), "Transport routier" (7) et "Autres transports" (8). Toutefois, pour réduire le nombre de cas confidentiels, l’ordre de secrétisation est modifié s’il existe des cas de confidentialité par ailleurs. Ainsi, des modalités déjà confidentielles par ailleurs sont secrétisées prioritairement. Par exemple, supposons les croisements "Gestion des déchets/Gaz" et "Tertiaire/PP (Produits Pétroliers)" confidentiels. Le croisement "Gestion des déchets/Gaz" va entraîner de la confidentialité indirecte sur un autre secteur pour l’énergie "Gaz". Selon l’ordre indiqué précédemment, le croisement "Industrie hors branche énergie/Gaz" devrait être confidentialisé. Toutefois, "Tertiaire/PP" étant confidentiel, c’est plutôt le croisement " Tertiaire /Gaz" qui est secrétisé. Dans cet exemple présentant deux cas de confidentialité directe, la méthode permet de ne confidentialiser que deux autres cas plutôt que quatre.

Une attention particulière est portée aux cas où les valeurs secrétisées sont des zéros. En effet, si deux zéros sont secrétisés et que le total est également égal à zéro, il est possible de déduire que les deux valeurs sont égales à zéro. Dans ce cas, la confidentialité indirecte a donc été adaptée afin d’empêcher la déduction des données confidentielles.

Périmètre et diffusion

Ce travail de confidentialisation concerne les données de consommation d'énergie, d'émissions de gaz à effet de serre et différents polluants atmosphériques (COVNM, NH3, NOx, PM10; PM2.5, SO2).

Les données sont diffusées selon les énergies, les secteurs et les usages. Toutefois, la confidentialité est uniquement fondée sur les énergies et les secteurs et ne prend pas en compte les usages. Ainsi une approximation est faite : pour un couple énergie-secteur donné, tous les croisements avec les usages auront la même confidentialité que le couple énergie-secteur (ex : si "Gaz/Gestion des déchets" est confidentiel, toutes les combinaisons avec les usages - cad "Gaz/Gestion des déchets/usage1", "Gaz/Gestion des déchets/usage2", "Gaz/Gestion des déchets/usage3", etc - seront confidentielles).

 

Comment lever la confidentialité des données sur un territoire?

Les données masquées peuvent rendre difficile l’état des lieux climat, air, énergie au niveau du territoire, notamment la réalisation du diagnostic détaillé par secteur et/ou par énergie. Pour répondre à cette problématique, l’ORCAE a mis en place un processus de levée de la confidentialité qui nécessite la participation des acteurs territoriaux. Ainsi, sur demande de la collectivité, l’ORCAE mettra à sa disposition :

  • La liste des établissements générant de la confidentialité sur le territoire ;
  • Un document à faire signer par le (ou les) établissement(s) générant de la confidentialité sur le territoire pour que celui-ci donne son accord à la diffusion des données agrégées constituées en partie de ses données confidentielles.

Une fois cette autorisation accordée, l’ORCAE s’engage à mettre à jour les données en tenant compte de l’autorisation de levée de la confidentialité.

 

Ce processus est collaboratif car lorsqu’un établissement autorise la levée de la confidentialité cela peut permettre de lever la confidentialité des données sur d’autres territoires. Plus les collectivités seront nombreuses à s’engager dans cette démarche, plus le taux de données confidentielles se réduira rapidement.

 

Vous souhaitez vous engager dans cette démarche de levée de la confidentialité pour un territoire ? Contactez-nous pour connaître les modalités.

 

[Mise à jour : décembre 2023]