Secrétisation des données

Principes généraux

Dans un objectif de fiabilisation progressive des données produites, l’ORCAE Auvergne-Rhône-Alpes utilise de plus en plus des données réelles (collectées via des conventions de partenariat), qui ne sont pas rediffusables en l’état. Il s’agit notamment des données de consommation réelles et d'émissions de gaz à effet de serre de certains établissements industriels.

Les données diffusées dans le cadre de l’ORCAE ne sont pas des données unitaires (par exemple la consommation de gaz de telle entreprise) mais des données agrégées (par exemple la consommation de gaz dans telle commune). Comme certaines données unitaires sont confidentielles, cela peut générer de la confidentialité sur les données agrégées.

Afin de respecter la confidentialité des données, l’ORCAE développe une méthode s’appuyant sur l’analyse de la « diffusabilité » des différentes données produites.

Cette analyse s’effectue en deux temps :

  • Dans un premier temps, l’application des règles de confidentialité permet d’identifier les données non diffusables d’un point de vue du secret direct.
  • Dans un second temps, la démarche consiste à « masquer » progressivement certaines données, pour faire en sorte que les données finalement diffusées ne permettent pas de retrouver, par déduction, des données confidentielles. On parle dans ce cas de secret indirect.

Secret direct

Une donnée produite est considérée comme « confidentielle » si et seulement si elle correspond à une des deux situations suivantes :

  • Elle est produite sur la base d’une ou de deux données unitaires et ces données sont confidentielles.
  • Elle est produite sur la base de plusieurs données unitaires et la part confidentielle de ces données correspond à au moins 85% du total.

Dans ces cas, la donnée est automatiquement masquée lors de sa diffusion par l’ORCAE.

Secret indirect

La gestion du secret indirect a pour objectif de rendre impossible la déduction d’une donnée confidentielle à partir de l’ensemble des données diffusées sur le site de l’ORCAE. Le caractère multidimensionnel des données produites (données par énergie, par secteur, par usage, par territoire, etc…) rend l’analyse complexe.

Ainsi, toute « catégorie » créée selon un axe d’analyse des données est susceptible de créer des cas de secret indirect :

  • Dans le cas d’un territoire constitué d’un ensemble de communes pour lesquelles, à une exception près, les données de consommation d’énergie dans l’industrie sont diffusables, la diffusion du total de consommation sur l’ensemble du territoire, permet de fait la déduction de la valeur pour la commune présentant un cas de confidentialité.
  • Des difficultés similaires existent pour l’analyse des consommations d’énergie par énergie, par secteur, ou par usage.

Depuis 2015, l’ORCAE a développé une méthode permettant d’assurer le secret indirect des données confidentielles. La règle générale suivante est retenue, pour un regroupement de n valeurs :

  • Si une et une seule des n valeurs est confidentielle et que le total des n valeurs n’est pas confidentiel, alors une seconde valeur des n valeurs initiales est masquée.
  • Si aucune des n valeurs n’est confidentielle et que le total est confidentiel, alors une des n valeurs est masquée.

La secrétisation indirecte s’effectue de façon itérative. Par exemple, un cas de secret direct va entrainer du secret indirect sur une seconde valeur qui va elle-même engendrer de la confidentialité indirecte sur un autre territoire. Cette secrétisation par propagation peut ainsi entrainer des réactions en chaîne complexes.

Un suivi de cette propagation est mis en place. Il permet pour chaque cas de secret indirect de retrouver l’origine de la confidentialité.

Pour chacun des axes d’analyse, un ordre de secrétisation est défini. Certaines modalités d’une catégorie sont ainsi secrétisées de façon préférentielle. Par exemple, pour la catégorie « Secteurs », l’ordre est le suivant : "Industrie hors branche énergie" (1), "Gestion des déchets" (2), "Tous secteurs hors branche énergie" (3), "Tertiaire" (4), "Résidentiel" (5), "Agriculture, sylviculture et aquaculture" (6), "Transport routier" (7) et "Autres transports" (8). Toutefois, pour réduire le nombre de cas confidentiels, l’ordre de secrétisation est modifié s’il existe des cas de confidentialité par ailleurs. Ainsi, des modalités déjà confidentielles par ailleurs sont secrétisées prioritairement. Par exemple, supposons les croisements "Gestion des déchets/Gaz" et "Tertiaire/PP (Produits Pétroliers)" confidentiels. Le croisement "Gestion des déchets/Gaz" va entraîner de la confidentialité indirecte sur un autre secteur pour l’énergie "Gaz". Selon l’ordre indiqué précédemment, le croisement "Industrie hors branche énergie/Gaz" devrait être confidentialisé. Toutefois, "Tertiaire/PP" étant confidentiel, c’est plutôt le croisement " Tertiaire /Gaz" qui est secrétisé. Dans cet exemple présentant deux cas de confidentialité directe, la méthode permet de ne confidentialiser que deux autres cas plutôt que quatre.

Une attention particulière est portée aux cas où les valeurs secrétisées sont des zéros. En effet, si deux zéros sont secrétisés et que le total est également égal à zéro, il est possible de déduire que les deux valeurs sont égales à zéro. Dans ce cas, la confidentialité indirecte a donc été adaptée afin d’empêcher la déduction des données confidentielles.

 

[Mise à jour : mai 2019]