20 décembre 2016

Actu MD : Que prévoit l’Open data de l’INSEE ?

Le monde de la Data BtoB est en pleine effervescence en cette fin d’année et va subir un grand changement en 2017. La célèbre base de données INSEE, qui répertorie l’ensemble des entreprises françaises, sera désormais accessible GRATUITEMENT. Nous aurons donc accès à la totalité des infos du répertoire de l’INSEE et cela sans verser un centime.

 

OPEN DATA

Le répertoire INSEE ? KESAKO ?

Les experts en Base de données attendent avec impatience ce 1er Janvier 2017. De par leur métier, ils connaissent l’étendue des informations qui va être accessible en libre-service. Entre autres, une vraie mine d’or.
Mais vous savez vous ce que cela signifie ?
L’INSEE, Institut National de la Statistique et des Etudes Economique, collecte, produit, analyse et diffuse des informations sur l’économie et la société française. Le répertoire SIREN, qu’il enrichit et entretient depuis plus de 40 ans, est la plus grande base de données existante sur l’état civil des entreprises. Il contient aujourd’hui les informations d’environ 10 millions d’entreprises et d’établissements. Pour vous donner une idée de la masse d’informations qui circule dans cette base de données, on dénote environ 10 000 modifications par jour !!!

Nous allons donc avoir accès à cette « Ultrabase ». Cependant, quel type d’informations allons-nous trouver ? Quelle sera la fraîcheur des données ? Seront-elles exploitables par tous, même ceux d’entre nous qui ne disposent pas d’un Bac + 12 en traitement de data ?

 

Une masse d’information certes, mais lesquelles ?

L’INSEE annonce près d’une centaine de variables renseignées dans les fichiers… Cela en fait de la donnée !
La 1ère donnée que nous allons retrouver dans ces fichiers est la clé UNIQUE, propre à toute entreprise : Le SIRET. Il s’agit d’un numéro d’identification unique attribué à chaque entreprise et établissement. Il est propre à chaque structure, comme peut l’être notre numéro de sécurité sociale.
Les 2ndes données accessibles sont les coordonnées postales complètes des entreprises. Cerise sur le gâteau : il semblerait même que ces données postales soient restructurées normalisées et validées aux normes postales (ce qu’on appelle dans notre jargon RNVP).
Nous retrouverons également les informations de base aujourd’hui disponibles dans l’INSEE : le statut juridique (Artisan, commerçant, SARL, professions libérales, …) le code APE (code qui caractérise l’activité principale de l’entreprise et/ou de l’établissement) la taille de l’entreprise (disponible par tranche d’effectif) la date de création, etc.
Lorsque l’on voit la richesse des informations qui vont être accessibles, on se rend alors compte que la forme sous laquelle elles vont être diffusées va déterminer l’usage que les individus pourront faire de ces dernières.

 

Quelle va être la forme du fichier de données ? quelle sera la fréquence de mise à jour ?

L’INSEE annonce déjà plusieurs typologies de fichier suivant le nombre de variables que ces derniers contiendront.

– M ou Moyen : 49 variables
– L ou long : 83 variables
– XL ou Extra long : 109 variables

Les variables seront classées en 7 grandes catégories :

– Variables « identification »
– Variables « adresses »
– Variables « localisation géographique »
– Variables « économiques établissements »
– Variables « économiques entreprises »
– Variables « économiques sièges »
– Variables « spécifiques produits mise à jour »
– Variables « spécifiques création hebdomadaire »

L’INSEE annonce que ces fichiers seront disponibles soient en CSV pour Excel®, soit en ASCII pour libre office. Se pose alors la question des performances d’Excel® qui ne peut traiter que 1 048 576 lignes par feuilles de calcul versus les 10 millions de lignes annoncées ?
Vous trouverez toutes les informations complémentaires sur le site de l’INSEE.

Concernant les mises à jour, elles sont annoncées comme étant soit mensuelles soit quotidiennes.

La grande question qui reste en suspens est la suivante : faudra-t-il télécharger l’ensemble du fichier SIREN à chaque fois ? Si oui, cela pourrait en décourager plus d’un. Aura-t-on un moyen de faire une présélection via une interface de comptage (déjà présente sur le site d’ailleurs, mais reste à savoir si elle sera toujours en libre utilisation) ?

 

Quelles données ne trouverons nous pas dans cet OPEN DATA ?

Nous vous proposons de distinguer 2 types d’informations :
– Certaines informations seront disponibles, mais pas en clair dans le fichier. Ce qui demandera alors certaines manipulations fichier : LES CRYPTÉES
– Certaines ne seront pas présentes dans le fichier (tout du moins dans la version gratuite) : LES INEXISTANTES.

 

1- Les cryptées
Les informations présentes dans le fichier ont été coupées en 4 pour permettre le plus de précisions possibles.
Certaines données ne pourront être accessible après quelques manipulations fichiers seulement.
Par exemple : vous obtiendrez le SIRET en fusionnant le SIREN (identifiant de l’entreprise) et le NIC (N° interne de classement de l’établissement). Les informations code commune et code IRIS, très utilisées en géolocalisation, ne seront disponibles, elles aussi, qu’après un traitement de fichier. Une maitrise des outils informatiques et de traitement de data sera nécessaire pour tirer le meilleur de cette base de données.

 

2- Les inexistantes
Et oui !! Il demeure malgré tout certaines données qui ne sont pas présentes dans cette base de données. Il s’agit notamment de données qui ne sont pas anodines si vous êtes dans une optique de développement commercial.
En effet, il semblerait que les fichiers derrière cet OPENDATA, ne contiennent pas de données contact : que ce soit nom, téléphone, fax ou email.
Nous ne trouverons pas non plus les données financières des entreprises : CA, solvabilité, …

 

 

L’annonce de l’OPENDATA du répertoire SIREN a remué les acteurs professionnels du secteur de la donnée, mais pour l’instant tout le monde reste en alerte sur cette mise à disposition gratuite des informations des Entreprises.

Des variables restent encore inconnues et nous ne pouvons pas prédire l’utilisation qui sera faite de ces données. Il convient de garder à l’esprit qu’une base de données trop ou mal utilisée est une base de données détériorée, et que certaines garanties aujourd’hui fournies par les acteurs du marché de la DATA ne seront sûrement pas tenues (nous pensons notamment au PND (plis non distribués) anciennement NPAI.

Rendez-vous vous le 1er Janvier 2017 pour l’entrée dans l’OPENDATA ! D’ici là, il va falloir dépoussiérer les manuels d’utilisations Excel et autres tableurs !