20 décembre 2016

Actu MD : Que prévoit l’Open data de l’INSEE ?

Le monde de la Data BtoB a subit un grand changement en 2017. La célèbre base de données INSEE, qui répertorie l’ensemble des entreprises françaises, est désormais accessible GRATUITEMENT. Nous avons donc accès à la totalité des infos du répertoire de l’INSEE et cela sans verser un centime.

 

 

Le répertoire INSEE ? KESAKO ?

Les experts en Base de données attendaient avec impatience ce 1er Janvier 2017. De par leur métier, ils connaissent l’étendue des informations qui est accessible en libre-service. Entre autres, une vraie mine d’or.
Mais vous, savez-vous ce que cela signifie ?
L’INSEE, Institut National de la Statistique et des Etudes Economique, collecte, produit, analyse et diffuse des informations sur l’économie et la société française. Le répertoire SIREN, qu’il enrichit et entretient depuis plus de 40 ans, est la plus grande base de données existante sur l’état civil des entreprises. Il contient aujourd’hui les informations d’environ 10 millions d’entreprises et d’établissements. Pour vous donner une idée de la masse d’informations qui circule dans cette base de données, on dénote environ 10 000 modifications par jour !!!

Nous avons donc aujourd’hui TOUS accès à cette « Ultrabase ». Cependant, quel type d’informations y trouvons-nous ? Quelle est la fraîcheur des données ? Sont-elles exploitables par tous, même ceux d’entre nous qui ne disposent pas d’un Bac + 12 en traitement de data ?

 

Une masse d’information certes, mais lesquelles ?

L’INSEE annonce près d’une centaine de variables renseignées dans les fichiers… Cela en fait de la donnée !
La 1ère donnée que nous retrouvons dans ces fichiers est la clé UNIQUE, propre à toute entreprise : Le SIRET. Il s’agit d’un numéro d’identification unique attribué à chaque entreprise et établissement. Il est propre à chaque structure, comme peut l’être notre numéro de sécurité sociale.
Les 2ndes données accessibles sont les coordonnées postales complètes des entreprises. Cependant, ces informations, bien que normalisées, nécessiteront un nettoyage pour être utilisables (normalisation et validation aux normes postales : ce qu’on appelle dans notre jargon RNVP).
Nous retrouvons également les informations de base aujourd’hui disponibles dans l’INSEE : le statut juridique (Artisan, commerçant, SARL, professions libérales, …) le code APE (code qui caractérise l’activité principale de l’entreprise et/ou de l’établissement) la taille de l’entreprise (disponible par tranche d’effectif) la date de création, etc.
Lorsque l’on voit la richesse des informations qui sont accessibles, on se rend alors compte que la forme sous laquelle elles sont diffusées détermine l’usage que les individus peuvent faire de ces dernières.

 

Quelle est la forme du fichier de données ? quelle est la fréquence de mise à jour ?

L’INSEE annonce déjà plusieurs typologies de fichier suivant le nombre de variables que ces derniers contiendront.

– M ou Moyen : 49 variables
– L ou Long : 83 variables
– XL ou Extra long : 109 variables

Les variables seront classées en 7 grandes catégories :

– Variables « identification »
– Variables « adresses »
– Variables « localisation géographique »
– Variables « économiques établissements »
– Variables « économiques entreprises »
– Variables « économiques sièges »
– Variables « spécifiques produits mise à jour »
– Variables « spécifiques création hebdomadaire »

L’INSEE annonce que ces fichiers seront disponibles soit en CSV pour Excel®, soit en ASCII pour libre office. Se pose alors la question des performances d’Excel® qui ne peut traiter que 1 048 576 lignes par feuilles de calcul (versus les 10 millions de lignes annoncées) ?
Vous trouverez toutes les informations complémentaires sur le site de l’INSEE.

Concernant les mises à jour, elles sont annoncées comme étant soit mensuelles soit quotidiennes.

Il est aujourd’hui possible de faire une pre-sélection avant de télécharger les fichier sur le site sirene.fr.

 

Quelles données ne se trouvent pas dans cet OPEN DATA ?

Nous vous proposons de distinguer 2 types d’informations :
– Certaines informations sont disponibles, mais pas en clair dans le fichier. Ce qui demandera alors certaines manipulations fichier : LES CRYPTÉES
– Certaines ne sont pas présentes dans le fichier (tout du moins dans la version gratuite) : LES INEXISTANTES.

 

1- Les cryptées
Les informations présentes dans le fichier ont été coupées en 4 pour permettre le plus de précisions possibles.
Certaines données ne peuvent être accessible qu’après quelques manipulations fichiers seulement.
Par exemple : vous obtiendrez le SIRET en fusionnant le SIREN (identifiant de l’entreprise) et le NIC (N° interne de classement de l’établissement). Les informations code commune et code IRIS, très utilisées en géolocalisation, ne sont disponibles, elles aussi, qu’après un traitement de fichier. Une maitrise des outils informatiques et de traitement de data sera nécessaire pour tirer le meilleur de cette base de données.

 

2- Les inexistantes
Et oui !! Il demeure malgré tout certaines données qui ne sont pas présentes dans cette base de données. Il s’agit notamment de données qui ne sont pas anodines si vous êtes dans une optique de développement commercial.
En effet, les fichiers derrière cet OPENDATA ne contiennent pas de données contact (téléphone, fax ou email), et très peu de noms (à peine un tiers).
Nous ne trouvons pas non plus les données financières des entreprises : CA, solvabilité, …

 

 

L’annonce de l’OPENDATA du répertoire SIREN a remué les acteurs professionnels du secteur de la donnée, mais pour l’instant tout le monde reste en alerte sur cette mise à disposition gratuite des informations des Entreprises.

Des variables restent encore inconnues et nous ne pouvons pas prédire l’utilisation qui sera faite de ces données. Il convient de garder à l’esprit qu’une base de données trop ou mal utilisée est une base de données détériorée, et que certaines garanties aujourd’hui fournies par les acteurs du marché de la DATA ne seront sûrement pas tenues (nous pensons notamment au PND (plis non distribués) anciennement NPAI.