France/data.gouv.fr/Base SIRENE

From OpenStreetMap Wiki
Jump to navigation Jump to search

Ce jeu de données permet d'accéder aux 9 millions d'entreprises et 10 millions d'établissements actifs du répertoire Sirene de l'Insee qui enregistre quotidiennement leur état civil :

  • quelle que soit leur forme juridique ;
  • quel que soit leur secteur d'activité (industriels, commerçants, artisans, professions libérales, agriculteurs, collectivités territoriales, banques, assurances, associations...) ;
  • situés en France métropolitaine, ainsi qu'en Guadeloupe, Martinique, Guyane, La Réunion, Mayotte, Saint-Barthélémy, Saint-Martin et Saint-Pierre-et-Miquelon. Les organismes publics ou privés et les entreprises étrangères qui ont une représentation ou une activité en France y sont également répertoriés.

Le répertoire Sirene est ainsi la principale source exhaustive sur l'ensemble des entreprises et des établissements actifs.

Source des données

Les données de l'INSEE sont publiées en opendata (Licence Ouverte) depuis janvier 2017 sur data.gouv.fr sous la forme de fichiers CSV, avec un fichier "stock" mensuel et des fichiers quotidiens de mise à jour. Le fichier CSV mensuel fait plus de 8Go décompressé.

L'apport pour OpenStreetMap

Elle permet de compléter et vérifier les informations sur les entreprises, en particuliers les commerces.

Une première expérimentation d'usage pour repérer les pharmacies manquantes est disponible sur osmose [1]

Les limites de cette source de données

Limite liée au temps

Les données sont mises à jour quotidiennement. Une entreprise qui se crée apparaît donc très tôt dans cette base de données, même si son activité n'a pas encore démarré sur le terrain.

A l'inverse, une activité qui s'arrête sur le terrain peut rester présente dans la base SIRENE jusqu'à la radiation définitive (cessation d'activité, liquidation, etc).

Limite liée à l'activité

L'activité de l'établissement (code NAF) ne reflète par toujours exactement l'activité réelle. Dans l'exemple des pharmacies, on retrouve aussi des établissement en lien avec l'industrie pharmaceutique ou des groupements d'achat de médicaments internes à un groupe d'établissement de santé.

Limite géographique

Il n'y a pas de coordonnées géographiques dans la base SIRENE. Celle-ci a donc besoin d'être géocodée pour obtenir une position.

Le géocodage est un procédé imparfait donc la qualité du résultat dépend de plusieurs facteurs:

  • qualité de l'adresse dans la base à géocoder (qualité des libellés, qualité de la description)
  • qualité de la base de référence
  • qualité de l'algorithme de rapprochement entre adresse source et adresses de référence

SIRENE est géocodée par Etalab à l'aide de la BAN (Base Adresse Nationale) mais aussi de BANO. BAN ne contient en effet que des adresse numérotées et donc de nombreux lieux-dits sont absents de la BAN, ainsi que des POI (Centre Commercial, ZAC, "Mairie").

BANO est utilisée pour compléter les manques de la BAN, surtout sur les lieux-dits, beaucoup moins sur les adresses numérotées.

Le script d'Etalab traite aussi des cas particuliers de lieux-dits générique (LE BOURG, MAIRIE, HOTEL DE VILLE).

La position géographique est donc indicative dans certains cas.