L'équipe Reporting de la Direction Exploitation & Maintenance d'une entreprise majeure dans le secteur des énergies renouvelables recherche un(e) Data Engineer pour une mission courte visant à la mise en place d'une base de données consolidée contenant les informations des équipements de ses parcs photovoltaïques. Cette entreprise exploite environ 400 actifs renouvelables en France, dont la moitié en solaire. L'activité est rattachée au Pôle Support Opérations Maintenance, qui gère les infrastructures et leur performance. L'objectif principal de cette mission est de structurer et centraliser les données issues des Manufacturer Data Bases (MDB) des onduleurs des parcs solaires exploités. Ces équipements sont fournis par plusieurs constructeurs (Huawei, Sungrow, Ingeteam, SMA, etc.) et leurs données doivent être intégrées dans le Common Data Hub, le data lake AWS de l'entreprise. Les enjeux majeurs sont : Interconnexion des API des fournisseurs via les systèmes d'acquisition disponibles (Dataloggers, SCADA). Automatisation et structuration d'une base unique, assurant l'homogénéité des données. Disponibilité et qualité des données pour le reporting et l'analyse par les équipes métiers. Le/la Data Engineer réalisera les tâches suivantes : Analyse des configurations et API fournisseurs Identification des données disponibles selon les constructeurs (tags, profondeur d'historique, fréquence d'acquisition). Définition des méthodes d'interrogation des API SCADA/Dataloggers. Consultation des parties prenantes internes Échanges avec les équipes Automatisme, DataOffice et Business Support pour cadrer les besoins. Centralisation et ingestion des données Extraction et uniformisation des données brutes des onduleurs. Développement et exécution de scripts d'ingestion des données dans le Common Data Hub AWS. Intégration de pipelines de transformation et de nettoyage. Analyse et traitement des données Contrôle de la qualité et de la complétude des données post-ingestion. Définition des critères d'homogénéisation pour assurer la cohérence de la base unique. Mise en place d'un système d'alerting (optionnel mais recommandé) Détection des données manquantes selon des critères définis avec les équipes métiers. Les livrables incluent : Complétion de la base de données. Reporting sur la qualité et la complétude des données pour l'ensemble du périmètre. Documentation technique sur l'architecture et les pipelines mis en place. Système d'alerting pour signaler les lacunes de données (si applicable). Environnement technique Langages : Python (Pandas, Requests), SQL Cloud & Stockage : AWS (S3, Glue, Lambda, Athena) Acquisition de données : API REST, SCADA, Dataloggers Outils & Collaboration : Git, Jira, Confluence Télétravail : 3 jours Durée : Courte mission 2 mois renouvelable 2 mois Début de mission : 03/02/2025 Compétences attendues: Aptitude à travailler en équipe Écoute clients Sens de la qualité Qualité d'analyse et de synthèse Pilotage Capacité à adresser des sujets fonctionnels transverses (finance & opérations) Force de proposition Compétences managériales Capacité à anticiper et planifier Délivrer la performance Compétences techniques Expertise dans le stockage de données Expertise dans la création de pipelines de données fiables Connaissance API Compétences en programmation (Python) Connaissance des technologies Cloud AWS (connaissance d'Azure est un plus)
🐍 python 🕥 Dernière mise à jour il y a 2 semainesDébutant accepté