Data Engineer expérimenté Python

À propos de cette offre
Lieu Paris Date de démarrage ASAP Durée 1 an
Langue Français
Mission
Nous cherchons un profil Data Engineer Freelance expérimenté pour intervenir dans le monde bancaire sur des applications de lutte contre la fraude.
L'environnement technique est l'écosystème Big Data (hadoop, Elastic Search, Kibana, Hive, Impala, Scala)

Mon client s’est doté d’un environnement Big Data Hadoop (distribution Cloudera CDH 6, CDP prochainement).
Cet environnement est « désensibilisé » au sens du règlement RGPD et de la norme PCI-DSS (Payment Card Industry – Data Security Standards). La désensibilisation des données entrant dans le Big Data se fait au travers d’une autre plateforme dénommée SI-PCI.
Mon client recherche un Data Engineer pour renforcer l’équipe existante et assurer différents travaux pour alimenter et fiabiliser la plate-forme. Les principales missions qui vont lui être confiées sont les suivantes :

Sur la partie Cloudera Big Data (Pyspark , Scala, Impala, Hive, Oozie …)

- Contribuer à la reprise d’historique de nos données du Big Data pour intégrer une nouvelle fonction d’anonymisation ;
- Mise en place d’un programme de suivi qualitatif des données ingérées dans le Data Lake en fonction de spécifications fournies par la MOA ;
- Reprise de différents traitements « historiques » (ingestion, analyse syntaxique (parsing), prise en compte des règles de gestion, stockage dans les BDD, etc.). Les différents flux à intégrer sont :
        o Flux de déclaration de fraude,
        o Flux de déclaration des impayés
        o Mises en opposition
        o Flux de déclaration de compensation et interchanges
        o Demandes d’autorisation
        o Mise à jour des données cartes (MDC)
en partant des flux natifs anonymisés afin de constituer différentes bases dans Big Data.

 - Reprise des principales fonctions et programmes de la Lutte Contre La Fraude (LCLF)
 - Préparation des données issues du Big Data pour pouvoir les consommer avec notre outil de DataViz Tableau Server en tenant compte des contraintes de performances et de simplicité d’intégration via cet outil.
- Participer à la mise en place des tâches d’ordonnancement d’Oozie

Sur la partie SI-PCI (Kubernetes, Jenkins, Python, Mysql Percona, Elasticsearch, Grafana) - plateforme soumise aux bonnes pratiques de développement exigées par la norme PCI-DSS
        - Ingestion / migration des différents flux « legacy » nécessitant l’anonymisation des données : cette tâche consiste à récupérer les flux sur la plateforme historique ou directement depuis nos partenaires, les anonymiser         avec la fonction d’anonymisation (déjà en place), les enrichir puis les envoyer sur la plateforme Big Data.
        - Développer un nouvel applicatif de mise à jour des données cartes : interrogation d’une API partenaire, désensibilisation des données, enrichissement puis alimentation du DataLake CB.
        - Migrer et adapter sur la plateforme SI-PCI un applicatif écrit en Python permettant de suivre les commissions d’interchange : cette tâche peut être scindée en deux (une partie, sur le SI-PCI, d’anonymisation et de récupération d’information avec nos partenaires, l’autre partie sur Big Data)
        - Participer à l’étude technique (puis réalisation si l’étude est concluante) de mise en place d’une solution de Data Streaming (type Kafka, Spark Streaming)

Exigences générales :
- Excellent niveau en Python
- Capacité d’adaptation et force de proposition
- Travail en équipe
- Être familier avec les principes du DevOps


Date de démarrage : à partir de mi-Juin
Durée : environ 1 an

Réf
331-040621-021
Date de publication
08/06/2021
Statut
Ouvert
Annonceur
SALESADM
Type de contrat
Freelance
Sujet(s)
Data

Envoyer annonce