Data Engineer Interview Questions

Data Engineer Interview Questions

Le data engineer est un professionnel de l’informatique présent dans presque tous les secteurs. Il/Elle suit l’évolution et les tendances des données pour orienter les stratégies futures de l’entreprise. Une part essentielle de son travail consiste à transformer des données brutes en données exploitables en créant des pipelines et des systèmes de données.

Questions d'entretien d'embauche fréquentes pour un data engineer (H/F) et comment y répondre

Question 1

Question 1 : Décrivez en détail votre niveau d’expertise en langage de programmation.

How to answer
Comment répondre : Avant l’entretien, révisez votre CV et dressez la liste des programmes que vous maîtrisez. Si vous vous apercevez que vous ne connaissez pas un logiciel que l’entreprise utilise majoritairement, mettez en avant votre motivation et votre volonté de vous former au logiciel en question.
Question 2

Question 2 : Expliquez selon vous en quoi consiste le data engineering.

How to answer
Comment répondre : Soulignez votre rôle au sein de l’entreprise et par rapport à d’autres fonctions telles que data scientist pour définir clairement votre contribution. Précisez la différence entre un ingénieur axé sur les bases de données et un ingénieur axé sur les pipelines de données.
Question 3

Question 3 : Quelle est votre expérience en gestion de données dans le cloud et avec Apache Hadoop ?

How to answer
Comment répondre : Renseignez-vous sur les logiciels de gestion de données dans le cloud utilisés par l’entreprise (notamment Apache Hadoop). Un data engineer doit maîtriser les langages de programmation et les systèmes de gestion des données couramment employés dans le secteur, dont Apache Hadoop.

20,273 data engineer interview questions shared by candidates

A developer on the team wrote an ETL that runs once a day as a Spark job. Every day it reads a CSV file that shows the total value of each customer's transactions of that day and writes them as a parquet file partitioned by date and customer id. Below you can see an example of the CSV file. Note that each customer has one entry representing the total transaction value it did on that day. However, sometimes the CSV file contains a correction for a sum reported in the past. For example - this file represents the transactions on 1/10. You can see that customer 1002 has 2 entries. One for 1/10 and one for 30/9. This means that the total sum of transactions the customer did on 1/10 is 70, but the total sum of transactions it did on 30/9 was 40 and this sum should replace the value already reported on 30/9. current date file: 2020-10-01 date,customer,price 2020-10-01,1000,40 2020-10-01,1001,10 2020-09-30,1002,40 2020-10-01,1002,70 2020-10-01,1003,10 2020-09-29,1004,10 2020-10-01,1004,10 This function represents the ETL. It runs once a day with a string representing the current day. It reads the CSV file, does some transformations, and writes it. Please help us find the bug in the code above, and return the right results
avatar

Senior Data Engineer

Interviewed at AppsFlyer

4.1
Mar 16, 2023

A developer on the team wrote an ETL that runs once a day as a Spark job. Every day it reads a CSV file that shows the total value of each customer's transactions of that day and writes them as a parquet file partitioned by date and customer id. Below you can see an example of the CSV file. Note that each customer has one entry representing the total transaction value it did on that day. However, sometimes the CSV file contains a correction for a sum reported in the past. For example - this file represents the transactions on 1/10. You can see that customer 1002 has 2 entries. One for 1/10 and one for 30/9. This means that the total sum of transactions the customer did on 1/10 is 70, but the total sum of transactions it did on 30/9 was 40 and this sum should replace the value already reported on 30/9. current date file: 2020-10-01 date,customer,price 2020-10-01,1000,40 2020-10-01,1001,10 2020-09-30,1002,40 2020-10-01,1002,70 2020-10-01,1003,10 2020-09-29,1004,10 2020-10-01,1004,10 This function represents the ETL. It runs once a day with a string representing the current day. It reads the CSV file, does some transformations, and writes it. Please help us find the bug in the code above, and return the right results

Viewing 1451 - 1460 interview questions

Glassdoor has 20,273 interview questions and reports from Data engineer interviews. Prepare for your interview. Get hired. Love your job.