Location
North America | Canada
Job description
Who we are:
Are you looking to live the impossible, tell powerful stories and step out of what’s comfortable? Goalcast is the world’s leading empowering media company, specializing in the production and distribution of transformative short documentaries and original short films. With a growing community of over 40 million people and a monthly viewership of over 500 million, our videos deeply impact lives across the globe. Each one is made to help people recognize their potential, make the tough choices required to change, and live the impossible.
Overview:
We are seeking a dynamic and eager-to-learn Junior Data Engineer to join our team. This role is ideal for someone with a foundational knowledge in Python and SQL, and an interest in big data technologies and cloud services. While not required to be an expert in AWS, Databricks, or Airflow from the start, the candidate should demonstrate a basic understanding & familiarity with the tools and a strong ability to quickly adapt and learn on the job.
What you will do:
- Write clean, efficient, and well-documented code in Python and SQL.
- Assist in the maintenance and optimization of existing ETL processes, ensuring high data quality and reliability.
- Collaborate with the data analyst and freelance engineers to design and implement upgrades to our data pipeline, leveraging AWS, Athena, Databricks, Airflow & other tools
- Develop and maintain scalable and efficient data models and schemas to support data analysis and business intelligence tools.
- Participate in the integration of new data sources into the company's data ecosystem.
- Monitor data pipeline performance and troubleshoot any issues that arise.
- Continuously learn and adapt to new technologies and techniques in data engineering and cloud computing.
- Ensure data quality and consistency across various data sources through the creation and implementation of scripts and tools for data validation and cleansing.
- Contribute to the maintenance of metadata, data catalog, and data lineage systems to ensure data is accessible and understood by all relevant stakeholders.
- Support the development of data APIs for data consumption by various internal and external stakeholders.
What you will bring:
- Intermediate to advanced proficiency in Python and SQL.
- Demonstrated interest/experience in data engineering, ETL processes, or related fields.
- Familiarity with cloud service providers like Databricks, AWS, Azure, or Google Cloud Platform including their basic services (e.g., compute instances, storage options, and managed databases).
- Knowledge of Apache Spark (Asset)
- Version Control: Understanding of version control systems, Git/GitHub, ability to manage branches, merge conflicts, and pull requests.
- Databases: Ability to work with relational databases (e.g., MySQL, PostgreSQL), including designing schemas and writing queries.
- Basic Security Practices: Knowledge of basic security concepts (e.g., OAuth, JWT, HTTPS, SQL Injection, XSS) to protect applications from common vulnerabilities.
- Containers and Orchestration: Basic understanding of containerization (Docker) and orchestration tools (Airflow) for developing, shipping, and running applications.
- Development Tools: Proficiency in using Integrated Development Environments (IDEs), debuggers, and other development tools to write and debug code.
- CI/CD: Understanding of Continuous Integration and Continuous Deployment pipelines and tools
What you will need:
- Bachelor’s degree in Computer Science, Engineering, Mathematics, or a related field is preferred but not mandatory.
- Demonstration of eagerness to learn (online certificates, completed trainings & courses, personal projects)
- Experience with big data technologies e.g., Hadoop, Spark (Asset)
- Ability to learn new technologies quickly and independently.
- Strong problem-solving skills and attention to detail.
- Excellent communication and teamwork abilities.
Benefits:
- Flexible schedule (hybrid)
- Allowance for Wellness (Gym, personal training, nutrition, massotherapy and more! )
- Allowance for Self Development activities ( coaching, therapy, art classes and more! )
- 15 vacation days and working holiday opportunities
- Unlimited sick/personal days
- Access to Dialogue, a virtual clinic for you available on your first day
- Complimentary coaching from creative, personal and professional mentors
- Employee stock option opportunities (ESOP)
- Transportation benefits such as shared parking and public transportation (STM) reimbursements.
- Full Access to our In house gym/sauna
- Goalcast team wide events!
___________________________________________________
Qui sommes-nous ?
Vous cherchez à vivre l'impossible, à raconter des histoires fortes et à sortir de ce qui est confortable ? Goalcast est la première société de médias d'autonomisation au monde, spécialisée dans la production et la distribution de courts documentaires transformateurs et de courts métrages originaux. Avec une communauté grandissante de plus de 40 millions de personnes et une audience mensuelle de plus de 500 millions de personnes, nos vidéos ont un impact profond sur les vies à travers le monde. Chacune d'entre elles est conçue pour aider les gens à reconnaître leur potentiel, à faire les choix difficiles nécessaires au changement et à vivre l'impossible.
Vue d'ensemble :
Nous recherchons un ingénieur de données junior dynamique et désireux d'apprendre pour rejoindre notre équipe. Ce poste est idéal pour une personne ayant des connaissances de base en Python et SQL, et un intérêt pour les technologies big data et les services cloud. Bien qu'il ne soit pas nécessaire d'être un expert en AWS, Databricks, ou Airflow dès le départ, le candidat doit démontrer une compréhension de base et une familiarité avec les outils et une forte capacité à s'adapter rapidement et à apprendre sur le terrain.
Ce que vous ferez :
- Écrire un code propre, efficace et bien documenté en Python et SQL.
- Vous participez à la maintenance et à l'optimisation des processus ETL existants, en veillant à la qualité et à la fiabilité des données.
- Collaborer avec l'analyste de données et les ingénieurs freelance pour concevoir et mettre en œuvre des mises à jour de notre pipeline de données, en s'appuyant sur AWS, Athena, Databricks, Airflow et d'autres outils.
- Développer et maintenir des modèles de données et des schémas évolutifs et efficaces pour soutenir l'analyse des données et le bus.
- Participer à l'intégration de nouvelles sources de données dans l'écosystème de données de l'entreprise.
- Surveiller les performances du pipeline de données et résoudre les problèmes qui se posent.
- Apprendre et s'adapter en permanence aux nouvelles technologies et techniques dans le domaine de l'ingénierie des données et de l'informatique en nuage.
- Assurer la qualité et la cohérence des données dans les différentes sources de données par la création et la mise en œuvre de scripts et d'outils de validation et de nettoyage des données.
- Contribuer à la maintenance des métadonnées, du catalogue de données et des systèmes de lignage des données afin de garantir que les données sont accessibles et comprises par toutes les parties prenantes concernées.
- Soutenir le développement d'API de données pour la consommation de données par diverses parties prenantes internes et externes.
Ce que vous apporterez :
- Maîtrise intermédiaire ou avancée de Python et de SQL.- Intérêt démontré/expérience dans l'ingénierie des données, les processus ETL, ou des domaines connexes.
- Familiarité avec les fournisseurs de services cloud tels que Databricks, AWS, Azure ou Google Cloud Platform, y compris leurs services de base (par exemple, instances de calcul, options de stockage et bases de données gérées).
- Connaissance d'Apache Spark (atout)
- Contrôle de version : Compréhension des systèmes de contrôle de version, Git/GitHub, capacité à gérer les branches, les conflits de fusion et les demandes d'extraction.
- Bases de données : Capacité à travailler avec des bases de données relationnelles (par exemple, MySQL, PostgreSQL), y compris la conception de schémas et l'écriture de requêtes.
- Pratiques de sécurité de base : Connaissance des concepts de sécurité de base (par exemple, OAuth, JWT, HTTPS, SQL Injection, XSS) pour protéger les applications contre les vulnérabilités courantes.
- Conteneurs et orchestration : Compréhension de base de la conteneurisation (Docker) et des outils d'orchestration (Airflow) pour le développement, l'expédition et l'exécution d'applications.
- Outils de développement : Maîtrise de l'utilisation d'environnements de développement intégrés (IDE), de débogueurs et d'autres outils de développement pour écrire et déboguer du code.
- CI/CD : compréhension des pipelines et des outils d'intégration et de déploiement continus.
Ce qu'il vous faut :
- Une licence en informatique, ingénierie, mathématiques ou dans un domaine connexe est préférable mais pas obligatoire.
- Démonstration de l'envie d'apprendre (certificats en ligne, formations et cours suivis, projets personnels).
- Expérience des technologies big data, par exemple Hadoop, Spark (Atout)
- Capacité à apprendre de nouvelles technologies rapidement et de manière indépendante.
- Solides compétences en matière de résolution de problèmes et souci du détail.
- Excellentes capacités de communication et de travail en équipe.
Avantages :
- Horaire flexible
- Indemnité pour le bien-être (gymnase, entraînement personnel, nutrition, massothérapie et plus encore !)
- Indemnité pour les activités de développement personnel (coaching, thérapie, cours d'art et plus encore !)
- 15 jours de vacances et possibilités de congés professionnels
- Nombre illimité de jours de maladie et de congés personnels
- Accès à Dialogue, une clinique virtuelle pour vous, disponible dès votre premier jour
- Options d'achat d'actions pour les employés (ESOP)
- Avantages en matière de transport, tels que le stationnement partagé et le remboursement des frais de transport en commun (STM).
- Accès complet à notre salle de sport/sauna interne
- Événements Goalcast pour l'ensemble de l'équipe !
Job tags
Salary