jobs Logo
LawZero logo

Développeur Senior Traitement de Données ML

LawZeroabout 24 hours ago
Montreal, Quebec, Canada
Senior Level
Full-Time

Top Benefits

Comprehensive Health Benefits
Mental Health and Well-being Account
20 Days of Annual Vacation

About the role

Nous recherchons un·e Développeur.euse sénior, Traitement de Données ML pour participer au développement, à l’édition et à la mise à l'échelle de notre pipeline d'actifs de données. À la jonction de l'ingénierie des données, de l’édition des données et de l'apprentissage automatique, vous serez responsable de l’entièreté du pipeline qui transforme les données brutes à l'échelle du web en ensembles de données à haut signal utilisés pour entraîner l'IA-Chercheur. Dans ce rôle, vous ne vous contenterez pas de gérer les données ; vous en concevrez la qualité. Vous élaborerez le filtrage algorithmique, développerez des mécanismes de notation basés sur des modèles et assurerez une intégrité rigoureuse des bancs d'essai pour alimenter la prochaine génération d'IA. Et à mesure que nos modèles dépasseront les paradigmes établis, vous concevrez et implémenterez de nouvelles transformations de données qui n'ont pas encore de guide d'utilisation, travaillant à la frontière de ce que peuvent être les données d'entraînement. Nous recrutons plusieurs personnes pour ce poste, et les responsabilités pourront être réparties au sein de l'équipe en fonction de l'expérience, des compétences et des intérêts de chacun·e . Responsabilités clés Travailler en partenariat avec l'équipe de Recherche pour définir, construire, automatiser, mettre à l'échelle et gérer des pipelines de données qui transforment les données brutes à l'échelle du web en ensembles de données d'entraînement pour l'IA-Chercheur. Construire et maintenir des pipelines de traitement de données, incluant la dé-duplication, la notation de qualité basée sur des modèles, le filtrage heuristique, la suppression de la toxicité, le masquage des informations personnelles identifiables (IPI (PII)), l'extraction de métadonnées et les transformations de données propriétaires, avec un versionnage et un suivi de la provenance des ensembles de données complets, en optimisant le débit et le coût à l'échelle. S'assurer que toutes les données ingérées répondent aux exigences de conformité, aux politiques internes de gouvernance des données et aux obligations légales. Développer et affiner la suite d'outils de notation et de filtrage : heuristiques, évaluateurs basés sur les grands modèles de langage (“LLM-as-a-judge”), classificateurs ML, modules d'extraction de métadonnées et flux de travail de révision avec intervention humaine ("human-in-the-loop") requis pour le traitement et l'assurance qualité des données. Instrumenter les pipelines de traitement de données avec de la surveillance de la qualité des données, des garde-fous et des alertes pour détecter les régressions avant qu'elles ne se propagent en aval. Collaborer avec l'équipe de Recherche et d'autres équipes pour comprendre l'évolution des exigences en matière de données, puis identifier et acquérir de vastes corpus de texte qui répondent à ces exigences. Cela comprend la réalisation d'analyses systématiques de couverture pour identifier les lacunes dans le corpus et le développement de stratégies d'acquisition ciblées pour y remédier, ainsi que la collaboration avec l'équipe juridique et de gouvernance pour obtenir la licence de nouvelles sources de données. Concevoir et maintenir des mécanismes stricts de détection des fuites pour se prémunir contre la contamination de l'évaluation à toutes les étapes du pipeline de traitement des données. Construire des outils et des interfaces internes qui permettent aux chercheurs d'explorer, d'interroger et de comprendre les ensembles de données disponibles avec un minimum de friction. Compétences et qualifications Diplôme en informatique, en génie logiciel ou dans un domaine connexe. Expérience avérée dans le traitement des ensembles de données textuelles non structurées massives (échelle du billion de jetons), avec plus de 5 ans d'expérience dans le traitement des données, l'ingénierie de l'apprentissage automatique ou le traitement du langage naturel (NLP). Expérience pratique des cadres de traitement distribué (par exemple, Spark, Ray, Flink), de la conception et de l'optimisation des pipelines à haut débit. Expérience de la mise en œuvre de la confidentialité des données (masquage des IPI), du filtrage de la sécurité du contenu (toxicité, biais) et de la prévention de la contamination de l'évaluation. Capacité démontrée à travailler avec des équipes de Recherche, d'Ingénierie et/ou Juridique/de Gouvernance, à traduire les exigences variées en travail concret de pipeline. Solide maîtrise de Python, y compris l'écriture de code de traitement de données de qualité production. Expérience des cadres d'orchestration de pipelines (par exemple, Airflow, Prefect, Dagster). Atouts Expérience dans la formation, l'affinage ("fine-tuning") ou le déploiement de modèles ML pour des tâches de qualité des données (classificateurs, évaluateurs basés sur les LLM) et familiarité avec l'optimisation de l'inférence LLM (par exemple vLLM, SGLang). Familiarité avec le déploiement conteneurisé (Docker, Kubernetes) et les pratiques d'infrastructure en tant que code ("infrastructure-as-code"). Familiarité avec les outils de suivi des expériences ML (par exemple Weights and Biases). Expérience des flux de travail de licence de données ou de l'acquisition de données à l'échelle du web. Contributions aux outils open-source de traitement de données ou de NLP. Ce que nous offrons La possibilité de contribuer de manière significative à une initiative d'importance mondiale. Des avantage sociaux complets en matière de santé (incluant un compte de gestion de la santé mentale et du bien-être). 20 jours de vacances par an dès l'embauche. Une contribution de l'employeur de 4 % à votre épargne-retraite, sans exigence de contribution équivalente de la part de l'employé. Une rémunération supplémentaire totalisant 8 % de votre salaire, à attribuer à une épargne-retraite supplémentaire ou à des primes (non lié à la performance). Une équipe d'experts passionnés et compétents. Un environnement de travail collaboratif et inclusif dans nos bureaux situés au cœur de la Petite Italie, dans le quartier branché de Mile-Ex, à proximité des transports en commun. À propos de LoiZéro LoiZéro est une organisation à but non lucratif dédiée à faire progresser la recherche et à développer des solutions techniques permettant de concevoir des systèmes d'IA sécuritaires. Son approche scientifique repose sur de nouvelles recherches et méthodes proposées par le professeur Yoshua Bengio, le chercheur en IA le plus cité au monde. Basée à Montréal, LoiZéro mène des recherches pour concevoir des systèmes d’IA non agentiques qui apprennent à comprendre le monde plutôt qu'à y intervenir, en répondant de manière véridique aux questions posées sur la base d'un raisonnement probabiliste transparent et extériorisé. De tels systèmes d'IA pourraient être utilisés pour accélérer la découverte scientifique, superviser les systèmes d'IA agentiques et faire progresser notre compréhension des risques de l'IA et des moyens de les éviter. LoiZéro croit que l’IA doit être considérée comme un bien public mondial, développée et utilisée de manière sécuritaire pour favoriser l’épanouissement humain. Plus d’information : www.loizero.org Vous avez votre place ici À LoiZéro, la diversité nous tient à cœur. Nous valorisons un environnement de travail équitable, ouvert et respectueux des différences. Nous encourageons les candidatures de personnes hautement qualifiées désireuses de travailler à la réalisation de notre mission dans un cadre respectueux, inclusif et collaboratif. Vos informations personnelles seront collectées et traitées par LoiZéro afin d'évaluer votre demande d'emploi conformément à notre politique de vie privée. En vertu des lois sur la protection de la vie privée en vigueur dans votre pays de résidence, vous pouvez disposer de plusieurs droits en matière de protection de la vie privée, comme celui de demander l'accès à vos informations personnelles ou de demander que vos informations personnelles soient rectifiées ou effacées. Vous trouverez des détails sur la manière dont vous pouvez exercer vos droits dans notre politique de protection de la vie privée.

About LawZero

Similar Jobs