logo

JobNob

Your Career. Our Passion.

[ STAGE ] - NLP : Jeux de données d’instructions en français et conception d’un leaderboard


Catie


Location

Talence, Gironde | France


Job description

Employeur : CATIE – www.catie.fr
Stage – RÉGION DE BORDEAUX (TALENCE)

EN QUELQUES MOTS :
INTELLIGENCE ARTIFICIELLE – NLP – TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL  – MACHINE LEARNINGPYTHON

Dans un environnement technologique dynamique, rejoignez une équipe jeune, dynamique et experte, spécialisée dans la réalisation de projets innovants. En plaçant l’Humain au cœur de nos travaux, nous développons et transférons vers les entreprises les technologies les plus avancées, de l’Internet des Objets à l’Intelligence Artificielle.

QUI NOUS SOMMES :

Le Centre Aquitain des Technologies de l’Information et de l’Electronique (CATIE) est un centre de ressources technologiques de Nouvelle-Aquitaine créé en 2014 ayant pour mission d’accélérer le transfert technologique entre les mondes de la recherche et industriels. Nous sommes organisés en trois Unités Technologiques : Algorithmes et Données, Systèmes Centrés sur l’Humain et Systèmes Cyber-physiques.

Au sein du CATIE, l’équipe Algorithmes et Données composée d’informaticiens, mathématiciens et data scientists, travaille plus particulièrement sur des sujets d’Intelligence Artificielle, big data et cloud en s’appuyant également sur nos plateformes technologiques cf. https://www.vaniila.ai/

CE QUE NOUS ATTENDONS DE VOUS :

Actuellement en 4ème ou 5ème année de master ou d’école d’ingénieur, vous justifiez de bonnes connaissances en Machine Learning et d’une capacité à prendre des initiatives.  Au quotidien, vous faites preuve de dynamisme et avez de bonnes qualités relationnelles.

Créatif(ve), rigoureux(se) et doté(e) d’une curiosité scientifique, vous savez travailler en équipe et de façon autonome afin de contribuer sur ce projet de recherche en traitement automatique du langage naturel (NLP).

 

COMPETENCES :

 

DETAILS DU SUJET PROPOSE :

Les modèles de langues ont montré des capacités pour résoudre de nombreuses tâches formulées en langage naturel. Néanmoins, l’entraînement de tels modèles nécessite une grande quantité de données.  Les modèles entrainés sur des jeux de données d’instructions montrent une plus grande généralisation à de nouvelles tâches ainsi qu’avec des modèles plus petits [3, 4]. Cette généralisation est de meilleure qualité sur des données utilisant des mécanismes tels que la “Chain-Of-Thought” (COT) [2,3, 4].  Alors qu’il existe de nombreux jeux de données disponibles en anglais, très peu sont disponibles pour le français.

La première partie du sujet de ce stage est de générer des jeux de données d’instructions en français sur la base de méthodes automatiques puis qualifiés de manière manuelle ou semi-automatique. Une attention particulière sera portée à des données de problèmes de sens commun, logiques, mathématiques ou de programmation avec l’extraction d’explications (”rationale”) concernant le texte généré.

Les méthodes utilisées pourront se baser sur :

La seconde partie de ce stage consiste à utiliser les jeux de données obtenus dans la première partie pour concevoir un leaderboard pour les modèles en français (chose qui est actuellement inexistant dans la littérature). Une source d’inspiration pourra être l’[Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard) qui est la référence pour l’anglais.

 

Bibliographie

[1] LLM DataHub, https ://github.com/Zjh-819/LLMDataHub
[2] The CoT Collection : Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning, Seungone Kim et al., 2023, https ://arxiv.org/abs/2305.14045
[3] Distilling Step-by-Step ! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes, Cheng-Yu Hsieh et al., 2023, https ://arxiv.org/abs/2305.02301
[4] Scaling Instruction-Finetuned Language Models, HyungWon Chung et al., 2022, https ://arxiv.org/abs/2210.11416

INFORMATIONS COMPLEMENTAIRES :

Rémunération : 800€ / mois pour un stage de fin d’études Bac + 5 ; selon le barème légal sinon.

Date de début :  dès que possible

Durée du stage : 4 à 6 mois selon disponibilité

A fournir : CV via mail de motivation

Contact : [email protected]

Référence de l’offre SIDO_NLP_FR_2024


Job tags

StageStage 6 moisStage 4 moisRecrutement immédiat


Salary

800 €

All rights reserved