Un hackathon pour mieux analyser les offres d’emploi en ligne ?
La Dares et l’Insee font équipe pour supprimer la duplication d’offres d’emploi qui biaisent les analyses des tendances du marché du travail. Car comment obtenir des indicateurs fiables sur le marché et le futur du travail sans données fiables ? L’objectif de ce hackathon donc de proposer un code qui permette d’éliminer tout doublon pour renforcer la pertinence des analyses.
Les explications de myRHline.
Les enjeux du hackathon
Si ce hackathon est important, c’est parce que les offres d’emploi sont devenues une source de données et d’informations précieuses pour les analystes du marché du travail. En effet, analyser ces offres d’emploi peuvent permettre de mettre le doigt sur des difficultés de recrutement ou également, par exemple, un besoin en recrutement dans un secteur précis, dans une zone géographique précise, etc.
L’analyste du contenu de ces offres en ligne permet d’ailleurs d’infirmer ou non les tendances proéminentes du marché relatives par exemple à l’augmentation de salaire, la mise en place du télétravail en entreprise, etc.
Pour autant, une offre d’emploi n’est pas forcément et systématiquement associée à une embauche. Et cela viendrait donc fausser les données récoltées.
Car parfois, les recruteurs viennent multi-diffuser leur annonce sur plusieurs sites, ce qui peut “gonfler artificiellement certains chiffres ou déformer certaines tendances si aucun traitement n’est effectué. La déduplication des données d’offres d’emploi en ligne est ainsi une condition clé de leur analyse”, souligne la Direction de l’Animation de la Recherche, des Études et des Statistiques (Dares) dans le cadre de ce hackathon.
Hackathon du dédoublage des offres : la compétition est lancée
Début mars 2023, la compétition a été lancée avec la publication des tentatives de code sur la plateforme.
Eurostat met à disposition un fichier avec environs 112 000 offres d’emploi provenant de près de 400 sites internet européens. Les 20 équipes participantes ont eu jusqu’au 31 mars pour proposer un algorithme performant et précis pour identifier et classifier les doublons
Il était possible de poster jusqu’à 10 codes pour pallier cette demande. Le classement, avec le volume de propositions proposées par équipe, est visible sur la plateforme de la compétition.
“Nous faisons partie des équipes sélectionnées. A partir du 16 avril et jusqu’au 20 octobre, nos codes seront évalués sur la reproductibilité de leur algorithme. Le 16 octobre, les résultats finaux seront annoncés et des prix seront distribués pour les grands gagnants du concours”, poursuit le Data Scientist participant au hackathon du dédoublage des offres d’emploi.
Le challenge d’une équipe de Data Scientist
Selon Benjamin Pipaud, Data Scientist lui aussi, qui participe pour la toute première fois à un hackathon, notamment consacré au dédoublonnage des offres d’emploi, le fait de travailler avec des collaborateurs qui n’ont pas tous la même expérience en machine learning constitue un défi à part entière. L’enjeu de ce hackathon est de pouvoir explorer les différentes stratégies tout en répondant aux objectifs d’efficacité, mais aussi en termes de suivi des échéances. Le Data Scientist trouve ce projet de hackathon particulièrement stimulant. Et si le hackathon pouvait favoriser l’épanouissement professionnel d’une certaine population de salariés ?
Quant à Yannis Bouachera, ce hackathon du dédoublage des offres d’emploi en ligne est intéressant en ce qu’il permet de travailler sur une question qui n’avait jusqu’alors pas pu être approfondie par manque de temps. En outre, si le challenge est organisé en vue de répondre aux besoins d’Eurostat, “on a en fait le même besoin à la Dares”, estime le Data Scientist : “Nous utilisons déjà un algorithme de déduplication sur Jocas mais il est très rudimentaire et c’était l’occasion de l’améliorer”.