Wat zijn wel en geen goede AI-tools voor personeelsselectie? Psychologen geven vuistregels

Door AI maakt personeelsselectie via algoritmen een snelle opmars. Maar hoe kiezen HR-professionals betrouwbare tools? Psychologen Rinie Ariëns en Reinout de Vries schreven vuistregels om het enorme aanbod te schiften.

Door: Rinie Ariëns en Reinout de Vries

AI wordt wel de vierde industriële revolutie genoemd. Zelfs de meest vooraanstaande IT-deskundigen kunnen de snelheid waarmee die zich voltrekt niet bijbenen.

Selectie van goed personeel is te belangrijk om uit handen te geven aan praatjesmakers en dilettanten

Dit geldt ook voor AI-toepassingen in personeelsselectie. AI kan vliegensvlug ontelbare matches maken tussen mensen, organisaties, teams en banen en dat biedt geweldige kansen. Maar hoe kies je verantwoorde AI-toepassingen voor de eigen personeelsbehoefte?

Er komen allerlei innovatieve AI-toepassingen op de markt die het werving- en selectieproces effectiever, efficiënter en eerlijker kunnen maken. Dit is een prachtige ontwikkeling. Er zijn echter ook risico’s aan verbonden, bijvoorbeeld op het gebied van dataveiligheid en bias in algoritmen.

Praatjesmakers en professionals

Er zijn bureaus die je vragen – voor een paar tientjes – om tot honderd te tellen en je op basis van de geluidsopname een uitgebreid assessmentrapport opsturen. Andere bureaus pretenderen een valide persoonlijkheidsprofiel op te kunnen stellen op basis van een foto.

Hoe vind je je weg in het woud van goede en slechte aanbieders? Hoe mijd je bureaus met wetenschappelijke claims die niets meer zijn dan ‘empty branding’ en die je verleiden met onrealistische beloften, je problemen vervolgens niet oplossen en je achterlaten met het gevoel dat dit aan jou ligt?[1].

Personeelsselectie raakt aan de levens van mensen en is te waardevol om aan praatjesmakers en dilettanten over te laten. Een keuze voor verantwoorde AI in personeelsselectie[2], als onderdeel van een evidence based HR-strategie, helpt om fabels te onderscheiden van interventies met bewezen impact. Dat zou de belofte van HR moeten zijn: goed geïnformeerd de mogelijkheden van AI omarmen.

Een praktijkvoorbeeld

Om de strategische keuze voor kwalitatief hoogwaardige en ethisch verantwoorde AI in personeelsselectie waar te maken, is het waardevol om samen te werken met wetenschappers die de technologische ontwikkelingen niet alleen op de voet volgen maar ook daadwerkelijk vormgeven.

Een recent voorbeeld hiervan is de ontwikkeling van een AI-toepassing waarmee persoonlijkheid gemeten wordt aan de hand van antwoorden op interviewvragen. Bij het vormgeven van een AI-algoritme dat selectiebeslissingen kan nemen, komt veel kijken. We lichten hieronder een paar belangrijke elementen toe:

1. Relevante vragen stellen

Uit onderzoek, in 2024 gepubliceerd in Computers in Human Behavior, blijkt dat het veel uitmaakt voor het algoritme wat voor vragen je stelt. Als je bijvoorbeeld graag wilt weten of iemand goede leiderschapseigenschappen heeft, moet je specifieke vragen stellen over wat voor soort gedrag iemand vertoont in situaties waar leiderschap vereist is.

Je komt echt niets te weten over leiderschapsgedrag op basis van een foto of op basis van een geluidsopname waarin iemand tot honderd telt. Laat je niet bedriegen door mensen die iets anders beweren; eigenschappen uiten zich alleen maar door middel van relevante gedragingen, niet door middel van gedragingen of uitingen waarvan je eigenlijk al intuïtief weet dat ze niet relevant zijn.

2. Relevante data en ground truth

ChatGPT is gebaseerd op zogeheten Large Language Models. ChatGPT werkt zo goed omdat er enorm veel data (570 GB, in het geval van ChatGPT 4.0) gebruikt is om het algoritme te trainen.

Bij het herkennen van persoonlijkheid moet een algoritme getraind worden door de beoordeling van het algoritme te vergelijken met een – liefst zo objectief mogelijke – beoordelingsstandaard (in het Engels ground truth geheten). En dus ook liefst met zo veel mogelijk data.

Wees dus kritisch op consultants die wel beweren dat ze op basis van stemgebruik of uiterlijk uitspraken kunnen doen over de persoonlijkheid van iemand

Op basis van onderzoek weten we dat persoonlijkheidsbeoordelingen door meerdere getrainde en onafhankelijke beoordelaars een objectievere – en ook meer bruikbare – beoordeling geven dan zelfbeoordelingen of beoordelingen door een enkel persoon. De beoordeling moet daarnaast uiteraard relevant zijn voor het te beoordelen gedrag – dus niet hoe attractief iemand er uit ziet of hoe mooi iemands stem is als het om leiderschapsgedrag gaat.

3. Relevante modaliteit

Op basis van het bovenstaande onderzoek, en onderzoek dat in 2024 gepubliceerd is in IEEE Transaction on Affective Computing, weten we ook dat AI het meest te weten kan komen over iemands persoonlijkheid door wat iemand zegt, niet hoe de persoon iets zegt en/of hoe de persoon erbij kijkt.

Bij AI-algoritmes in selectie-interviews is dus de inhoud van wat iemand zegt belangrijker dan de intonatie van het gesprokene of de gezichtsuitdrukking daarbij. Gelukkig maar, want om discriminatie te voorkomen, willen we eigenlijk geen vooroordeel hebben op basis van iemands stemgebruik (dialect) en uiterlijk, toch?

Wees dus kritisch op consultants die wel beweren dat ze op basis van stemgebruik (tellen tot honderd) of uiterlijk (foto) uitspraken kunnen doen over de persoonlijkheid van iemand. Niet alleen ligt er geen relevante vraag aan ten grondslag en is er veelal geen relevante ground truth, dit soort praktijken is uit principe al verwerpelijk omdat het allerlei vooroordelen kan bestendigen.

Woud van aanbieders

Hoe vind je de weg in het woud van AI-aanbieders? Een paar tips.

  1. Kies voor aanbieders die samenwerken met universiteiten;
  2. Sluit je aan bij een AI-kennisplatform, bijvoorbeeld de Nederlandse AI Coalitie (nlaic.com);
  3. Integreer de principes van verantwoorde AI in personeelselectie (pdf (psynip.nl)) in je HR-strategie;
  4. Organiseer in je organisatie een ethische dialoog over de wenselijke en onwenselijke kanten van AI-ondersteunde personeelsselectie.
  5. Neem kennis van de AI Act van de EU. Deze verordening reguleert het gebruik van AI en eist dat risico’s voor mens en maatschappij worden geminimaliseerd.
  6. Laat je niet verleiden tot de laatste AI-selectiehype, zelfs niet als veel andere concullega’s hiermee aan de haal gaan;
  7. Wees kritisch op het algoritme van aanbieders: is dit gebaseerd op relevante vragen, relevante data en ground truth en relevante modaliteiten?
  8. Bij twijfel, raadpleeg een onafhankelijk deskundige. Het is relatief eenvoudig om experts aan de universiteit te benaderen die uit maatschappelijke verantwoordelijkheid vaak bereid zijn om een oordeel te vellen over de wetenschappelijkheid van een algoritme.

Tot slot

Het gebruik van AI zal een grote vlucht nemen. Op de golven van deze belofte proberen zowel bonafide als malafide aanbieders mee te surfen. Zonder voorkennis is het moeilijk om een goed onderscheid te maken tussen (wetenschappelijk) gefundeerde oordelen van bonafide aanbieders en (onwetenschappelijke en) ongefundeerde oordelen van malafide aanbieders.

Wees dus extra kritisch op aanbieders zolang de kennis over AI in selectie nog niet volledig is uitgekristalliseerd. Selectie van goed personeel is te belangrijk om zomaar uit handen te geven aan praatjesmakers en dilettanten.

 

Links: Rinie Ariëns (r.ariens@ltp.nl) is Chief Psychologist bij LTP. Rechts: Reinout de Vries (re.de.vries@vu.nl) is hoogleraar Persoonlijkheids- en Organisatiepsychologie aan de Vrije Universiteit Amsterdam.

[1] Patrick Vermeren heeft hier een vuistdik boek over geschreven: A skeptic’s HR dictionary. The good, the bad, the partially true. The ultimate self-defense guide for CEOs, HR professionals, Industrial Organization students and employees (2019).

[2] Janneke Oostrom, hoogleraar Organisatiepsychologie, heeft voor het Nederlands Instituut van Psychologen (NIP) zes eisen geformuleerd voor verantwoorde AI in personeelsselectie: (1) De AI is gebaseerd op theorie; (2) De AI is uitlegbaar; (3) De AI levert consistente scores op; (4) De AI voorspelt relevant gedrag; (5) De AI is gebaseerd op een grote en representatieve normgroep; (6) De AI discrimineert niet.


Koutsoumpis, A., Ghassemi, S., Oostrom, J. K., Holtrop, D. J., Van Breda, W. R. J., Zhang, T., & De Vries, R. E. (2024). Beyond traditional interviews: Psychometric analysis of asynchronous video interviews for personality and interview performance evaluation using machine learning. Computers in Human Behavior, 154, 108128. https://doi.org/10.1016/j.chb.2023.108128

Zhang, T., Koutsoumpis, A., Oostrom, J. K., Holtrop, D. J., Ghassemi, S., & De Vries, R. E. (2024). Can Large Language Models assess personality from Asynchronous Video Interviews? A comprehensive evaluation of validity, reliability, fairness, and rating patterns. IEEE Transaction on Affective Computing. https://doi.org/10.1109/TAFFC.2024.3374875