top of page
Zoeken
Foto van schrijverWilliam van der Aa

Werken met AI - veel tijd gaat op aan goede datasets

Bijgewerkt op: 19 sep.

Naar aanleiding van de presentatie over de toepassingen van Data Science & AI in de logistiek, tijdens 5 jaar Servator, is Famke van Ree met Heres Stad in gesprek gegaan over deze toepassingen. Waar moeten bedrijven op letten? Wat zijn de misvattingen en wat zijn de mogelijkheden? Het artikel staat online (pag. 48) en hieronder het gehele artikel ook op Servator.


De hype rondom AI (Artificial Intelligence) heeft ook de supply chain en logistiek professionals bereikt. Zonder uitleg van de gebruikte terminologie en de manier waarop het kan worden toegepast, ontstaat echter gemakkelijk de illusie dat AI de oplossing is voor alles. En ook dat je eigenlijk geen begrip hoeft te hebben van hoe de technologie op de achtergrond werkt. Net als bij ChatGPT als taalmodel, je kunt het toepassen voor van alles. Het bedenkt alles zelf. Dat is de magie die over AI heen is komen te hangen.


AI is geen tovermiddel

Maar helaas is dat niet het geval, zo heb ik tijdens mijn studie aan de TU Eindhoven ontdekt. AI is geen Haarlemmer olie. Je moet heel goed weten waar precies je AI voor gaat inzetten en wat daar voor nodig is. Waar ga je het voor gebruiken? In het geval van logistiek en supply chain zijn dat bijvoorbeeld optimalisatietools of forecastingmodellen. Dat is toch anders dan met ChatGPT, waarmee je zonder begrip en ervaring op basis van beperkte input nog wel wat met de uitkomst ervan kunt doen. Maar als je in optimalisatietools klakkeloos de output als betrouwbaar acht, kan dat grote risico’s met zich meebrengen.

 



Datasets ontoereikend

De mogelijkheden van AI zijn enorm groot. AI-technologieën, zoals machine learning, zijn bijzonder krachtig in het herkennen van patronen in data en kunnen voorspellingen doen of beslissingen ondersteunen op basis van deze patronen. Dit leidt tot zeer waardevolle inzichten en tot geweldige algoritmes waarmee je heel veel tijd kunt besparen.  Voor al deze vormen van analyse staat de data centraal. Die data moet ergens vandaan komen. Mijn werk is gericht op het beantwoorden van vragen op basis van de data van bedrijven. De datasets die ik hierbij krijg aangeleverd zijn zelden meteen goed. Heel vaak ontbreken bepaalde waardes, die wel meegenomen moet worden. Dit is een enorm onderschat onderdeel. De datasets die vaak in het bedrijfsleven worden aangetroffen bevatten regelmatig inconsistenties, veel ontbrekende waarden, duplicaten of verouderde data en veel uitschieters, die zijn ontstaan door meet- of invoerfouten. De misvatting is dat datakwaliteit minder relevant wordt gevonden, waardoor het beeld ontstaat dat veel bedrijven hebben, namelijk: ‘Ik heb data tot beschikking, dus ik kan AI gaan toepassen’.

De werkelijkheid is anders. Als de data slecht is en de AI tool gaat aan de gang om van slechte data te leren, wat gaat hij dan leren?



Tijdrovende klus

Het is van het grootste belang om kennis te hebben van de datakwaliteit, van de mogelijkheden om data op te schonen en van het selecteren van de data die wel of niet van belang is. Welke factoren wil je meenemen in de analyse? Hoge datakwaliteit wordt beïnvloed door factoren als nauwkeurigheid, volledigheid, consistentie, actualiteit, betrouwbaarheid en validiteit. Veruit de meeste tijd gaat zitten, zo heb ik inmiddels ontdekt, in het verbeteren van de datasets. Dat is een tijdrovende klus en daarnaast ook nog eens kennisintensief. Eigenlijk ben je dus vooral bezig met data science en dan pas met het bouwen van een algoritme.



Toch is het eindresultaat vaak zeer veelbelovend, een model dat fascinerende inzichten en voorspellingen kan opleveren. De nauwkeurigheid en betrouwbaarheid van het model hangen sterk af van de mate waarin de datasets moeten worden aangepast.


Menselijke blik 

Sommige bedrijven gaan ervan uit, dat AI modellen zelf fouten kunnen herkennen en volledig corrigerend zijn. Helaas is dat een foute aanname. Hoewel sommige algoritmen in staat zijn om te gaan met onvolledige data, kunnen ze geen fundamenteel slechte data corrigeren. Daar moeten medewerkers met domeinkennis zich over buigen.Als de kwaliteit van de data niet bekend is of als de aanwezige patronen niet correct worden herkend, is de output van een AI-model onbetrouwbaar. Bij onzekerheid over de datakwaliteit biedt een data-analyse door een expert een belangrijke extra check. Een expert met domeinkennis is in staat om fouten op te merken die een AI-systeem niet herkent. De menselijke blik kan context bieden en nuances zien die essentieel zijn voor een juiste interpretatie van de data en het trekken van conclusies.



Uitschieters herkennen

Over welke fouten in de data hebben we het dan, die het leerproces van AI verstoren en tot verkeerde conclusies leiden? Bijvoorbeeld onjuiste afzetgegevens, ontbrekende periodes of verkeerde aannames, die leiden tot foutieve voorspellingen. Soms – maar vaker dan gedacht – is er sprake van het toepassen van andere meeteenheden, zoals centimeters in plaats van millimeters. Als je dat over het hoofd ziet, heb je natuurlijk niets aan de analyse, die vervolgens door een AI tool wordt aangereikt. Om dat te voorkomen kun je werken met ‘outliers’, uitschieters naar boven of naar onderen, die door het systeem worden opgepikt en getoond. Met een variatie van – ik noem maar wat – 100 tot 1.600 weet je al snel dat er waarschijnlijk sprake is van een meetfout. Ander voorbeeld is bulkverpakkingen, die soms als één artikel worden gezien, terwijl er toch twintig consumentenverpakking in zitten. Je kunt daar eenvoudigweg snel de mist mee ingaan.

 



Data op orde krijgen

Waar bedrijven aan moeten werken is het op orde krijgen van hun data, voor je aan AI begint. Ik zie daar ook goede voorbeelden van, bedrijven die daar apart mensen op zetten, die zorgen voor een goede datastructuur, die patronen kunnen herkennen en daar snelle checks op laten uitvoeren. Dat zorgt voor een goede basis en biedt de mogelijkheid om vrij snel te beginnen met AI. Dat kan zeker ook in de logistiek en in warehousing. Bijvoorbeeld daar waar klantpatronen een flinke impact hebben op de processen. Met AI is het mogelijk om bijvoorbeeld de routes te optimaliseren, die medewerkers moeten afleggen in magazijnen. Ooit zijn die routes op basis van informatie waar men toen over beschikte, vastgesteld. Daar liggen mooie uitdagingen.

 

Een veelgebruikte techniek binnen AI in de logistiek is machine learning, waarbij een model ‘leert’ van ervaring. In feite is machine learning een subonderdeel binnen AI. Goed voorbeeld hiervan zijn de voorspellende voorraadbeheermodellen van Amazon, door het combineren van historische verkoopdata, seizoenspatronen, klantgedrag en externe factoren kan het systeem voorspellen welke producten wanneer en waar nodig zijn. Machine learning is interessant wanneer patronen te complex zijn om uit te leggen in ‘als-dan’ regels. In het voorbeeld van Amazon is de hoeveelheid data en de interactie tussen al deze factoren te complex om in regels uit te schrijven voor een systeem en kan je Machine Learning toepassen om deze regels en dus patronen zelf te leren. De volgende stap is generatieve AI, waar toepassingen zoals het genereren van teksten met ChatGPT en video’s onder vallen. Het is een brede term waar veel onder valt binnen het domein AI, en het onderscheidt zich doordat het nieuwe content kan genereren op basis van patronen die zijn geleerd uit bestaande data. Dit maakt het mogelijk om fictieve scenario’s te schetsen of een robot keuzes laten maken in situaties die niet eerder zijn voorgekomen. Generatieve AI kan daarom waardevol zijn in het verkennen van ontbrekende of zeldzame omstandigheden door op basis van eerdere ervaringen en gegevens nieuwe oplossingen te bedenken.


Voordelen

AI heeft de potentie om processen in de logistieke sector efficiënter te maken en gefundeerde beslissingen nemen eenvoudiger te maken. Met toepassingen zoals zelflerende processen binnen geautomatiseerde magazijnen en routeoptimalisatie kunnen bedrijven aanzienlijk profiteren van AI-technologieën.


Met de groeiende hoeveelheid data en de steeds beter wordende AI-technologieën, is investeren in een robuuste datastructuur en effectieve opslagmethoden essentieel. Dit zal op de lange termijn veel voordelen opleveren. Door je data goed te kennen en te beheren, kun je de technologie eigen maken en beter begrijpen wat de output is en waarop deze is gebaseerd. Pas als je weet waar de data precies vandaan komt, kun je ook de uitkomst van een AI model vertrouwen.

 

----------------------------

Drie voorbeelden van succesvolle inzet AI

Er zijn enorm veel mogelijke gebieden om AI toe te passen in de logistieke werkomgeving. Een paar van deze toepassingen zijn hieronder geschetst. Wat haar betreft is er wel verschil wat betreft de toegankelijkheid en complexiteit van implementatie. “Forecasting is denk ik eenvoudiger en sneller te ontwikkelen dan bijvoorbeeld robotisering in magazijnen, omdat deze laatste een complexere en meer technische aanpak vereist. Maar met de juiste data en middelen is het uiteindelijk mogelijk om elk van deze onderdelen in het logistieke proces succesvol te implementeren met AI.”

 



  1. Vraagvoorspelling: Forecasting: AI-algoritmen kunnen grote hoeveelheden data analyseren om de vraag naar producten nauwkeurig voorspellen. Dit helpt bij het optimaliseren van voorraadniveaus en het voorkomen van over voorraad of tekorten. Zodra een voorspelmoel succesvol is kan deze bij veranderende factoren snel worden toegepast voor een accurate voorspelling.


  2. Automatisering van magazijnprocessen: Process automatisering: RPA (Robot Process Automation) tools, aangedreven door AI kunnen repetitieve en tijdrovende administratieve taken automatiseren, zoals facturatie, gegevensinvoer en het afhandelen van klantvragen Kwaliteitscontrole: In productieprocessen kan AI beeldherkenning gebruiken om defecten en afwijkingen te detecteren, wat de kwaliteitscontrole efficiënter maakt


  3. Optimalisatie van opslagruimte:

    Lay-out Planning: AI kan data-analyse toepassen om de meest efficiënte indeling van magazijnen te ontwerpen, waardoor de opslagruimte optimaal wordt benut en de picktijden worden verkort door routes te optimaliseren.

 

----------------------------

Servator projecten en data

In veel projecten van Servator is goede data belangrijk, maar in de dagelijkse praktijk zien we grote verschillen in datakwaliteit veroorzaakt door o.a. ontbrekende waarden, duplicaten, data type fouten en ‘outliers’.

Samen met Famke hebben we de "Data monitor en cleaner" ontwikkeld. Hierin laden we eerst alle ontvangen data en genereren vervolgens diverse rapportages, waaronder:

  • % lege velden en velden met een ‘0’

  • ‘Outliers’ (uitschieters) per artikelnummer

  • samenvattend rapport met daarin genoemde data fouten als percentage van het totaal aantal velden.


Vervolgens gaan we opschonen. Zo bepalen voor de SKU masterdata per product groep de gemiddelde lengte, breedte, hoogte en gewicht en wordt dit ingevuld op de plaats van een leeg veld of een veld met een 0.


Hiermee borgen we niet alleen dat conclusies op basis van de juiste data worden getrokken, maar helpen we klanten ook met de eerste stappen naar een goede datakwaliteit.






 

18 weergaven0 opmerkingen

Recente blogposts

Alles weergeven

Comments


bottom of page