R&D: GenAi – Smart matching van gevonden en verloren voorwerpen
Voor intoData staat data centraal. Zij verzorgen de dataondersteuning in diverse projecten, tools en frameworks. Hiervoor staat een team van mensen garant dat zich aangetrokken voelt tot elk data gerelateerd aspect binnen een informatiseringstraject. Dit gaat van data structuring (relational, dimensional modelling) tot data integratie (ETL-ELT, data movement, migration, replication) voor operationele systemen of data warehouses. Maar het omvat ook data quality en master data management (MDM). Zelfs data delivery (visualization, reporting, BI / BA) en data governance komen hier aan bod.
De dataservices markt evolueert razendsnel. Vermits intoData de klant altijd een stapje voor wil blijven, willen zij niet alleen een duidelijk beeld hebben van de behoeften en trends binnen hun markt. Ze willen ook in een vroeg stadium inzicht hebben in de nieuwste technologieën en tools.
Generatieve AI (GenAI) is zo’n trend. GenAI heeft gezorgd voor democratisering van AI. Om onze klanten de nieuwste en meest effectieve oplossingen aan te bieden, richten we ons op het verkennen en toepassen van geavanceerde GenAI-technologieën, gericht op het ontsluiten van data uit ongestructureerde data bronnen.
Jouw opdracht
Om zowel burgers als allerlei instanties (zoals politie, trein- of luchtvaart maatschappijen, hotels,...) bij te staan in het terugvinden van verloren en teruggevonden goederen, is er nood aan een aanpak waarbij teruggevonden goederen op een slimme manier gematcht kunnen worden aan verloren goederen.
De recente ontwikkeling van LLMs laat nu toe om GenAI in te zetten om naast ‘tekstuele’ beschrijving van een voorwerp ook gebruik te maken van een geautomatiseerde analyse van foto’s om te komen tot karakteristieken van het voorwerp op de foto.
Het is van belang dat het voorwerp ook op basis van de foto geïdentificeerd kan worden naast een loutere beschrijving van het voorwerp.
Het beeldherkenningssysteem identificeert automatisch het type gevonden voorwerp, de kleur en de locatie waar het voorwerp is gevonden.
Extra slimme tekstherkenningsfunctie kunnen gebruikt worden om tekst te scannen en te extraheren uit afbeeldingen. Hierdoor kunnen gebruikers eenvoudig teksten, zoals serienummers, merk, fa andere IDs uit afbeeldingen scannen en deze informatie bijvoegen in de databankt voor gevonden voorwerpen.
Het doel van deze stageopdracht is om:
een databank op te zetten met gevonden en verloren voorwerpen
om via beeldherkenning, slimme matching mogelijk te maken. Deze matching moet betrouwbaar zijn (waarschijnlijkheidsanalyse/waarschijnlijkheidsindicator).
Opdrachtomschrijving:
Technische Analyse: Onderzoek naar verschillende mogelijkheden om
afbeeldingen te analyseren: OCR, ‘image embeddings’, …
de voorwerpen te matchen met elkaar op basis de foto’s en/of tekstuele beschrijvingen.
Welke python-libraries kunnen hiervoor ingezet worden?
Proof of Concept: Ontwikkel een proof of concept waarin
een databank wordt opgezet met verloren/gevonden voorwerpen
ten minste één van de geïdentificeerde oplossingen wordt getest en geëvalueerd om de afbeeldingen van de voorwerpen te analyseren en
de voorwerpen automatisch te matchen met elkaar.
Rapportage en Aanbevelingen: Documenteer de bevindingen in een uitgebreid rapport en geef aanbevelingen voor mogelijke implementaties en toekomstige onderzoeksrichtingen binnen ons bedrijf.
Verwachte resultaten:
Uitgebreide documentatie van oplossingen om afbeeldingen te analyseren
Werkend Proof of Concept
Aanbevelingen en lessons learned
Presentatie van de resultaten aan het intodata team
Vereisten:
Kennis van Python en basiskennis van SQL.
Interesse in LLM en GenAI.
Analytisch vermogen en onderzoeksvaardigheden.
Zelfstandigheid en proactiviteit.
We kijken ernaar uit om met gemotiveerde studenten samen te werken die ons kunnen helpen om de grenzen van wat mogelijk is met GenAi technologie te verleggen en de basis leggen voor het bouwen van ‘Lost & Found’ software.
Meten is weten
Het is de bedoeling om geïnteresseerde collega’s binnen intoData een polsbandje te bezorgen en hen te vragen periodiek hun data op een afgesproken plaats ter beschikking stellen. Je kan ook een oproep doen bij andere collega’s die al een device hebben om data te capteren en door te sturen, desnoods geanonimiseerd.
Technisch kom je tijdens deze stageopdracht in aanraking met volgende tools en technologieën: Talend, AWS (met PostgreSQL), Tableau (of andere visualisatie tool) en Python of R (?) voor andere analyses. Al dan niet doe je een tussenstap via een NoSQL database (bv. MongoDB) waarin je de aangereikte data bijvoorbeeld als JSON-strings stockeert.
Research
In deze stageopdracht doe je de nodige research rond de traditionele relationele databases (bv. PostreSQL) enerzijds en de NoSQL databases (bv. MongoDB) anderzijds. We verwachten dat je ook een kritische blik werpt op de buzz die je rond dit thema vindt op het net.
Vragen die je beantwoordt zijn onder andere:
Is NoSQL een technologie voor alleen de grote, bekende websites, zoals bol.com, Amazon, LinkedIn, Twitter en Facebook, of heeft deze technologie wel degelijk traditionele organisaties iets te bieden?
Wat zijn de typische toepassingsgebieden voor RDBMS en NoSQL?
Geef de voor- en nadelen van beide
Welke mogelijkheden en technische eigenschappen hebben ze?
Doel van deze stage
Een aantal van de NoSQL en niet-gestructureerde data concepten in het juiste perspectief plaatsen
De mogelijkheden en de beperkingen van de gebruikte tools en technologieën testen om zo het intoData team beter in staat te stellen om de juiste keuzes te maken bij vragen van hun klanten
Een extra doel is natuurlijk de opgezette case effectief ook te gebruiken
Voor deze stageplaats zijn zij op zoek naar een informatica profiel met een grote leergierigheid, de wil om nieuwe technologieën te bestuderen en de passie om met data te werken.
De begeleiding
intoData zorgt uiteraard voor de nodige opleiding en begeleiding door een vooraf samengesteld team. Tijdens je stage werk je in de context van een echt project, wat wil zeggen dat je een “klant” krijgt die jou tijdens je eerste stagedag(en) z’n noden uitlegt, vertelt welke functionaliteit hij wil automatiseren en met welke vereisten of beperkingen. Daarnaast stellen ze je enkele technische mensen voor die geregeld met je samenzitten voor het bespreken van oplossingen. Zij helpen je ook bij eventuele problemen.
Ze proberen alle onderdelen van een goed project aan bod te laten komen, zowel op technisch als op menselijk vlak. Buiten analyse en ontwikkeling zijn communicatie, teamwerk, motivatie en doorzettingsvermogen noodzakelijke onderdelen voor deze stageopdracht.