R&D: GenAi – Van PDF naar ‘actionable’ data
Voor intoData staat data centraal. Wij verzorgen de dataondersteuning in diverse projecten, tools en frameworks. Hiervoor staat een team van mensen garant dat zich aangetrokken voelt tot elk data gerelateerd aspect binnen een informatiseringstraject. Dit gaat van data structuring (relational, dimensional modelling) tot data integratie (ETL-ELT, data movement, migration, replication) voor operationele systemen of data warehouses. Maar het omvat ook data quality en master data management (MDM). Zelfs data delivery (visualization, reporting, BI / BA) en data governance komen hier aan bod.
De dataservices markt evolueert razendsnel. Vermits intoData de klant altijd een stapje voor wil blijven, willen zij niet alleen een duidelijk beeld hebben van de behoeften en trends binnen hun markt. Ze willen ook in een vroeg stadium inzicht hebben in de nieuwste technologieën en tools.
Generatieve AI (GenAI) is zo’n trend. GenAI heeft gezorgd voor democratisering van AI. Om onze klanten de nieuwste en meest effectieve oplossingen aan te bieden, richten we ons op het verkennen en toepassen van geavanceerde GenAI-technologieën, gericht op het ontsluiten van data uit ongestructureerde data bronnen.
Jouw opdracht
De opdracht bestaat uit onderzoeken en uitwerken van een GenAI-gebaseerde oplossing voor het parsen van ongestructureerde data uit PDF's, Microsoft Word-documenten, en andere tekst-bronnen ... Topics die hierbij aan bod moeten komen zijn : chunking, tokenizen, embeddings, vector database. Het resultaat hiervan moet gebruikt kunnen worden bij het bouwen van RAG (Retrieval Augmented Generation) oplossingen.
De opdracht omvat de volgende deelgebieden:
Parsen van documenten: Onderzoek naar technieken en tools om ongestructureerde documenten te parsen en om te zetten in een bruikbaar formaat voor verdere verwerking.
Chunking en Tokenizen: Ontwikkeling van methoden om documenten in kleinere, betekenisvolle stukken (chunks) te splitsen en te tokenizen, zodat ze klaar zijn voor input naar GenAI-modellen.
Opslag in Vector Database: Implementatie van een efficiënte manier om deze documenten en hun embeddings op te slaan in een vector database, zodat ze snel en accuraat bevraagd kunnen worden.
Integratie met GenAI via RAG: Verkenning van hoe we deze ongestructureerde data kunnen bevragen om inzichten te genereren met behulp van Generative AI en RAG
Verwachte resultaten:
Een gedetailleerd onderzoeksrapport met bevindingen en aanbevelingen.
Een werkend prototype of “Proof of Concept” (PoC) van een systeem dat ongestructureerde documenten verwerkt en opslaat in een vector database en bevraagbaar maakt
Presentatie van de resultaten aan het Intodata team.
Vereisten:
Kennis van Python
Basiskennis van SQL.
Interesse in LLM en GenAI.
Analytisch vermogen en onderzoeksvaardigheden.
Zelfstandigheid en proactiviteit.
We kijken ernaar uit om met gemotiveerde studenten samen te werken die ons kunnen helpen om de grenzen van wat mogelijk is met GenAi technologie te verleggen en de basis leggen voor het bouwen van ‘Lost & Found’ software.
De begeleiding
intoData zorgt uiteraard voor de nodige opleiding en begeleiding door een vooraf samengesteld team. Tijdens je stage werk je in de context van een echt project, wat wil zeggen dat je een “klant” krijgt die jou tijdens je eerste stagedag(en) z’n noden uitlegt, vertelt welke functionaliteit hij wil automatiseren en met welke vereisten of beperkingen. Daarnaast stellen ze je enkele technische mensen voor die geregeld met je samenzitten voor het bespreken van oplossingen. Zij helpen je ook bij eventuele problemen.
Ze proberen alle onderdelen van een goed project aan bod te laten komen, zowel op technisch als op menselijk vlak. Buiten analyse en ontwikkeling zijn communicatie, teamwerk, motivatie en doorzettingsvermogen noodzakelijke onderdelen voor deze stageopdracht.