Andmeladu ja tehisintellekt: kuidas ühendada struktureeritud andmed ja nutikad mudelid?
Allikas: Äri-IT Kevad 2025
Autor: Tanno Pärli, BCS Itera ärianalüüsi konsultant
Tehisintellekt on viimastel aastatel teinud hüppelise arengu, millest märkimisväärne osa on olnud seotud suurte keelemudelitega (Large Language Models, LLM), nagu ChatGPT ja Copilot.
Sageli puutume nendega kokku veebivestlustes, kus tehisintellekt vastab inimlikul moel. Kuid kui rääkida tõsisematest ärivajadustest või tehnilistest rakendustest, siis pelgalt lobisemisest ei piisa. Väärtuslikud rakendused nõuavad, et tehisintellektil oleks ligipääs õigele kontekstile ja täpsele informatsioonile – ning siinkohal tuleb mängu andmeladu. Alljärgnevalt uurimegi, miks on korrektne promptimine (ehk tehisintellektile esitatava ülesande või küsimuse vormistamine) oluline, milles seisneb RAG (Retrieved Augmented Generation) metoodika ja kuidas andmeladu pakub sellele protsessile vundamenti.
Tehisintellekt ja LLM-id: mugav jutukaaslane või tõsiseltvõetav tööriist?
Kes on ChatGPT-st või Copilotist kuulnud, teab, et need mudelid võimaldavad meil esitada küsimusi ning saada mõne sekundi pärast detailsed vastused. Tehisintellekti nn intelligentsus paistab välja eeskätt loomulikust keelekasutusest ja vahel lausa üllatavast täpsusest. Sellest hoolimata võime märgata, et kui küsida midagi väga spetsiifilist, kitsast või ettevõttesisest, võib vastus minna ebatäpseks või jääda täielikult puudu. Põhjus on lihtne: suurtele keelemudelitele on õpetatud suurel hulgal üldist informatsiooni, kuid neil puuduvad detailsed teadmised konkreetse organisatsiooni andmetest või väga spetsiifilisest valdkonnast. Tänu sellele tekib õigustatud küsimus: kuidas panna ChatGPT-d või mõnda muud keelemudelit lahendama meie tegelikke, äri- või uurimisülesandeid? Muidugi võib proovida õnne, esitades talle küsimuse otse, lootuses, et mudel oskab vastata. Ent tuleb meeles pidada, et avalikud LLM-id on treenitud peamiselt üldkasutatavate tekstide põhjal (veebitekstid, raamatud, artiklid). Kui mudelil puudub juurdepääs õigetele andmetele, kannatab vastuse täpsus.
Korrektse promptimise olulisus: küsimine on (rohkem kui) pool vastust
Võib tunduda, et tehisintellekti kasutamine on imelihtne: esitad küsimuse ja mudel genereerib vastuse. Ometi on tegelikkus veidi keerulisem, sest LLMile tuleb küsimust õigesti serveerida. Siinkohal tulebki mängu termin prompt engineering, mis hõlmab endas meetodeid ja tavasid, kuidas tehisintellektile esitada ülesandeid nii, et tulemuseks oleks parim võimalik vastus.
- Kontekst: kasutatav sõnastus, milles kirjeldame ülesannet, annab mudelile signaale, mida ja kuidas otsida. Näiteks võib olla väga oluline mainida ajavahemikke, valdkonnatingimusi ning arvestada sihtrühma keelt.
- Struktuur: kui tahame saada konkreetseid andmepunkte, võib olla otstarbekas paluda mudelil esitada vastus tabeli kujul või koos viidetega konkreetsetele dokumentidele.
- Oodatav väljund: täpsustades, kas soovime argumenteeritud ülevaadet, järeldusi, kontroll-loendit, kokkuvõtet või prognoosi, saame mudeli mõtlemist suunata.
LLM-id on äärmiselt tundlikud sisendi (prompti) vormi ja stiili suhtes. Lihtsalt küsides ”räägi mulle sellest või tollest”, võib saada üldise ja ebatäpse vastuse. Aga kui lisame konteksti, anname suunavaid märksõnu ja struktureerime küsimuse läbimõeldult, on tulemuseks sageli palju kvaliteetsem vastus.
RAG (retrieved augmented generation) – võti väärtuslikele vastustele
Kõige põnevam areng valdkonnas on retrieved augmented generation ehk lühidalt RAG. Mida see tähendab? Tegemist on metoodikaga, kus tehisintellekti loomuliku keele mudelit täiendatakse (augmenteeritakse) spetsiifiliste andmetega, milleks enamasti kasutatakse organisatsiooni sisedokumente, andmebaase või muid allikaid. Teisisõnu: enne kui anname LLM-ile ülesande, otsime oma andmekogudest välja konteksti jaoks vajaliku info ning lisame selle prompti osana.
- Miks see vajalik on? Kujutagem ette, et soovime müügiprognoosi konkreetse tootekategooria lõikes järgmiseks kvartaliks. Üldine LLM võib tuua välja maailmatasemel näiteid ja teooriaid, kuid see ei saa anda täpset vastust konkreetse firma kontekstis – vähemalt mitte ilma andmeteta, mida seesama firma on kogunud. RAG-i puhul otsib süsteem enne mudeli küsitlemist andmelaost või dokumendihaldussüsteemist välja konkreetsed ajaloolised müüginumbrid, sihtturu tingimused, kliendiportfelli andmed jne. See teave lisatakse prompti, et LLM saaks töötada reaalsete ja korrektsete numbritega.
- Kas see on konfidentsiaalne ja turvaline? Kui RAG on korrektselt rakendatud, ei pea organisatsioon oma andmeid üldse avalikku keelemudelisse laadima. Sisetöös tekib pigem teenindusloogika, kus LLM-ile antakse ainult see kontekst, mida on vaja vastuse koostamiseks. Andmeid kasutatakse vaid ettevõttesiseselt, nii et mudel saab oma teadmisi rikastada asjakohase infoga.
Selle protsessi võti ongi retrieve ehk otsing – tehisintellekti rakendus peab suutma olulist infot allikatest efektiivselt tuvastada. Siit jõuamegi andmeladude tähtsuse juurde.
Andmeladu kui RAG-i keskne komponent
Selleks et RAG toimiks, peavad andmed olema kättesaadavad, ühtses vormis ning usaldusväärsed. Ehkki võib tunduda, et “andmebaas on andmebaas”, on andmeladu (data warehouse) tegelikult midagi enamat kui lihtsalt juhuslik andmete hoiustamine. Andmeladu on kavandatud pakkuma:
- andmete ühest vaadet: kogu organisatsioonile olulised andmed on koondatud ühte struktureeritud vormi, kus on arvesse võetud erinevaid mõõtmeid (dimensioone), näiteks aeg, tooted, kliendid, geograafiline asukoht jmt;
- kvaliteedikontrolli: tihti on andmete allikaid palju – ERP-süsteemid, CRM-id, turundusplatvormid jms. Andmelao arendajad ja haldurid peavad tagama, et sinna sisenev info on valideeritud, üheselt mõistetav ning vajaduse korral standardiseeritud (näiteks nimed, valuutad, ühikud);
- püsivat ajaloolist perspektiivi: mitu tavaandmebaasi võib ajas muutuda või kattuda, aga andmeladu on disainitud säilitama kronoloogilist ajalooarhiivi, mis on eriti oluline äriprotsesside analüüsil ja trendide tuvastamisel.
Tehisintellektile, mis tegutseb RAG-i põhiselt, on andmeladu kullaauk. Korrektselt ehitatud ladu aitab kiiresti leida olulisi kirjeid, arvandmeid ja konteksti, mida mudel vajab täpse vastuse genereerimiseks.
Miks ei piisa tavapärasest andmekogust?
Paljud ettevõtted on seisukohal, et neil on juba andmeid küllaga ja need on laiali mitmes süsteemis – kas sellest ei piisa? Teoreetiliselt võib ju tehisintellekti rakendus mingil määral töötada ka hajutatud andmemassiivide kallal, kuid tulemus pole sama kindel kui struktureeritud lähenemise korral. Peamised põhjused on:
- puuduv kontekst: juhuslikud CSV-failid, Exceli tabelid ja logifailid ei pruugi omavahel sobituda, rääkimata selgest seosest ajamõõtme või muude dimensioonidega;
- erinev semantika: ühes tabelis võib mõni väli olla “KliendiID”, teises “Klient#” ning kolmandas “Kontakt”. Sisuliselt tähistavad need sama asja, kuid ei ole selgelt ja üheselt markeeritud;
- kvaliteedikontrolli puudumine: käsitsi hallatavad andmeallikad kipuvad sisaldama kõikuvat järjekindlust, trükivigu, puuduvaid kirjeid jms.
Andmeladu pakub seevastu standardiseeritud ja ajas testitud viisi, kuidas erinevatest allikatest tulevat infot integreeritakse, seotakse ühtseks tervikuks ja säilitatakse kvaliteetse andmekogumina.
Prompt, mis haarab andmed andmelaost: kuidas see töötab?
Kui tahame RAG-i rakendada, peame looma protsessi, mis seob andmeladu tehisintellekti promptiga. Üldjoontes võib see välja näha nii:
- Kasutaja küsimus või probleem: näiteks “Milline on meie regioonipõhine toote X müügitrend viimase kuue kuu lõikes ja milliseid soovitusi annaks AI müügiesindajatele?”
- Relevantse info tuvastamine: rakendus pöördub andmelao poole ja otsib välja andmeread, mis hõlmavad toote X viimase kuue kuu müüki kõikides regioonides.
- Andmete struktuurimine: süsteem vormistab andmed lühikese, kuid informatiivse tekstina või tabelina (nt “Müügitulemused regioon A: 10 000 ühikut, regioon B: 8000 ühikut…”).
- Konteksti sisestamine prompti: enne LLM-ile küsimuse esitamist lisatakse struktureeritud info (koos vajalikus sõnastuses selgitusega) prompti juurde.
- Tehisintellekt vastab: LLM analüüsib saadud konteksti, rakendab oma keele- ja mustrite tuvastamise oskusi ning genereerib soovitused, prognoosid või muu oodatava väljundi.
Tulemusena saame palju täpsema ja konkreetsema vastuse, sest AI töötas sisuliselt meie enda reaalsete andmete kallal, mitte ei tuletanud üldisi teadmisi anonüümsetest veebiallikatest.
Andmeladu ja tehisintellekt – sünergia loob konkurentsieelist
Organisatsioonid, kes mõistavad andmelao ja tehisintellekti integratsiooni olulisust, on sammukese konkurentidest ees. Miks?
- Kvaliteetne otsustusinfo: RAG kombineerituna struktureeritud andmetega aitab juhil teha paremaid ärilisi otsuseid, sest tulemused põhinevad reaalsetel andmetel, mitte üldistel arvamustel.
- Tõhusam andmete kasutus: andmeladu pole enam vaid koht ajalooliste aruannete koostamiseks, vaid see toetab ka reaalajas tehisintellekti protsesse.
- Automatiseerimine ja skaleerimine: kui RAG-i protsess on hästi üles ehitatud, saab seda automatiseerida nii, et tehisintellektile esitatavad küsimused hakkavad regulaarselt kasutama uusimat andmelattu laekuvat infot.
Kvaliteetne andmeladu pole ainult IT-inimeste unistus, vaid praktiline kasu kajastub ka äri poolel: kiiremini valmivad raportid, tulevad täpsemad prognoosid, tekib vähem eksitusi.
Kas RAG asendab klassikalisi andmeanalüütikuid?
Lühike vastus on ei. RAG on küll võimas abivahend, kuid see ei toimi ilma pidevalt uueneva, struktureeritud ja kvaliteetse andmelaota. Keegi peab tagama:
- andmemudeli hoolduse: uued mõõtmed, uued andmeallikad, andmete versioonihaldus;
- äriloogika uuendamise: kui organisatsioon muudab müügivõi finantsstrateegiat, peab see kajastuma ka andmete tõlgendamises;
- kvaliteedikontrolli: masinõpe ja tehisintellekt on sama targad kui andmed, mille abil neid toidetakse.
Vigade või puudulike andmete korral tekivad vead ka mudeli vastustes. Seega jääb andmeanalüütikute, andmeteadlaste ja andmelao arhitektide roll tehisintellektipõhiste lahenduste loomisel ja haldamisel oluliseks.
Kuidas alustada?
- Kaardista oma andmed: vaata üle, millised andmeallikad on organisatsioonil juba olemas, mis vormingus need on ja kas neil on juba mingisugune ühine keel (nt ID-d, ajad, valdkonnamõõtmed).
- Ehita (või täiusta) andmeladu: kui andmelao struktuur on juba olemas, tasub keskenduda kvaliteedikontrollile, skaleerimisele ja uute andmevoogude lisamisele. Kui alles alustad, loo plaan andmete ühtsesse andmehoidlasse toomiseks. Määra kindlaks vajalikud tööriistad ja sagedus.
- Vali sobiv tehisintellekti platvorm: RAG-i saab tehniliselt rakendada eri viisidel – on nii valmislahendusi (nt Microsofti, Google’i, Amazoni pilveteenused) kui ka avatud lähtekoodiga lahendusi. Oluline on leida turvaline ja skaleeruv variant, mis sobib ettevõtte ärivajadustega.
- Loo süsteemne lähenemine promptimisele: paljud ettevõtted võtavad omaks uue rolli nimega prompt engineer või annavad selle rolli andmeteadlastele, kes oskavad tehisintellekti sisendit süstemaatiliselt kujundada.
- Tegele andmete turvalisuse ja privaatsusega: kuna RAG tähendab, et osa teie sisemisest infost jõuab prompti (ja sealt läbi tehisintellekti protsessori), tuleb hoolikalt paika panna turvapoliitikad, juurdepääsude kontroll ning andmete anonümiseerimise põhimõtted, kui tegemist on isikuandmetega.
Kokkuvõte ja pilk tulevikku
Tehisintellekt ei ole enam pelgalt trendisõna, vaid kujunenud reaalseid äriprobleeme lahendavaks tööriistaks. Ent selleks, et ta tõesti pakuks väärtust, tuleb astuda mitu olulist sammu: õppida oskuslikult promptima, kasutada RAG-metoodikat ning tagada korralik andmelao infrastruktuur.
- Promptimine on omaette kunst: sellele tasub pühendada ressursse, sest kuidas küsid, nii ka vastatakse.
- RAG on justkui sild üldteadmiste ja spetsiifilise ärikonteksti vahel: tehisintellekt saab lisaks universaalsetele teadmistele kasutada sinu ettevõtte andmeid.
- Andmeladu on see koht, mis teeb RAG-i edukaks: kui andmeladu on hästi disainitud, usaldusväärne ja kvaliteetne, tõuseb tehisintellekti vastuste täpsus kordades.
Tulevikus võib oodata veelgi tihedamat integratsiooni. Andmelaod muutuvad üha paindlikumaks (nn data lakehouse-lahendused kombineerivad traditsiooniliste ladude ja andmejärvede funktsioone) ning LLM-id arenevad kiires tempos edasi. Ei ole võimatu, et mõne aasta pärast on iga suurema organisatsiooni lahutamatu osa tehisintellektil põhinev otsustusabi, mis ammutab teadmisi reaalajas uuenevast andmelaost.
Ettevõtted, kes neid arenguid esimesena kasutavad, saavad selge konkurentsieelise. Seega tasub ettevõtetel ja organisatsioonidel, hoolimata valdkonnast, juba praegu uurida, kuidas nad saaksid RAG-i ja andmelao koostoimet enda kasuks tööle panna. See eeldab natuke investeeringuid, õigeid inimesi ning avatust uuele, ent tasuvus võib olla märkimisväärne – nii ajasäästu, kulude optimeerimise kui ka paremate otsuste kujul.
Selliselt avanebki “Andmeladu ja tehisintellekt” sünergia, mis loob eeldused nutikate ärirakenduste, efektiivsema andmeanalüüsi ja kasutajasõbralike, kuid samas võimsate AI-lahenduste tekkeks.
Tutvu BCS Itera ärianalüüsi lahendustega: bi365.ee