Uutisvirta:

Takaisin

Koneoppimisen käyttäminen asiakkaiden maksuvaikeuksien ennustamiseen

Lähde: Äri-IT Kevät 2023

Teksti: Martin Darvis, BCS Iteran BI-kehittäjä

Liiketoiminta ei valitettavasti ole mahdollista ilman asiakkaita. Joskus asiakkaat kuitenkin aiheuttavat liikevaihdon sijaan ongelmia – nyt puhutaankin tällaisten asiakkaiden tunnistamisesta koneoppimisen avulla.

 

Koneoppimisen käyttäminen asiakkaiden maksuvaikeuksien ennustamiseen

Koneoppimisesimerkki perustuu tietokokonaisuuteen ”Default of Credit Card Clients Dataset”, jossa on 30 000 asiakkaan yksilöllinen tunnus ja maksuhistoria ilman luottamuksellista tietoa. Jokaisesta asiakkaasta tiedetään esitetyn laskun summa sekä se, kuinka monta päivää eräpäivä ylittyi ja onko asiakas keskeyttänyt maksut seuraavana kuukautena. Tietojen perusteella voidaan aloittaa koneoppimismallin opettaminen.

 

Luokittelijat

Tällaisen tehtävän ratkaisemiseen sopivat hyvin luokittelijat, eli mallit, jotka jakavat tiedot määrättyihin luokkiin. Annetussa esimerkissä asiakkaat jakautuvat kahteen luokkaan: ne, jotka lopettavat maksamisen, ja ne, jotka jatkavat maksamista. Mallit muodostavat ohjatun koneoppimisen (supervised machine learning), mikä tarkoittaa, että mallia luotaessa on määritettävä, mihin ryhmään asiakas kuuluu. Tämä on välttämätöntä, sillä ennustus tapahtuu yhden tietyn parametrin perusteella. Yksi yleisimmistä luokittelumenetelmistä on ”Satunnaismetsä” (Random Forest), jota käytämme tässä esimerkissä.

 

Tiedot

Tietoja koneoppimiseen ei yleensä ole mahdollista ottaa suoraan yrityksen kirjanpidosta, ERP:stä tai tietovarastosta, sillä ne on muotoiltu siihen sopimattomassa muodossa. Mallin opettamiseksi tietoja on käsiteltävä ja luotava yhteenveto jokaisesta asiakkaasta. Siinä on oltava asiakasta kohden yksi rivi, joka ei saa sisältää päivämäärää.

Tällaisen tietokokonaisuuden muodostamiseksi tarvitaan esimerkiksi yhtä kuluvan kuukauden päivämäärää (oletettavasti kuukauden viimeinen, sillä saldot lasketaan yleensä kuukauden lopussa), joka asetetaan päivämääräksi X. Tuolla päivämäärällä lasketaan kunkin asiakkaan saldo ja eräpäivän ylittäneet päivät. Sama laskutoimitus tehdään edellisiltä kuukausilta, ja kyseiset kentät merkitään päivämäärillä X-1 – X-6, eli ajassa puoli vuotta taaksepäin.

 

Kuka menee konkurssiin?

Nyt ilmenee ensimmäinen ongelma – ei ole mahdollista sanoa heti, kuka asiakkaista menee konkurssiin seuraavan kuukauden aikana. Tämän ongelman ratkaisemiseen on kaksi tapaa.

Ensimmäinen on historiallisten tietojen käyttö. Maksamisen lopettaneet asiakkaat tunnetaan nimeltä, samoin kuin se, mitä vaatimuksia perintätoimistoon on lähetetty. Siten voidaan määritellä tarkasti, onko asiakas ongelmallinen.

Toinen vaihtoehto on määrittää tunnus itse asettamiemme rajojen perusteella. Voimme esimerkiksi sanoa, että asiakas on ongelmallinen, jos hänen laskunsa ovat erääntyneet kolmena peräkkäisenä kuukautena tai jos keskimääräinen eräpäivän ylittyminen kolmen kuukauden aikana on kasvanut ja jos hänelle on lähetetty viimeisen kolmen kuukauden aikana laskuja yli 1000 euron edestä.

Ensimmäisen menetelmän etuja ovat nopeus, tarkkuus ja ennustaminen erittäin varman kriteerin perusteella (asiakkaan joutuminen perintään). Toisen menetelmän etuna on paradoksaalisesti se, ettei menetelmä ole tarkka. Ongelmallisten asiakkaiden kriteerien kehittäminen voi perustua muihin seikkoihin. Tämän menetelmän valinta voi sopia esimerkiksi silloin, jos yrityksen ongelmana on ongelmallisen asiakkaan käsittelyyn kuluva liiallinen aika. Tällöin malli ei voi ennustaa asiakkaan maksuriskiä, vaan antaa suosituksia siitä, millaisille asiakkaille voitaisiin määrätä maksuehdoksi ennakkomaksu.

Kyseisessä tietokokonaisuudessa on käytetty ensimmäistä menetelmää, eli asiakkaan ongelmallisuus on määritetty sen mukaan, onko hän lopettanut maksamisen merkittyä päivämäärää seuraavana kuukautena. Tietokokonaisuus sisältää asiakkaan maksuhistorian kuuden kuukauden ajalta, mutta mallin opettamiseksi ei tarvitse käyttää kaikkia kuuden kuukauden tietoja. Tavoitteena on kertoa käyttäjille etukäteen, millainen asiakas saattaa aiheuttaa ongelmia. Se tarkoittaa, että tietokokonaisuudesta on otettava viimeisten kuukausien tiedot riippuen siitä, kuinka aikaisin varoitus halutaan saada. Tässä tapauksessa poistamme kuukaudet X – X-3 ja jätämme vain kolme aikaisimpaa kuukautta, X-4 – X-6. Tällä tavalla opetettu malli voi ennustaa, näkyykö jonkun asiakkaan ongelmallinen malli jo kolme kuukautta aiemmin.

Kun ongelmalliset asiakkaat on määritetty ja tietojen ajanjakso päätetty, konetta voidaan alkaa opettaa. Tätä varten jaamme koko tietokokonaisuuden kahteen: otamme 70 % tiedoista opetukseen (ohjattu data) ja jäljelle jäänyttä 30 % käytämme testaamaan ohjatusta datasta saadun kokemuksen pohjalta, kuinka malli osaa ennustaa. Jos teknistä puolta ei oteta huomioon, prosessin tulos voisi näyttää seuraavalta:

Kuva 1. Sekaannusmatriisi

Kuva 1. Sekaannusmatriisi

Y-akselilla (pystysuora) on todellinen tunnus ja X-akselilla (vaakasuora) ennustettu tunnus. Neliöissä on ilmoitettu asiakkaiden lukumäärä. Malli pystyi siten tunnistamaan oikein 411 ongelmallista ja 6716 ongelmatonta asiakasta. Malli ei tunnistanut 1593 ongelmallista asiakasta ja nimesi 280 kunnollista asiakasta ongelmallisiksi.

Näin on otettu ensimmäinen askel koneoppimismallin toteuttamisessa. Jos tarkkuus riittää loppukäyttäjälle, malli voidaan ottaa käyttöön välittömästi. Jos ei, tarkkuutta on lisättävä. Sitä varten voisi kokeilla muita luokittelijoita tai lyhentää tarkasteluaikaa kolmesta kuukaudesta kahteen kuukauteen. Kannattaa myös lisätä asiakkaan muita tunnuksia tai muuttaa ongelmallisen asiakkaan määritelmää.

Lopputuloksen on oltava malli, joka on riittävän tarkka, ja jonka käyttö säästää yrityksen resursseja vähentämällä maksamattomien laskujen ja/tai työtuntien määrää.

 

Lähde: Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science

CRM

Markkinoinnin automaatio

Eelmine uudis

järgmine uudis

ERP

ERP-trendit 2023–2024