Training, validation and testing data sets shall be relevant, sufficiently representative, and to the best extent possible, free of errors and complete in view of the intended purpose.
They shall have the appropriate statistical properties, including, where applicable, as regards the persons or groups of persons in relation to whom the high-risk AI system is intended to be used. Those characteristics of the data sets may be met at the level of individual data sets or at the level of a combination thereof.






Organisaation on luotava prosessi, jolla varmistetaan, että sen koulutus-, validointi- ja testausdatajoukot soveltuvat tekoälyjärjestelmän aiottuun tarkoitukseen. Tämän validoinnin pitäisi vahvistaa, että tiedot ovat merkityksellisiä, edustavia ja että niillä on tarvittavat tilastolliset ominaisuudet. Prosessissa on erityisesti analysoitava tietoja, jotta voidaan estää ennakkoluulot tiettyjä ihmisryhmiä kohtaan.






Organisaation olisi luotava ja ylläpidettävä dokumentaatiota jokaisesta tekoälyjärjestelmissä käytetystä tietoaineistosta. Dokumentaatiossa olisi kuvattava aineiston keskeiset ominaisuudet, kuten sen alkuperä, tilastolliset ominaisuudet ja mahdolliset tiedossa olevat rajoitukset tai vääristymät. Tarkoituksena on osoittaa, että kukin tietokokonaisuus on relevantti, edustava ja riittävän kattava järjestelmän aiottua tarkoitusta varten.






Organisaation on laadittava ja dokumentoitava kriteerit, jotka koskevat sen suuren riskin tekoälyjärjestelmissä käytettäviä koulutus-, validointi- ja testaustietoaineistoja. Dokumentoinnissa olisi määriteltävä, mikä on järjestelmän käyttötarkoituksen kannalta sopiva tiedon laatu. Tähän sisältyy tietojen relevanssia, edustavuutta, täydellisyyttä ja tilastollisia ominaisuuksia koskevien vaatimusten määrittely sen varmistamiseksi, että tiedot soveltuvat tarkoitukseensa ja että harhat on minimoitu.






Organisaation on otettava käyttöön ja dokumentoitava tietojen valmisteluprosessi sen varmistamiseksi, että tietokokonaisuudet ovat mahdollisimman virheettömiä ja täydellisiä. Prosessissa olisi määriteltävä menettelyt tietovirheiden tunnistamiseksi ja korjaamiseksi. Siinä olisi myös määriteltävä, miten puuttuvia tai epätäydellisiä tietoja käsitellään tavalla, joka vastaa tekoälyjärjestelmän käyttötarkoitusta ja minimoi vääristymät.
Digiturvamallissa kaikki vaatimuskehikkojen vaatimukset kohdistetaan universaaleihin tietoturvatehtäviin, jotta voitte muodostaa yksittäisen suunnitelman, joka täyttää ison kasan vaatimuksia.
.png)