� � � � ���� � � � � �� � � �� ����� �� � � ��� ��� � ����� � �� �� � �
�� �
����������������
����������������������
��������������������
��
����������������
��������
�������������
�����������
Luovan tekoälyn palveludemo
liikenne- ja viestintäministeriön
lainvalmistelutyön tueksi
Loppuraportti
Futurice Oy
Liikenne- ja viestintäministeriö Helsinki 2024
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Liikenne- ja viestintäministeriö
CC BY-SA 4.0
ISBN pdf: 978-952-243-743-3
ISSN pdf: 1795-4045
Taitto: Valtioneuvoston hallintoyksikkö, Julkaisutuotanto
Helsinki 2024
Julkaisujen jakelu
Distribution av publikationer
Valtioneuvoston
julkaisuarkisto Valto
Publikations-
arkivet Valto
julkaisut.valtioneuvosto.fi
https://julkaisut.valtioneuvosto.fi/
Kuvailulehti
20.8.2024
Luovan tekoälyn palveludemo liikenne- ja viestintäministeriön lainvalmistelutyön
tueksi
Loppuraportti
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Julkaisija Liikenne- ja viestintäministeriö
Tekijät Martti Sutinen, Ida Rainio, Miikka Vuorinen
Yhteisötekijä Futurice Oy
Kieli Suomi Sivumäärä 79
Tiivistelmä
Teknologia- ja innovaatiokonsultointiyritys Futurice toteutti Liikenne- ja
viestintäministeriön kanssa projektin, jossa kokeiltiin suomalaisten kielimallien (LLM)
hyödyntämistä lainvalmistelun tukena. Tavoitteena oli tehostaa suurten tietomäärien
analysointia vaativaa lainvalmistelua ja edistää Suomen strategista autonomiaa
tekoälyn saralla.
Projektissa rakennettiin chatbot-käyttöliittymää hyödyntävä palveludemo, jolle
lainvalmistelija pystyi esittämään kysymyksiä lainsäädännöstä. Projekti osoittaa,
etteivät suomalaiset kielimallit ole vielä riittävällä tasolla tukemaan lainvalmistelutyötä.
Suurimpia haasteita olivat konteksti-ikkunan rajallisuus ja suomenkielisen
hienosäätödatan puute. Projektissa havaittiin kuitenkin selvää potentiaalia
lainsäädäntötyön tehostamiseksi.
Suomalaisten kielimallien kehittämiseksi suositellaan investointeja dataan,
tekoälyteknologiaan ja osaamiseen. Kunnes kotimaiset kielimallit saavuttavat
vaadittavan kypsyystason, ehdotetaan kaupallisten kielimallien käyttöä niiden rinnalla.
Lainvalmistelutyön tehostamisen ohella investointien nähdään mahdollistavan
Suomelle aseman toimia esimerkkinä tekoälyn eettisessä hyödyntämisessä hallinnossa.
Kotimaisiin ja eurooppalaisiin kielimalleihin investoimisen nähdään vähentävän
teknologista riippuvuutta suhteessa muihin maihin ja edistävän suomen kieleen ja
kulttuuriin pohjaavien kielimallien asemaa.
Asiasanat Tekoäly, digitalisaatio, datapolitiikka, datatalous, tietotekniikka, lainvalmistelu
ISBN PDF 978-952-243-743-3 ISSN PDF 1795-4045
Julkaisun osoite https://urn.fi/URN:ISBN:978-952-243-743-3
https://urn.fi/URN:ISBN:978-952-243-743-3
Presentationsblad
20.8.2024
Demotjänst baserad på generativ AI för att stödja kommunikationsministeriets
lagberedningsarbete
Slutrapport
Kommunikationsministeriets publikationer 2024:9
Utgivare Kommunikationsministeriet
Författare Martti Sutinen, Ida Rainio, Miikka Vuorinen
Utarbetad av Futurice Ab
Språk Finska Sidantal 79
Referat
Futurice, ett konsultföretag inom teknik och innovation, genomförde tillsammans
med kommunikationsministeriet ett projekt där man testade att använda finska
språkmodeller (LLM) för att stödja lagberedningen. Syftet var att effektivisera
lagberedningsarbetet, som kräver analys av stora mängder data, och att främja Finlands
strategiska autonomi inom AI.
I projektet skapades en demotjänst med ett användargränssnitt i form av en
chattbot, som lagberedare kunde ställa frågor till om finsk lag. Projektet visade
att de finska språkmodellerna ännu inte är så pass utvecklade att de kan stödja
lagberedningsarbetet. De största utmaningarna var det begränsade kontextfönstret
och bristen på finskspråkiga data för att finjustera modellerna. Det konstaterades
dock samtidigt att det hos tekniken finns en klar potential för effektivisering av
lagberedningen.
I rapporten rekommenderas att det görs investeringar i data, AI-teknik och kompetens,
så att de finska språkmodellerna blir mer utvecklade. Tills de inhemska språkmodellerna
har nått önskad utvecklingsnivå föreslås det att kommersiella språkmodeller används
vid sidan av dem. Förutom att effektivisera lagberedningen anses investeringar göra
det möjligt för Finland att föregå med gott exempel när det gäller etisk användning av
AI inom förvaltningen. Genom att investera i inhemska och europeiska språkmodeller
minskar Finland sitt tekniska beroende av andra länder och främjar språkmodeller som
bygger på det finska språket och den finska kulturen.
Nyckelord Artificiell Intelligens, digitalisering (process), datapolicy, dataekonomi, informationsteknik
ISBN PDF 978-952-243-743-3 ISSN PDF 1795-4045
URN-adress https://urn.fi/URN:ISBN:978-952-243-743-3
https://urn.fi/URN:ISBN:978-952-243-743-3
Description sheet
20 August 2024
Generative AI Service Demo to Support Law Drafting of the Ministry of Transport
and Communications
Final report
Publications of the Ministry of Transport and Communications 2024:9
Publisher Ministry of Transport and Communications
Authors Martti Sutinen, Ida Rainio, Miikka Vuorinen
Group author Futurice Oy
Language Finnish Pages 79
Abstract
Futurice, a technology and innovation consulting firm, carried out a project together
with the Ministry of Transport and Communications to test how the Finnish large
language models (LLMs) could support legislative drafting. The objective was to
improve the efficiency of the legislative drafting process, which requires analysing large
amounts of data, and to promote Finland's strategic autonomy in the field of artificial
intelligence.
The project built a service demo with a chatbot from which the law drafters could ask
questions about Finnish legislation. The project showed that the Finnish LLMs are not
yet sufficiently developed to support legislative drafting. The greatest challenges were
the limits of the context window and the lack of Finnish datasets for fine-tuning the
models. However, the project identified clear potential for improving the efficiency of
law drafting.
The report recommends investments in datasets, AI technology and expertise in
order to develop the Finnish LLMs. Until the domestic LLMs reach the required level
of maturity, using commercial models alongside them is proposed as a temporary
solution. The report writers suggest that, as well as improving the efficiency of
legislative drafting, such investments would enable Finland to serve as an example
in the ethical use of AI in government. The writers see investment in domestic and
European LLMs as a way to reduce technological dependence on other countries and to
promote LLMs based on Finnish language and culture.
Keywords Artificial Intelligence, digitalisation, data policy, data economy, information technology
ISBN PDF 978-952-243-743-3 ISSN PDF 1795-4045
URN address https://urn.fi/URN:ISBN:978-952-243-743-3
https://urn.fi/URN:ISBN:978-952-243-743-3
Sisältö
Esipuhe.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1 Yhteenveto.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Johdanto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Kokeilun tausta ja sisältö. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1 Tekoälyn hyödyntäminen lainvalmistelussa.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Käyttötapauksena datasäädös. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Strategisen autonomian edistäminen suomalaisilla kielimalleilla.. . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Mahdolliset suomalaisten kielimallit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.5 Suomalaisten kielimallien käyttö lainvalmistelussa.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4 Tekninen toteutus.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Kielimallien arviointi ja vertailu.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 Kielimallien hienosäätö. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2.1 Lainvalmisteludatan lisääminen ja Retrieval Augmented Generation -menetelmä. . . . . . . . . . . . . . 34
4.2.2 Esikoulutettujen kielimallien haasteet kysymyksiin vastaamisessa lainvalmisteludatasta.. . . . . 37
4.2.3 Kysymyksiin vastaamiseen vaihtoehdot ja hienosäätö.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2.4 Kielimallien vertailu hienosäädön jälkeen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.5 Datan puute hienosäädön esteenä. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Infrastruktuurin rakentaminen.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.1 Pilviympäristön valinta ja infrastruktuurin haasteet.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.2 Palvelun arkkitehtuuri.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.4 Palveludemon rakentaminen.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4.1 Palveludemon toiminta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4.2 Palveludemosta saatu palaute. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5 Tulokset ja johtopäätökset.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.1 Yhteenveto projektin tuloksista. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2 Johtopäätökset.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2.1 Johtopäätökset suomalaisen datan saatavuudesta ja laadusta.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2.2 Johtopäätökset kielimallien rajoituksista ja kehitystarpeista. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.3 Johtopäätökset kielimallien hienosäädön ja jatkuvan käytön kehitysympäristöistä. . . . . . . . . . . . . 64
5.2.4 Johtopäätökset lainvalmistelutyön tehostamisesta tekoälyn avulla.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.2.5 Johtopäätökset osaamisen ja toimintamallien kehittämisestä.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6 Jatkokehitysehdotukset. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.1 Projektin mahdollisen skaalauksen vaiheet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2 Arvio tarvittavista investoinneista.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7 Lopuksi.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Liite 1: Suomalaisten kielimallien koulutus, kategoriat ja data. . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Liite 2: Henri Schildtin raportti. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
8
Liikenne- ja viestintäministeriön julkaisuja 2024:9
E S I P U H E
Pääministeri Petteri Orpon hallitusohjelmassa asetetaan tavoitteeksi, että Suomi on
teknologinen edelläkävijä, joka hyödyntää digitalisaation ja tekoälyn mahdollisuu-
det täysimääräisesti, ihmiset mukana pitäen. Digitalisaatio, nopeat datayhteydet
ja teknologian kehittyminen voivat oikein hyödynnettyinä merkittävästi parantaa
ihmisten elämänlaatua, yritysten kilpailukykyä ja työvoiman saatavuutta sekä tehos-
taa julkista hallintoa. Tavoitteena on tarttua täysimääräisesti uusien teknologioiden
ja digitalisaation tarjoamaan potentiaaliin.
Muutaman vuoden takainen generatiivisen tekoälyn rynnistys käyttäjäystävälli-
sessä muodossa ihmisten saataville tarjoaa uusia keinoja tekoälyn hyödyntämi-
seksi myös julkisella sektorilla. Panostamalla tekoälykyvykkyyksien ja -osaamisen
lisäämiseen voimme lisätä työn mielekkyyttä ja vaikuttavuutta sekä parantaa tuot-
tavuutta, mutta myös vahvistaa ratkaisuja tarjoavien yritysten asemaa globaaleilla
markkinoilla. Generatiivisen tekoälyn ja kielimalliteknologioiden hyödyntämisessä
Suomen tavoitteena on lisäksi edistää kielellistä ja kulttuurista monimuotoisuutta
tukemalla suomen ja ruotsin kielten sekä Suomessa puhuttujen vähemmistökielten
asemaa näiden teknologioiden kehittämisessä.
Näitä tavoitteita silmällä pitäen toteutimme yhteistyössä Suomen itsenäisyyden
juhlarahasto Sitran rahoittamana ja teknologia- ja innovaatiokonsultointiyritys
Futuricen toimittamana kokeilun, miten suomalaiseen kielimalliin perustuvaa luo-
vaa tekoälyä voisi hyödyntää ministeriömme lainvalmistelutyön tukena. Kokeilussa
toteutettiin suomenkieliseen kielimalliin tukeutuva palveludemo lainvalmistelijoi-
den testattavaksi sekä kattava selvitysraportti kokeilusta. Saimme kokeilusta arvo-
kasta uutta ymmärrystä tekoälyn mahdollisuuksista, mutta myös laajemmin eväitä
EU-vaikuttamistyömme ja digitaalisen vuosikymmenen tavoitteiden puitteissa teh-
tävän politiikkakehitystyön tueksi.
9
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Liikenne- ja viestintäministeriöstä kokeiluun osallistuivat Maria Rautavirta, Tomi
Paavola, Anna Wennäkoski, Lotta Engdahl ja Eero Roslander sekä muita ministe-
riön valmistelijoita palveludemon testaajina. Sitran osallistujina olivat Kristo Leh-
tonen, Satu Salminen ja Tarmo Toikkanen. Futuricelta kokeilun toteuttajina olivat
Martti Sutinen, Ida Rainio, Miikka Vuorinen, Henri Schildt ja Tuomas Syrjänen. Selvi-
tysraportin ovat kirjoittaneet Martti Sutinen, Ida Rainio ja Miikka Vuorinen. Kokeilua
arvioi Futuricen tiimiin kuulunut Aalto-yliopiston strategian professori Henri Schildt
raportissaan, joka on kokeilun selvitysraportin liitteenä. Kokeilun selvitysraportissa
esitetyt näkemykset ja johtopäätökset ja suositukset ovat kirjoittajien, eivätkä vält-
tämättä edusta liikenne- ja viestintäministeriön näkemyksiä.
Maria Rautavirta
Tietoliiketoimintayksikön johtaja, liikenneneuvos
10
Liikenne- ja viestintäministeriön julkaisuja 2024:9
1 Yhteenveto
Suomalainen teknologia- ja innovaatiokonsultointiyritys Futurice toteutti liikenne-
ja viestintäministeriön (LVM) tilaamana projektin, jossa kokeiltiin suomalaisten
suurten kielimallien (large language model, LLM) hyödyntämistä lain- ja säädösval-
mistelun tukena. Tavoitteena oli oppia, voisiko Suomessa kehitettyjä, avoimeen läh-
dekoodiin perustuvia kielimalleja hyödyntää lainvalmistelutyön tehostamisessa ja
samalla vauhdittaa Suomen strategista autonomiaa tekoälyn suhteen. Strateginen
autonomia tekoälyn saralla tarkoittaa, että EU:ssa ja Suomessa luodaan omaan kult-
tuuriimme ja arvoihimme sopivia kielimalleja sekä dataa niiden kouluttamiseksi ja
käyttämiseksi.
Lainvalmistelu on monimutkainen prosessi, joka vaatii valtavan taustamateriaalin
läpikäyntiä ja erilaisten tietojen yhdistämistä. Tekoäly voi analysoida suuria tieto-
määriä nopeasti ja tarkasti, mikä voisi merkittävästi vähentää asiantuntijoiden työ-
taakkaa. Myös lainvalmistelun laatu voisi parantua, kun tekoäly käsittelisi suuria
tietomääriä kattavasti ja vähemmän asioita jäisi lainvalmistelijan oman havainnon
tai harkinnan varaan.
Mitä kokeilussa tehtiin?
Projektissa toteutettiin chatbot-käyttöliittymää hyödyntävä palveludemo, jolta lain-
valmistelija voi kysyä kysymyksiä suomalaisesta lainsäädännöstä. Käyttötapaukseksi
valittiin datasäädöksen1 kansalliseen toimeenpanoon liittyvä lainvalmistelu. Data-
säädös on mittava horisontaalinen säädös, jonka valmistelun yhteydessä on käy-
tävä läpi laajasti suomalaista lainsäädäntöä ja tunnistettava ne muutostarpeet, joita
datasäädöksen voimaantulo aiheuttaa.
Projektin tekninen toteutus sisälsi suomalaisten kielimallien arviointia ja hienosää-
töä sekä palveludemon ja sen vaatiman infrastruktuurin rakentamisen. Palveludemo
rakennettiin lopulta kolmen suomalaisen kielimallin – Finnish GPT 3B Instructin,
Poro 34B Chatin ja Finnish Sentence Bertin – varaan. Finnish GPT 3B Instructia ja
1 https://eur-lex.europa.eu/legal-content/FI/TXT/
PDF/?uri=OJ:L_202302854&qid=1716756952571
https://eur-lex.europa.eu/legal-content/FI/TXT/PDF/?uri=OJ:L_202302854&qid=1716756952571
https://eur-lex.europa.eu/legal-content/FI/TXT/PDF/?uri=OJ:L_202302854&qid=1716756952571
11
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Poroa 34B Chatia käytettiin rinnakkaisina vaihtoehtoina tekstin luomiseen, Finnish
Sentence Bertiä puolestaan tekstien vertailuun ja hakuun. Palveludemon haku koh-
distui 20 suomalaiseen lakikokonaisuuteen, jotka liittyvät tiiviisti datasäädökseen.
Palveludemossa ei voitu hyödyntää koko Suomen lainsäädäntöä Finlex-palvelun
käyttöehtojen sisältämien rajoitusten vuoksi.
Mitä kokeilussa opittiin?
Projektissa luotiin merkittävää ymmärrystä suomalaisten kielimallien soveltuvuu-
desta lainvalmisteluun ja näkemystä siitä, mitä niiden kehittämiseksi tulisi jatkossa
tehdä, jotta ne voisivat tehostaa lainvalmistelua. Kokeiltujen suomalaisten kielimal-
lien suorituskyky ei projektin läpiviennin aikana vielä ollut riittävällä tasolla. Ne eivät
kyenneet hakemaan riittävästi tietoa kerralla eivätkä tyydyttävällä tavalla tuotta-
maan keskusteluja. Erityisen haasteen asetti, että kokeiltujen kielimallien konteks-
ti-ikkunan eli kerralla käsiteltävän tekstin määrä oli vain 2 048 tokenia (noin 4–5
sivua), mikä on selkeästi liian vähän suomalaisen lainsäädännön läpikäyntiin. Kokei-
lussa luotu palveludemo ei siis juuri tehostanut lainvalmistelutyötä.
Kokeilussa kuitenkin opittiin, mihin Suomessa kannattaa seuraavaksi panos-
taa tämän asiantilan parantamiseksi. Koska esikoulutetut kielimallit eivät sellaise-
naan soveltuneet käyttöön, hienosäädettiin kielimalleja vastaamaan kysymyksiin.
Näimme, että GPU-kapasiteettia on syytä varata pilvipalveluissa etukäteen, koska
sopivien GPU-resurssien saatavuus vaikutti projektissa kielimallien hienosäädön laa-
tuun ja aikatauluun. Tärkein haaste tarkan kysymyksiin vastaamisen näkökulmasta
oli kuitenkin suomenkielisen hienosäätödatan puute. Jouduimme käyttämään
konekäännettyä dataa, mikä heikensi kysymyksiin vastaamisen laatua. Tarvitsemme
enemmän avoimesti jaettua suomenkielistä dataa, jonka avulla esikoulutetuista kie-
limalleista voi hienosäätää hyödyllisiä käytännön sovelluksiin.
Jatkossa on syytä parantaa lainsäädäntödatan käyttöehtoja ja saatavuutta ja tehos-
taa kielimallien käsittelemän tietomäärän konteksti-ikkunaa; tokenien pituudessa
olisi päästävä kymmeniin tuhansiin tai jopa miljoonaan tokeniin. Tämä mahdol-
listaisi luotettavien vastausten tuottamisen RAG-menetelmällä ja pitkiin lähdeai-
neistoihin viitaten. Kielimalliteknologia kehittyy tällä hetkellä nopeasti, joten tämä
tilanne on mahdollista saavuttaa muutamissa vuosissa.
Tekoälyn tuominen osaksi lainvalmistelua on kuitenkin hyvin tärkeää tehtävän vaa-
tivuuden takia. Niin kauan kuin suomalaisia kielimalleja vasta kehitetään tehok-
kaammiksi, kannattaa tätä asiantuntijatyötä tukea tehokkaiden kansainvälisten
kielimallien avulla. Ne voidaan korvata suomalaisilla kielimalleilla heti, kun ne saa-
vuttavat lainvalmistelutyöhön vaadittavan kypsyystason.
12
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Projektissa todettiin myös, että lainvalmistelua voisi tehostaa tekoälyn avulla ken-
ties tehokkaammin muilla tavoin kuin henkilökohtaisen chat-työkalun avulla. “Teks-
tiltä kyselemisen” sijaan lainvalmistelija hyötyisi enemmän työn systemaattisuutta
varmistavasta ja sidosryhmien välistä kanssakäymistä tukevasta ratkaisusta. Toimiva
ratkaisu voisi olla lainvalmisteluprosessiin räätälöity työkalu, jossa hyödynnettäisiin
automaattista lakitekstin prosessointia ja taustatutkimusta.
Mitä seuraavaksi suositellaan tehtäväksi?
Jotta tekoäly voi aidosti tehostaa ja parantaa lainvalmisteluprosessia Suomessa, tar-
vitaan investointeja dataan, tekoälyteknologiaan ja osaamiseen sekä suomalaisten
kielimallien jatkuvaa kehitystyötä. Tekoälyn kehittämisessä on syytä edetä niin, että
investoidaan kaupallisen tekoälyn käyttöönottoon ja hienosäätöön lainvalmistelun
käyttöyhteydessä, jotta työtä voidaan tehostaa heti. Samalla panostetaan strategi-
sen autonomian edistämiseen vauhdittaen suomalaisten kielimallien esikoulutus- ja
hienosäätökäyttöön tarkoitetun datavarannon keräämistä ja jakamista.
Investointitarpeet lainvalmisteluun tarvitseman suomalaisten kielimallien ja tekoä-
lyn kehittämiseen ja käyttöön voidaan jakaa karkeasti näin:
1. Suomalaista yhteiskuntaa koskevan datan kerääminen, luominen ja
avoin jakaminen (10–50 milj. euroa vuosittain)
2. Uusien esikoulutettujen (pretrained) ja hienosäädettyjen (finetuned)
mallien laskentatehon ja jatkuvan palvelun infrastruktuurin hankinta
(10–50 milj. euroa vuosittain)
3. Tekoälyosaamisen ja lainvalmistelun toimintamallien kehittäminen
(5–25 milj. euroa)
Investointina tämä vastaisi noin 2–12 prosenttia valtion nykyisistä ICT-menoista.
Mahdollinen tapa skaalata projektia lainvalmistelun tarpeisiin olisi edetä rinnakkain
suomalaisten kielimallien kehittämisessä ja kaupallisten mallien käyttöönotossa.
Esimerkiksi Poro 34B Chat -mallia voitaisiin parantaa ja kouluttaa toimialakohtaisella
datalla, mikä parantaisi sen kykyä tuottaa lakitekstiä. Samalla kaupallisen mallin,
kuten GPT-4, käyttöönotto mahdollistaisi nopeamman ja kustannustehokkaamman
ratkaisun, tukien lainvalmistelijoita välittömästi. Projekti vaatisi riittävän infrastruk-
tuurin laajentamisen ja jatkuvaa käyttäjätukea. Kokonaiskustannukset voisivat vaih-
della sadoista tuhansista euroista yli miljoonaan euroon ja projektin toteutus voisi
kestää 1–2 vuotta.
13
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Tekoälyn hyödyntäminen hallinnossa on kansainvälisesti vielä alkuvaiheessa. Suomi
voisi toimia erinomaisena testilaboratoriona tekoälyn eettisessä hyödyntämisessä,
mikäli asiaan päätetään panostaa nyt. Tämän projektin tuomat opit ja jatkoaskeleet
voivat asettaa Suomen johtavaksi maaksi tekoälypohjaisessa lainvalmistelussa tarjo-
ten samalla mallin muille seurattavaksi.
14
Liikenne- ja viestintäministeriön julkaisuja 2024:9
2 Johdanto
Projektin lähtökohtana oli luoda julkisen sektorin työntekijöiden käyttöön gene-
ratiivista eli luovaa tekoälyä hyödyntävä työkalu, joka perustuu suomalaiselle
kielimallille.
Lainvalmistelu on erittäin vaativaa ja kuormittavaa työtä, johon kuuluu valtavan
suuren tietomäärän hankinta, läpikäynti ja synnyttäminen. Työtä vaikeuttaa enti-
sestään se, että tarvittava taustamateriaali on hajautettu useisiin tietokantoihin ja
käytetty terminologia on vaihtelevaa. Lisäksi prosessista tulee jatkuvasti yhä moni-
mutkaisempi, kun tiedon, aiemman lainsäädännön ja sidosryhmien määrä kasvaa.
Tekoälyn hyödyntäminen voisikin merkittävästi tehostaa lainsääädäntöprosessia ja
parantaa lainvalmistelun laatua.
Samaan aikaan, kun tekoälyratkaisut yleistyvät ja niitä sovitellaan yhä useampiin
käyttötapauksiin, Suomessa ja Euroopassa on alettu keskustella EU:n strategisen
autonomian vahvistamisesta ja riippuvuuden vähentämisestä yhdysvaltalaisista
tekoälyratkaisuista. Esimerkiksi Sitra on ehdottanut, että EU-maat vahvistaisivat
kykyään toimia riippumattomasti luovan tekoälyn kehittämisessä ja kehittäisivät
itse kilpailukykyisiä ja luotettavia eurooppalaisia kielimalleja.2 Erityisesti eurooppa-
laisten kielimallien suosimista voitaisiin odottaa julkisen sektorin organisaatioilta.
Liikenne- ja viestintäministeriö (LVM) halusi vastata näihin kahteen haasteeseen.
Se pyysi teknologia- ja innovaatiokonsultointiyritys Futuricea kokeilemaan, voisiko
lainvalmistelun tueksi luoda suomalaiseen kielimalliin perustuvan tekoälyratkai-
sun. Tarkoituksena ei ollut vielä luoda valmista palvelua, vaan kehittää Proof-of-
Concept -tasoinen palveludemo, jolla suomalaisen kielimallin käyttöä voi kokeilla
yhdessä selkeästi rajatussa käyttötapauksessa. Tarkoitus oli ennen kaikkea oppia
lisää suomalaisten, avoimella lisenssillä julkaistujen kielimallien suorituskyvystä ja
jatkokehitystarpeista lainvalmistelu käyttöyhteydessä. Näin voitaisiin paitsi kehit-
tää suomalaisia kielimalleja entisestään ja tehdä niitä yhä houkuttelevimmiksi myös
yksityiselle sektorille sekä edistää strategista autonomiaa. Toki projektin tavoitteena
oli myös, että ratkaisu tehostaisi lainvalmistelutyötä.
2 https://www.sitra.fi/julkaisut/euroopan-johtoasema-datataloudessa-varmistettava/
https://www.sitra.fi/julkaisut/euroopan-johtoasema-datataloudessa-varmistettava/
15
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Palveludemon käyttötapaukseksi oli jo ennen projektin alkamista valittu datasää-
döksen kansalliseen toimeenpanoon liittyvä lainvalmistelu. Datasäädös on laaja
horisontaalinen säädös, jonka kansallisen toimeenpanon valmistelu on erittäin työ-
lästä. Datasäädöstä valmisteltiin keväällä 2024, mikä tarkoitti sitä, että palvelude-
moa päästiin heti kokeilemaan osana käytännön lainvalmistelutyötä ja sen hyödyt
ja puutteet tulivat heti esiin. Käyttötapaus kielimallien soveltamiseen oli haastava
johtuen datasäädöksen laajuudesta ja sen kansallisen toimeenpanon lainvalmiste-
lun prosessin monimutkaisuudesta.
Taulukko 1. Projektin tavoitteet ja rajaukset
Projektin tavoitteet Projektin rajaukset
Lainvalmistelun tehostaminen
tekoälytyökalulla
Tuetaan lainvalmistelijaa hahmottamaan,
mitä toimenpiteitä datasäädöksen kansallinen
toimeenpano vaatii.
Mitä kokeillaan?
Suomalaisen kielimallin eli suurilta
osin suomen kielellä koulutetun kieli
mallin hyödyntäminen lainvalmistelua
tukevassa tekoälytyökalussa.
Strategisen autonomian edistäminen
Hyödynnetään ja kehitetään suomalaista
kielimallia, jotta vähennetään riippuvuutta
kansainvälisistä kaupallisista palveluista.
Julkaistaan tuotos avoimena lähdekoodina,
jotta se edistäisi muita TKI-panostuksia
suomalaisiin kielimalleihin.
Missä tehtävissä kokeillaan?
Lainvalmisteluprosessin
perusvalmistelu
Ymmärryksen lisääminen suomalaisista
kielimalleista lainvalmistelun yhteydessä
Ymmärretään, miten suomalaiset kielimallit
toimivat, miten työkalun kehitys tulee
toteuttaa, onko työkalun avulla mahdollista
saavuttaa tavoitellut hyödyt ja kannattaako sitä
jatkokehittää.
Millä aineistolla kokeillaan?
EU:n datasäädös ja siihen liittyvä
Suomen lainsäädäntö.
Koska kyseessä oli monitieteellistä osaamista vaativa projekti, sitä varten koottiin
projektiryhmä, joka koostui data-asiantuntijasta (Martti Sutinen, Futurice), ohjelmis-
tokehittäjästä (Miikka Vuorinen, Futurice) ja strategisesta muotoilijasta (Ida Rainio,
Futurice). Projektiryhmää ohjasivat Tomi Paavola, Anna Wennäkoski ja Maria Rauta-
virta Liikenne- ja viestintäministeriöstä. Projektiin osallistui aktiivisesti myös Sitra,
jota edustivat Satu Salminen ja Kristo Lehtonen. Projektiin osallistui satunnaisesti
myös muita kyseisten organisaatioiden edustajia.
16
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Projekti koostui seuraavasta neljästä vaiheesta:
1. Strategisen autonomian tavoitteet
Vaiheen tavoitteena oli ymmärtää paremmin lainvalmistelun tehostamiseen ja Suo-
men strategiseen autonomiaan liittyviä tavoitteita sekä arvioida erilaisten kieli
mallien soveltuvuutta hankkeeseen.
2. Lainvalmistelun tarpeiden ymmärrys
Vaiheen tavoitteena oli ymmärtää käytännössä strategisen autonomian linkkiä
tekoälyyn ja lainsäädäntöön sekä lainvalmistelijan työtä ja siinä olevia haasteita.
3. Palveludemon luominen ja menetelmien vertailu
Konkreettisen työkalun rakentaminen edellisessä vaiheessa määriteltyihin lainval-
mistelijan työn haasteisiin ja käyttökelpoisten toteutustapojen kartoitus ja valinta.
4. Tekoälyn kokeilut lainvalmistelussa & vertaisarviointi
Palveludemon validointi lainvalmistelijoiden kokemuksen sekä akateemisen tut-
kimuksen kautta ja tulevaisuuden suunnan määrittely strategisen autonomian
edistämiseksi.
Projektin eteneminen on esitelty alla olevassa kuvassa.
Kuvio 1. Projektin eteneminen
17
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Tässä raportissa kuvataan kokeilun aikana saadut opit ja havaitut jatkokehitystar-
peet. Raportin ensimmäinen luku taustoittaa kokeilun sisältöä. Toinen luku kertoo
projektin teknisestä toteutuksesta. Kolmas luku sisältää kokeilun tulokset ja niistä
vedettävät johtopäätökset. Neljäs luku puolestaan antaa ehdotuksia suomalaisten
kielimallien jatkokehitykseen niin, että niitä voitaisiin entistä paremmin hyödyntää
lainvalmistelukontekstissa.
18
Liikenne- ja viestintäministeriön julkaisuja 2024:9
3 Kokeilun tausta ja sisältö
Tässä luvussa taustoitetaan, miksi tekoälyä haluttiin hyödyntää lainvalmiste-
lussa, miksi projektissa haluttiin käyttää ratkaisua, joka edistää strategista auto-
nomiaa ja mitä suomalaisia kielimalleja projektissa tarkasteltiin.
3.1 Tekoälyn hyödyntäminen lainvalmistelussa
Lainvalmistelu on työläs ja pitkäkestoinen prosessi, joka periytyy jo itsenäisyyden
alkuajoilta ja jota tietotekniikan kehitys ei ole juurikaan muuttanut. Prosessin aikana
lainvalmistelija käy läpi tuhansia sivuja esimateriaaleja ja summaa tiedot asiakir-
jaan, jonka kansanedustajat saavat päätöksenteon pohjaksi. Prosessi on vaikeutu-
nut vuosi vuodelta, kun lainsäädännön ja prosessiin osallistettavien sidosryhmien
määrä on lisääntynyt – ja työ tulee vain vaikeutumaan tulevaisuudessa, kun määrä
kasvaa entisestään.
Projektia varten tehdyt lainvalmistelijoiden taustahaastattelut osoittivat, että lain-
valmistelussa olisi paljon mahdollisuuksia tehostaa työtä tekoälyn avulla. Samalla
voitaisiin parantaa lainvalmistelutyön laatua ja lisätä työn mielekkyyttä.
“Aika paljon käytetään Ctrl+F-komentoa ja yritetään miettiä, mitä sanoja
joku muu on joskus käyttänyt.”
Haastateltu lainvalmistelija
Oheisessa listassa on lueteltu, miten tekoäly voisi tehostaa lainvalmistelutyötä. Lista
ei ole täydellinen, mutta antaa käsityksen siitä, että tekoälystä voi olla hyötyä hyvin
erilaisten työvaiheiden tehostamiseksi.
19
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Tietolaatikko. TEKOÄLYN POTENTIAALISIMMAT HYÖDYNTÄMISKOHTEET
LAINVALMISTELUSSA
Taustatutkimuksen nopeuttaminen
• Tekoäly voi analysoida suuria määriä dataa, kuten tutkimuksia,
kansainvälisiä säädöksiä ja tilastoja, nopeasti ja tarkasti.
• Tekoäly voi analysoida ja tulkita lakitekstejä, hallituksen esityksiä
ja muuta taustamateriaalia ja tunnistaa niiden keskeiset teemat ja
mahdolliset yhteydet.
• Tekoäly voi vertailla tiettyjä säädöksiä keskenään ja tunnistaa
ristiriitaisuuksia.
Lakitekstin luomisen nopeuttaminen
• Tekoäly voi auttaa luonnostelemaan lakiehdotuksia mallintamalla
olemassa olevia lakitekstejä.
• Tekoäly voi auttaa kirjoittamaan tiettyjä osioita, esim. johtolauseita
yhdenmukaisesti samalla tyylillä. (Johtolausekoneen rakentaminen
onkin tunnistettu erilliseksi hankeideaksi).
• Tekoäly voi auttaa standardoimaan terminologiaa, mikä
yhdenmukaistaisi kompleksista lainsäädäntöä.
Vuorovaikutuksen tehostaminen sidosryhmien kanssa
• Tekoäly voi luoda tietopankkeja lausuntokierroksen tueksi.
• Tekoäly voi analysoida sidosryhmien lausuntokierroksella antamaa
palautetta.
• Tekoäly voi analysoida suuren määrän kansalaispalautetta,
sosiaalisen median keskusteluja ja kyselytutkimuksia, jotta
lainvalmistelijat saavat paremman käsityksen kansalaisten
näkemyksistä ja huolenaiheista.
20
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Lain seurausten arviointi
• Tekoäly voi ennustemallejen avulla ennakoida lakiin liittyviä
mahdollisia ongelmia ja esittää niihin ratkaisuehdotuksia.
• Tekoäly voi simuloida lakiehdotusten yhteiskunnallisia vaikutuksia
analysoimalla historiallista dataa ja ennustamalla eri skenaarioita.
Lainvalmistelun käyttötapausten onnistunut toteutus edellyttää osaa-
vaa käyttäjää, käytettävän datan saatavuutta ja valittuihin tehtäviin
sopivia kielimalleja tai tekoälyä. Vaikka projektissa kokeiltu teknologia
ei sovellu näiden käyttötapausten toteuttamiseen, on teknologian kehi-
tys ja suunta rohkaiseva ja suuren osan näistä käyttötapauksista voinee-
kin tulevaisuudessa toteuttaa. Esimerkiksi Thomson Reuters Instituten
raportin mukaan lakialan käyttötapauksia on jo toteutettu monipuo-
lisesti ja melkein puolet julkisen sektorin lainvalmistelun ja tuomiois-
tuinten ammattilaisista koki, että työssä pitäisi hyödyntää generatiivista
tekoälyä. Tietolaatikko päättyy.
Lyhyessä ja nopeassa projektissa on tehtävä rajauksia, ja tässä projektissa oli jo
ennen sen alkua päätetty, että tekoälyn hyödyntämisessä halutaan keskittyä lain-
säädännön perusvalmisteluun (lainvalmistelun prosessioppaassa kuvattu vaihe
23) ja että projektissa halutaan luoda suomalaisia kielimalleja hyödyntävä
työkalu.
”Kun laajoja kielimalleja hyödynnetään työkaluna, saadut hyödyt vaihte-
levat laajasti työtehtävän sisällön mukaan ja riippuvat käyttäjän halusta
ja taidosta hyödyntää tekoälyä. Työkalu voi vähentää ohjelmoinnissa ja
asiantuntijatyössä kuluvaa aikaa jopa alle puoleen, ja laajemmin tieto-
työssä työtehtävien viemä aika voi laskea parhaimmillaan noin 20–30
prosenttia.”
Henri Schildt, strategian professori
3 http://lainvalmistelu.finlex.fi/
http://lainvalmistelu.finlex.fi/
21
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Projektiryhmä haastatteli ennen työkalun teknistä toteutusta lainvalmistelijoita
syvällisesti ymmärtääkseen, miten työtä käytännössä tehdään ja mitä työkalun
pitäisi tehdä. Taustahaastattelut osoittivat, että perusvalmistelun työläyteen ja työn
lopputuloksen laatuun vaikuttaa moni tekijä, ja niistä vain pieni osa voidaan rat-
kaista ainoastaan tekoälyä hyödyntävällä työkalulla. Alla oleva kuva kiteyttää pro-
jektissa havaitut haasteet sekä niihin liittyvät syy-seuraussuhteet. Kuva osoittaa
myös, että vain osaa tunnistetuista haasteista kokeiltiin ratkaista projektissa.
Tämä tarkoittaa, että vaikka luotava työkalu toimisi täydellisesti, parasta mahdollista
lopputulosta ei voida saavuttaa, ellei tehdä myös muita juurisyitä korjaavia toimen-
piteitä, kuten uudelleenmuotoilla lainvalmistelun prosessia tai kehitetä yhteistyön
kulttuuria. Kielimallien ja tekoälyn datan ja teknologian kehittämisen rinnalla on tär-
keää investoida kulttuuriin, yhteisiin toimintamalleihin ja osaamiseen.
Kuvio 2. Lainsäädäntötyön haasteet
22
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Tässä projektissa päätettiin keskittyä luomaan ratkaisua suuren aineistomäärän
aiheuttamaan hankaluuteen ja lakitekstien sisällön monimuotoisuuteen niin, että
työkalu vastaa lainvalmistelijan sille esittämiin Suomen lainsäädäntöä koskeviin
kysymyksiin chat-käyttöliittymän kautta. Käyttötapaukseksi oli jo ennen ennen pro-
jektin alkamista valittu datasäädös. Se esitellään tarkemmin seuraavassa luvussa.
3.2 Käyttötapauksena datasäädös
EU:n datasäädöksen kansallisen toimeenpanon lainvalmistelu oli tekoälyn hyödyn-
tämisen käyttötapauksena kiinnostava, sillä kyseessä on hyvin laaja horisontaali-
nen säädös, jonka valmisteluprosessi on erittäin työläs. Datasäädös on itsessään jo
mittava – yli 70 sivua pitkä – ja se liittyy jollain tavalla hyvin moneen lakiin. Asian
kompleksisuuden takia kaikki työtä helpottavat ja tehostavat työkalut ovat aidosti
tarpeellisia.
Lainvalmistelussa täytyy selvittää, miten datasäädös suhteutuu olemassa olevaan
lainsäädäntöön ja mitä muutostarpeita se aiheuttaa. Lainvalmistelija joutuu käy-
mään läpi erittäin suuren määrän juridisia selvityksiä, hallituksen esityksiä ja muita
asiakirjoja. Lisäksi dataa kuvaava terminologia on vaihtelevaa. ”Dataan” voivat vii-
tata esimerkiksi sellaiset termit kuin tiedonhallinta, tietovarannot, rekisterit, tieto-
kannat, tiedot ja asiakirjat.
Datasäädöksen kansallisen lainvalmistelun aikataulu oli myös projektin kannalta
otollinen. Prosessi alkoi datasäädöksen hyväksymisestä 27.11.2023, ja tavoitteena
on saada arviomuistio valmiiksi vuonna 2024.4 Valmistelun on määrä johtaa hallituk-
sen esitykseen kansallisen lainsäädännön muutoksista ja lain vahvistamiseen ennen
datasäädöksen soveltamisen alkamista 12.9.2025.
Palveludemon rakentamisen projekti käynnistyi vuoden 2023 joulukuussa ja pal-
veludemon ensimmäinen versio valmistui helmikuussa 2024. Demo siis saatiin val-
miiksi valmisteluvaiheen aikana ja näin sitä voitiin kokeilla osana aitoa käytännön
työtä.
Datasäädökseen käyttötapauksena liittyi kuitenkin myös haasteita, ja ne liittyi-
vät juuri säädöksen kompleksisuuteen. Kyseessä on mittava ja monimutkainen
säädös, johon liittyy vähintään kymmeniä muita lakeja. Projektissa lähdettiinkin
4 https://www.lausuntopalvelu.fi/FI/Proposal/Participation?proposalId=61e5ce77-ffe5-4a
1e-9ed3-b1888749c601
https://www.lausuntopalvelu.fi/FI/Proposal/Participation?proposalId=61e5ce77-ffe5-4a1e-9ed3-b1888749c601
https://www.lausuntopalvelu.fi/FI/Proposal/Participation?proposalId=61e5ce77-ffe5-4a1e-9ed3-b1888749c601
23
Liikenne- ja viestintäministeriön julkaisuja 2024:9
kokeilemaan, voiko suomalaisia kielimalleja hyödyntää tällaisessa käyttöyhteydessä
ja mitä jatkokehitystä vaaditaan siihen, että niitä voitaisiin tulevaisuudessa hyödyn-
tää yhä paremmin lainvalmistelussa.
Tietolaatikko. DATASÄÄDÖS PÄHKINÄNKUORESSA
Datasäädös ottaa kantaa seuraaviin asioihin:
• Datan avaaminen ja dataan pääsy
• Datan liikkuvuus yli sektorirajojen
• Viranomaisen pääsy yksityisen sektorin dataan
• Datan yhteentoimivuus
• Pilvipalvelujen vaihdettavuus
• Datan sääntelyyn ja käyttöön liittyvät mahdollisuudet ja riskit Tietolaatikko päättyy.
3.3 Strategisen autonomian edistäminen suomalaisilla
kielimalleilla
Projektin yhtenä tavoitteena oli hyödyntää suomalaista tai eurooppalaista kielimal-
lia ja näin edistää strategista autonomiaa. Strateginen autonomia tarkoittaa EU:n
ja Suomen kykyä toimia riippumattomasti suhteessa muihin valtioihin, erityisesti
Yhdysvaltoihin ja Kiinaan.5 EU haluaa tavoitella tilannetta, jossa se on omavarainen
tulevaisuuden kilpailukykynsä kannalta oleellisten tekijöiden suhteen. Yksi näistä
on generatiivinen tekoäly.
Tavoitteena on, että EU:ssa pystytään itse kehittämään, käyttämään ja hallitsemaan
tekoälyteknologiaa. Näin halutaan varmistaa, että EU pysyy mukana globaalissa
teknologiakilpailussa, että EU-maissa tuotettua dataa käytetään turvallisesti ja että
tekoälyn suhteen noudatetaan eurooppalaisia eettisiä ja vastuullisia arvoja.
5 https://valtioneuvosto.fi/documents/10616/152531482/EUn+strateginen+autonomia.
pdf/5f42ead7-4e56-fdeb-47a9-be41cb0daa45/EUn+strateginen+autonomia.pdf
https://valtioneuvosto.fi/documents/10616/152531482/EUn+strateginen+autonomia.pdf/5f42ead7-4e56-fdeb-47a9-be41cb0daa45/EUn+strateginen+autonomia.pdf
https://valtioneuvosto.fi/documents/10616/152531482/EUn+strateginen+autonomia.pdf/5f42ead7-4e56-fdeb-47a9-be41cb0daa45/EUn+strateginen+autonomia.pdf
24
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Tärkeää on myös se, että vähentämällä riippuvuutta globaaleista digijäteistä EU:ssa
ja Suomessa voidaan vaikuttaa tekoälystä syntyviin kustannuksiin mahdollisim-
man suorasti. Samalla halutaan välttää investointien valuminen EU:n ulkopuolelle.
Visiona on, että kun eurooppalaiset ja suomalaiset kielimallit kehittyvät, sekä jul-
kisen sektorin toimijat että yksityiset yritykset alkavat rakentaa niiden päälle inno-
vaatioita, jotka toimivat hyvin juuri tässä yhteiskunnassa. Tämä puolestaan lisää
niiden motivaatiota kohdistaa TKI-panostuksiaan nimenomaan tällaisten kielimal-
lien kehittämiseen.
Strategiseen autonomiaan liittyy kuitenkin myös epäselvyyksiä. Ensinnäkin käsite
voidaan ymmärtää eri tavoin eri EU-maissa, ja se voi muuttua ajan myötä. Toisek-
seen on epäselvää, merkitseekö strateginen autonomia EU-tasoisen autonomian vai
maakohtaisen autonomian kehittämistä. EU-maissa on tähän myös erilaista haluk-
kuutta. Kolmanneksi strategisen autonomian liian voimakas korostaminen saattaa
myös sulkea Suomea tai EU:ta ulkopuolelle globaalissa kilpailussa.
Projektiryhmä ja työhön osallistuneet ministeriön edustajat kävivät projektin
alussa keskustelua strategisen autonomian edistämisen merkityksestä ja päätyivät
määrittelemään, että käytännössä strategisen autonomian edistäminen tekoälyn
saralla tarkoittaa, että Suomessa luodaan omaan kulttuuriimme ja arvoihimme
sopivia, avoimeen lähdekoodiin perustuvia kielimalleja sekä dataa niiden
kouluttamiseksi ja käyttämiseksi.
Projektilla haluttiin edistää nimenomaan Suomen oman strategisen auto-
nomian vahvistumista.
Projektiryhmä tunnisti, että oma kielimalli on peruslähtökohta suomalaisuuden
eloonjäämiselle digitalisoituvassa maailmassa eikä kukaan muu maailmassa kuin
Suomi huolehdi suomalaisen kielimallin olemassaolosta. Julkisen sektorin toimi-
joilla todettiin olevan hyvin tärkeä rooli suomalaisten kielimallien kehittämisen
edistäjänä.
Suomalaisen kielimallin käytön oletettiin sisältävän seuraavat edut verrattuna kan-
sainvälisiin, tiedetysti tehokkaampiin kielimalleihin:
y Käytön kustannus on hallittavissa.
y Aineistot ovat läpinäkyviä.
y Malli osaa oikeanlaista suomen kieltä.
y Malli tukee suomen kielen asemaa.
y Malli edistää suomalaisten datalukutaitoa.
25
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Projektiryhmä tunnisti myös valintaan liittyviä avoimia kysymyksiä ja riskejä. Näitä
ovat:
y Miten kielimalleja ja niiden tarvitsemaa dataa eli kieliaineistoa
ylläpidetään?
y Miten avoimen lähdekoodin mallien tarkkuus vertautuu kaupallisiin
ratkaisuihin?
y Syntyykö suomalaisten kielimallien kehittämisen ympärille yksityisesti
rahoitettua kestävää liiketoimintaa vai onko niiden elinehtona julkinen
rahoitus?
Tietolaatikko. Tekoälyyn liittyvän strategisen autonomian edistämisen hyödyt
Suomessa:
• Vaikutetaan tekoälystä aiheutuviin kustannuksiin.
• Mahdollistetaan uusien innovaatioiden syntyminen.
Miten tekoälyyn liittyvää strategista autonomiaa edistetään
Suomessa?
• Tehdään kokeiluja, joissa hyödynnetään avoimeen lähdekoodiin
perustuvia suomalaisia kielimalleja.
• Jatkokoulutetaan kielimalleja Suomessa tuotetulla suomenkielisellä
datalla.
• Avataan suomenkielistä dataa, jotta mallien jatkokouluttaminen on
mahdollista.
• Edistetään yksityisiä TKI-panostuksia suomalaisten kielimallien
kehittämiseksi. Tietolaatikko päättyy.
26
Liikenne- ja viestintäministeriön julkaisuja 2024:9
3.4 Mahdolliset suomalaisten kielimallit
Projektissa sovittiin käytettävän suomalaista kielimallia, mutta ennen mallin valin-
taa oli määriteltävä, mitä suomalaisella kielimallilla oikeastaan tarkoitetaan – riit-
tääkö, että malli tukee suomen kieltä vai pitääkö mallin olla Suomessa kehitetty.
Projektiryhmä päätyi keskustelun kautta seuraaviin määritelmiin suomalaisesta
kielimallista:
y Malli on koulutettu pääosin tai suurilta osin suomen kielellä.
y Mallin koulutus on tapahtunut Suomessa tai vähintään Euroopassa.
y Malli osaa oikeaoppista suomen kieltä.
y Mallin taustalla on tieteellinen vertaisarviointi.
y Malli ja sen data on julkaistu avoimella lisenssillä.
Projektiryhmä tunnisti, että tulevaisuudessa lainvalmistelussa tarvittaneen tukea
myös monikielisyydelle, kuten suomenruotsille, mutta tässä vaiheessa haluttiin
käyttää kielimallia, joka tuottaa oikeaoppista suomea ja joka ymmärtää suomalai-
sen yhteiskunnan toimintaympäristöä.
Luotuja kriteereitä vastaavia, riittävän tunnettuja ja avoimen lisenssin kielimalleja
oli saatavilla vain vähän. Alla luetellut vaihtoehdot täyttivät kriteerit:
y TurkuNLP/gpt3-small (kutsutaan tässä raportissa myös nimellä “Finnish
GPT Small”)
y TurkuNLP/gpt3-finnish-large (“Finnish GPT Large”)
y TurkuNLP/gpt3-finnish-3B (“Finnish GPT 3B”; tämä toimi pohjana
lopulta valitulle mallille)
y LumiOpen/Poro-34B (“Poro”)
− Projektin loppuvaiheessa julkaistiin myös hienosäädetty Poro 34B
Chat, joka ei ehtinyt mukaan alkuvaiheen testaukseen.
y TurkuNLP/sbert-cased-finnish-paraphrase (“Finnish Sentence BERT”)
27
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Tietolaatikko. KIELIMALLIT PÄHKINÄNKUORESSA
TurkuNLP/gpt3-finnish, tuttavallisemmin Finnish GPT, on Turun yli-
opiston luonnollisen kielen prosessoinnin tutkimusryhmän (TurkuNLP)
kehittämä suomenkielinen suuri kielimalli, joka perustuu GPT-3-arkki-
tehtuuriin. Se on esikoulutettu suomalaisella LUMI-supertietokoneella.
Finnish GPT on tunnettu myös nimellä FinGPT, minkä voi sekoittaa
samannimiseen rahoitusalan kielimalliin, joten käytämme tässä rapor-
tissa nimeä Finnish GPT. Kielimallista on saatavilla on useita eri kokoja,
186 miljoonan ja 13,3 miljardin parametrin välillä.
LumiOpen/Poro-34B on Suomessa kehitetty monikielinen, ei pelkäs-
tään suomenkielinen kielimalli. Se osaa suomen lisäksi englantia ja koo-
dia. Poro perustuu Finnish GPT ja BLOOM -arkkitehtuureihin, ja mallissa
on 34 miljardia parametria. Lisäksi siinä on hyödynnetty ALiBi -menetel-
mää, mikä mahdollistaa teoriassa pidemmän konteksti-ikkunan ekstra-
poloinnin kautta. Myös Poro on esikoulutettu LUMI:lla. Poro on tuotettu
TurkuNLP:n, yksityisen tekoälylaboratorio SiloAI:n ja High Performance
Language Technologies yhteistyönä.
TurkuNLP/sbert-cased-finnish-paraphrase eli Finnish Sentence BERT
on niinikään TurkuNLP:n kehittämä suuri kielimalli. Malli perustuu BERT
-arkkitehtuuriin ja eroaa Finnish GPT ja Poro kielimalleista sikäli, että
sen erikoisosaaminen on tekstin merkityksen ymmärtäminen ja saman-
kaltaisten lauseiden tunnistaminen.
Tiivistettynä Finnish GPT ja Poro ovat tekstien luontiin sopivia malleja,
Finnish Sentence BERT puolestaan on tekstien vertailuun ja hakuun tar-
koitettu malli. Tietolaatikko päättyy.
28
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Projektin aikana syntyi keskustelua tieteellisestä vertaisarvioinnista ja avoimuu-
desta. Tarkastelusta suljettiin ulos joitain avoimesti jaettuja, mutta ei tieteellistä ver-
taisarviointia läpikäyneitä, datoja ja suomalaisia kielimalleja kuten Llama 7B Instruct
for Finnish -kielimallin. Toivomme, että tulevaisuudessa kielimallien kehittämiseen
on helppo osallistua, ja että yhä useampi kielimalli ja kouluttamiseen data ja arvi-
ointiin käytetty data julkaistaan aidosti avoimella lisenssillä ja helppokäyttöisesti.
Esimerkkejä avoimista lisensseistä ovat Creative Commons CC0, MIT License ja
Apache License 2.0. Poron lisenssi on Apache 2.0, ja sen käyttämä data on listattu
avoimesti. Toisaalta kaikkeen dataan ei ole helppoa ja avointa pääsyä. Esimerkiksi
Finnish Internet Parsebank6 ja Common Crawl Finnish (CC-Fi)7 lisenssejä ja pääsyä
voisi selkeyttää. Kielipankissa8 on paljon CLARIN ACA lisenssillä suojattua dataa,
kuten Finnish News Agency Archive 1992–2018,9 johon pääsevät vain akateemi-
sen yhteisön jäsenet. Esimerkki helposti jaetusta datasta on multilingual colossal,
cleaned version of Common Crawl.10
Ideaalitilanteessa kaikkia kielimalleja on helppo kouluttaa ja testata sekä toistaa nii-
den suorituskykyä arvioivat tulokset.
3.5 Suomalaisten kielimallien käyttö lainvalmistelussa
Kriteerit täyttävien kielimallien tarkempi tutkiminen ja kokeilu osoitti, että suo-
malaiset kielimallit jäävät vielä kauas taakse johtavien kansainvälisten kielimallien
käytettävyydestä. Alla on taulukko tarkastelujen kielimallien ominaisuuksista. Sen
jälkeen tässä luvussa selitetään, mitä lukemat tarkoittavat käytännössä.
6 https://turkunlp.org/finnish_nlp.html#parsebank
7 https://github.com/TurkuNLP/CC-Fi
8 https://www.kielipankki.fi/
9 http://urn.fi/urn:nbn:fi:lb-2019041501
10 https://huggingface.co/datasets/allenai/c4
https://github.com/TurkuNLP/CC-Fi
https://www.kielipankki.fi/
http://urn.fi/urn:nbn:fi:lb-2019041501
https://huggingface.co/datasets/allenai/c4
29
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Taulukko 2. Tarkasteltujen kielimallien ominaisuudet
Malli Käyttökohde Parametrien
määrä
Kontekstin
pituus (tokenia)
Finnish GPT (decoder)
Small Tekstin luonti
(esikoulutettu)
186M 2 048
Large Tekstin luonti
(esikoulutettu)
881M 2 048
“3B” Tekstin luonti
(esikoulutettu)
2.8B 2 048
“3B Instruct” Tekstin luonti
(hienosäädetty)
2.8B 2 048
“8B” Tekstin luonti
(esikoulutettu)
7.5B 2 048
Poro (decoder)
“34B” Tekstin luonti
(esikoulutettu)
34B 2 048
“34B Chat” Tekstin luonti
(hienosäädetty)
34B 2 048
Finnish Sentence BERT (encoder)
Cased Finnish
Sentence BERT
model
Tekstien vertailu,
haku (hienosäädetty)
110M 128
Parametrimäärät määrittävät, kuinka mallit prosessoivat ja tuottavat tekstiä. Pel-
kistetysti, mitä enemmän parametreja, sitä monimutkaisempia ja hienostuneem-
pia ovat mallin oppimat kielirakenteet. Parametrien määrä vaikuttaa myös suoraan
siihen, kuinka tarkasti malli voi käsitellä ja tuottaa kohdekielen tekstiä, kuten suo-
mea. Tämä on erityisen tärkeää, kun mallia käytetään moninaisiin sovelluksiin, kuten
tekstien vertailuun, hakuun tai luovaan tekstintuottamiseen. Toisaalta uudet ark-
kitehtuurit ja menetelmät tarjoavat jatkuvasti parempaa suorituskykyä suhteessa
parametrimäärään – esimerkiksi kielimalleja avoimesti vertailevan LMSYS Chatbot
https://huggingface.co/TurkuNLP/gpt3-finnish-small
https://huggingface.co/TurkuNLP/gpt3-finnish-large
https://huggingface.co/TurkuNLP/gpt3-finnish-3B
https://huggingface.co/Futurice/gpt3-finnish-3B-instruct
https://huggingface.co/TurkuNLP/gpt3-finnish-8B
https://huggingface.co/LumiOpen/Poro-34B
https://huggingface.co/LumiOpen/Poro-34B-chat
https://huggingface.co/TurkuNLP/sbert-cased-finnish-paraphrase
https://huggingface.co/TurkuNLP/sbert-cased-finnish-paraphrase
https://huggingface.co/TurkuNLP/sbert-cased-finnish-paraphrase
30
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Arena Leaderboardin11 mukaan uudemmat Llama 3 8B Instruct (8 miljardia para-
metria) ja Phi 3 Medium 4k Instruct (14 miljardia parametria) ovat parempia kuin
vanhempi Llama 2 70B Chat (70 miljardia parametria). Hyödyntämällä uusia mene-
telmiä ja parametreja tehokkaasti voimmekin hallita kielimallien hiilijalanjälkeä
paremmin.
Tokenit puolestaan kertovat, kuinka paljon informaatiota kielimalli voi käyttää ker-
ralla. Yleensä yhtä sanaa kohden lasketaan 1,5–2 tokenia. Esimerkiksi Finnish Sen-
tence BERTin raja haun yhteydessä on 128 tokenia, mikä ei yleensä riitä edes yhden
lakipykälän näyttämiseen kerralla. Vertailun vuoksi todettakoon, että tokeneiden
määrä OpenAI:n embeddings-mallissa, joka vastaa Finnish Sentence BERTin toimin-
nallisuutta, syötteen pituus on 8 191 tokenia,12 mikä vastaa noin 20 word-sivua.
Finnish GPT:ssä ja Porossa konteksti-ikkunan pituus on 2 048 tokenia. Tämä tar-
koittaa sitä, että yhdessä haussa voidaan huomioida noin 1 000–1 400 sanan eli
noin 4–5 sivun mittainen teksti. Tämä ei riitä suomalaisen lainsäädännön läpikäyn-
tiin eikä relevanttien hakutulosten näyttämiseen. Esimerkiksi OpenAI GPT-4 mallin
inputin pituus on 128 000 tokenia,13 ja Google Gemini 1.5 Pro yltää 2 000 000 toke-
nin konteksti-ikkunaan. Google on testannut onnistuneesti jopa 10 000 000 tokenin
konteksti-ikkunaa.14
Jo alkuvaiheen vertailu osoitti, että tarkasteltujen kielimallien suorituskyky ei vielä
toistaiseksi riitä datasäädöksen kaltaisen mittavan lainsäädännön valmisteluun.
Käyttötapaus osoittautui siis jo varhain liian kompleksiseksi siihen, että projektissa
voitaisiin tuottaa lainsäädäntötyötä aidosti tukeva työkalu. Sen sijaan käyttöta-
paus palveli yhä mainiosti sitä tavoitetta, että suomalaisten kielimallien jatkokehit-
tämistarpeet lainvalmistelussa ymmärretään paremmin. Jotta ymmärrys tekoälyn
mahdollisuuksista lainvalmistelutyön tehostamisessa kasvaisi, tässä projektissa
vertailtiin suomalaisten kielimallien vastauksia myös vastauksiin OpenAI GPT-4o
-mallilta,15 joka on kansainvälinen ja kaupallinen kielimalli eikä täytä strategisen
autonomian edistämiseen liittyviä vaatimuksia.
11 https://chat.lmsys.org/?leaderboard
12 https://platform.openai.com/docs/guides/embeddings/what-are-embeddings
13 https://platform.openai.com/docs/models/overview
14 https://blog.google/technology/ai/
google-gemini-next-generation-model-february-2024/
15 https://openai.com/index/hello-gpt-4o/
https://chat.lmsys.org/?leaderboard
https://platform.openai.com/docs/guides/embeddings/what-are-embeddings
https://platform.openai.com/docs/models/overview
https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
https://openai.com/index/hello-gpt-4o/
31
Liikenne- ja viestintäministeriön julkaisuja 2024:9
4 Tekninen toteutus
Projektissa kehitettiin Proof-of-Concept -tasoinen työkalu eli palveludemo, jolla tes-
tataan suomalaisten kielimallien kykyä suoriutua erilaisista tehtävistä rajoitetun
datan avulla. Palveludemon rakentaminen oli iteratiivinen prosessi, jossa valintoja
ja spesifikaatioita tarkennettiin jatkuvasti kokeilujen ja palautteen kautta. Työ sisälsi
seuraavat pääkohdat, joita työstettiin pitkälti rinnakkain:
y Kielimallien vertailu
y Kielimallin hienosäätö (finetuning eli kielimallin lisäopettaminen)
y Infrastruktuurin rakentaminen
y Palveludemon rakentaminen
Alla oleva kuva tiivistää projektin pääkohdat ja työn iteratiivisen luonteen.
Kuvio 3. Projektin pääkohdat
Seuraavissa luvuissa esitellään kunkin pääkohdan keskeisiä toimenpiteitä ja oppeja.
32
Liikenne- ja viestintäministeriön julkaisuja 2024:9
4.1 Kielimallien arviointi ja vertailu
Projektissa vertailtiin suomalaisten kielimallien käytännön suorituskykyä sekä kvali-
tatiivisesti viikkopalavereissa kerättyjen kommenttien että palveludemon valmistu-
misen jälkeen lähetetyn palautekyselyn avulla.
Projektiryhmä aloitti työn vertaamalla Finnish GPT Small ja Finnish GPT Large mal-
leja kvalitatiivisesti. Loppukäyttäjälle tuotiin mahdollisuus valikoida käytettävä
malli ja näin koottiin alustava ymmärrys suorituskyvystä. Sekä small- että large-mal-
lit olivat huonoja vastaamaan kysymyksiin, sillä niitä ei oltu hienosäädetty tähän
tehtävään.
Hakua varten malliksi valikoitui Finnish Sentence BERT. Toinen harkittu malli oli
uncased-versio, joka ei olisi huomioinut suuraakkosia vaan siinä kaikki teksti olisi
käsitelty pienin aakkosin. Hakuun käytettäviä malleja ei vertailtu, koska tutkimus
osoitti mallien suorituskyvyn olevan samankaltaista eikä hakuun liittynyt yhtä suu-
ria haasteita kuin vastausten luomiseen.16
Kielimallien käytännön kokeilu osoitti, että niiden konteksti-ikkunan rajoitettu
pituus tuottaa merkittäviä haasteita datasäädöksen käyttötapauksessa. Datasää-
dös17 yksistään on yli 33 000 sanaa pitkä, mikä on huomattavasti enemmän kuin
mitä suomalaiset kielimallit vielä toistaiseksi pystyvät käsittelemään. Datasäädök-
sen lisäksi kielimallin pitäisi pystyä käsittelemään mittavaa määrää muutakin lain-
säädäntöä. Datasäädöstä, kuten muitakin tekstejä, pitikin tässä projektissa käsitellä
niin pienissä osissa, että vastausten luotettavuus ja kattavuus kärsi.
Työkalun mielekkäälle ja luotettavalle käytölle asetti haasteen myös se, että suo-
malaiset kielimallit kykenevät toistaiseksi vastaamaan kysymyksiin vain muutaman
kappaleen tai sivun mittaisella tekstillä. Työkalu siis näytti vain osan relevan-
tista tiedosta käyttäjälle, eikä käyttäjä edes tiedä, millaista tietoa on jäänyt pois
vastauksesta.
Tässä projektissa kielimallien suorituskykyä arvioitiin laadullisesti, mutta niiden
arviointiin on olemassa myös määrällisiä vertailutyökaluja. Suomessa on tällä het-
kellä tarjolla suomalaisille kielimalleille suunnattu vertailutyökalu FIN-bench,18 joka
16 https://arxiv.org/pdf/1912.07076
17 https://eur-lex.europa.eu/legal-cotent/FI/TXT/
PDF/?uri=OJ:L_202302854&qid=1716756952571
18 https://github.com/TurkuNLP/FIN-bench
https://arxiv.org/pdf/1912.07076
https://eur-lex.europa.eu/legal-cotent/FI/TXT/PDF/?uri=OJ:L_202302854&qid=1716756952571
https://eur-lex.europa.eu/legal-cotent/FI/TXT/PDF/?uri=OJ:L_202302854&qid=1716756952571
https://github.com/TurkuNLP/FIN-bench
33
Liikenne- ja viestintäministeriön julkaisuja 2024:9
arvioi kielimallin suoriutumista muun muassa sellaisista luonnollisen kielen käsit-
telyn tehtävistä kuin kysymyksiin vastaamisesta ja tekstin ymmärtämisestä. Poro
34B Chat julkaisun yhteydessä julkaistiin myös Finnish MT-bench.19 Kansainvälisiä
arviointityökaluja ja -mittareita on tarjolla enemmän (mm. ARC, HellaSwag, MMLU,
TruthfulQA, Winogrande ja GSM8k), mutta ne on suunniteltu ja optimoitu erityisesti
englannin kielelle eikä niillä voi tehdä täysin kattavaa ja oikeudenmukaista arvioin-
tia suomenkielisille malleille.
FIN-bench mittarilla Finnish GPT Large tai suurempien mallien 3-shot suorituskyky
on yli 40 prosenttia,20 mikä tarkoittaa, että malli onnistuu ratkaisemaan yli 40 pro-
senttia testialustan tarjoamista tehtävistä oikein tai tyydyttävästi. FIN-bench
mukaan paras Finnish GPT malli oli melkein 50 prosentin suorituskyvyllä 8B versio
eikä suurin 13B versio. Poron FINbench performanssi on tutkimuksen mukaan yli
60 prosenttia,21 mikä osoittaa parempaa suoriutumista tehtävissä. Toisaalta Llama
33B, jota ei ole esikoulutettu suomen kielellä, pärjäsi FIN-bench tuloksissa parem-
min kuin Finnish GPT 8B, mikä osoittaa, että FIN-bench ei arvioi suomen kielen
taitoa vaan englannista käännetyistä monivalintatehtävistä suoriutumista. LLM-as-
a-judge eli kielimalli tuomarina -lähestyminen, jossa GPT-4 arvioi tekstin parem-
muutta, osoitti, että suomen kielen luomisen taito on Finnish GPT 8B, Finnish GPT
13B ja Poro 34B välillä samankaltaista. Poro 34B Chatin MT-bench English tulosta
6,1622 voidaan verrata GPT-4 tulokseen 8,99,23 missä asteikko on välillä 1 (huonoin) –
10 (paras).
FIN-benchiä ei käytetty tässä projektissa, koska se oli puutteellisesti dokumentoitu
eikä FIN-benchin ajo mallille ollut luotettavaa. Myös Finnish MT-benchin dokumen-
tointi oli rajallista emmekä onnistuneet tuottamaan uudelleen Poro 34B Chatin jul-
kaistuja MT-bench-lukuja tai vertailemaan niitä Finnish GPT 3B Instruct malliin.
FIN-bench vertailun sijaan näytämme myöhemmin raportissa palveluun valittujen
mallien suoriutumista lainvalmistelun esimerkkikysymyksissä.
Projektiryhmä päätyi lopulta hienosäätövaiheen aikana käyttämään Finnish GPT 3B
kielimallia pohjana uudelle Finnish GPT 3B Instruct kielimallille ja otti käyttöön Poro
34B Chat kielimallin sellaisenaan palveludemossa.
19 https://github.com/LumiOpen/FastChat/tree/main/fastchat/llm_judge
20 https://arxiv.org/pdf/2311.05640
21 https://arxiv.org/pdf/2404.01856
22 https://huggingface.co/LumiOpen/Poro-34B-chat
23 https://lmsys.org/blog/2023-06-22-leaderboard/
https://github.com/LumiOpen/FastChat/tree/main/fastchat/llm_judge
https://arxiv.org/pdf/2311.05640
https://arxiv.org/pdf/2404.01856
https://huggingface.co/LumiOpen/Poro-34B-chat
https://lmsys.org/blog/2023-06-22-leaderboard/
34
Liikenne- ja viestintäministeriön julkaisuja 2024:9
4.2 Kielimallien hienosäätö
4.2.1 Lainvalmisteludatan lisääminen ja Retrieval Augmented
Generation -menetelmä
Tekoäly on yhtä hyvä kuin sen kouluttamisessa käytetty tai käytön aikana syötetty
data. Tässä projektissa oli tärkeää, että kielimalli hallitsee Suomen lainsäädännön.
Yksi keino parantaa sitä, että kielimalli vastaisi kysymyksiin perustuen lainvalmiste-
ludataan ja viitaten ajankohtaisiin lähteisiin, on RAG (Retrieval-Augmented Genera-
tion) -menetelmän käyttö.
RAG-menetelmä yhdistää tekstiä luovat mallit (kuten Finnish GPT) hakuun tai teks-
tien vertailuun tarkoitettuihin malleihin. Sen tarkoituksena on parantaa vastausten
tarkkuutta erityisesti silloin, kun mallin tulee käsitellä suuria määriä tai uutta tietoa
tai vastata kysymyksiin, joihin se ei ole suoraan koulutettu. RAG on erittäin käyttö-
kelpoinen menetelmä, ja sen hyödyntäminen edellyttää kielimalleja, jotka on hieno-
säädetty vastaamaan kysymyksiin syötettyjen dokumenttien perusteella.
Tietolaatikko. MIKÄ ON RAG-MENETELMÄ?
RAG-menetelmä tulee sanoista Retrieval-Augmented Generation.
RAG-menetelmä yhdistää tiedonhaun (retrieval) ja tekstin tuottami-
sen (generation) parantaakseen generatiivisten kielimallien tuottamien
vastausten ajantasaisuutta ja luotettavuutta. Tämä saavutetaan käyttä-
mällä ulkoista dataa mallin esikoulutuksessa opitun datan lisäksi.
RAG-menetelmän toiminta vaihe vaiheelta:
• Käyttäjä esittää kysymyksen chat-käyttöliittymän kautta.
• Hakuvaihe (retrieval): RAG-järjestelmä luo kysymyksen perusteella
hakukyselyn, missä voidaan käyttää esim. Finnish Sentence BERT-
mallia, hakukysely lähetetään tietokantaan ja tietokannasta
haetaan kysymykseen liittyvää relevanttia tietoa.
• Yhdistämisvaihe (augmented): Haettu tieto yhdistetään käyttäjän
alkuperäiseen kysymykseen.
35
Liikenne- ja viestintäministeriön julkaisuja 2024:9
• Generointivaihe (generation): Yhdistetty tieto syötetään
generatiiviselle kielimallille, kuten Finnish GPT-mallille, ja kielimalli
muodostaa tarkemman vastauksen, koska se voi hyödyntää
hakutuloksia.
• Vastaus ja hakutulokset näytetään käyttöliittymässä.
RAG-menetelmä yhdistää haun ja luovien kielimallien vahvuudet ja
sopii tarkkojen vastausten tuottamiseen. Tietolaatikko päättyy.
Lainvalmistelussa tärkein datalähde on Suomen säädöskokoelma. Projektissa halut-
tiin hyödyntää Finlexissä julkaistavaa, digitaalisessa muodossa olevaa Suomen
säädöskokoelmaa. Finlex on oikeusministeriön omistama ja Edita Lakitieto Oy:n
tuottama ja ylläpitämä palvelu, jonka “perusajatuksena on turvata kaikille kansalai-
sille maksuton pääsy oikeudellisiin perustietovarantoihin”.24 Finlex on suurimmaksi
osaksi tekijänoikeudesta vapaa verkkopalvelu, mutta sen käyttöehdoissa25 kuiten-
kin kielletään kokonaisen tietokannan tai sen olennaisen osan kopiointi ja julkaisu
osana toista palvelua. Käyttöehtojen muotoilu siis esti Finlexin ajankohtaisen lain-
säädännön hyödyntämisen tekoälyn vastauksissa.
Jo pelkästään se, ettei Finlexin aineistoon ollut käyttöoikeutta, vaikutti
merkittävästi palveludemon käyttökelpoisuuteen.
Osittainen ratkaisu Finlexin käyttöehtojen haasteeseen löydettiin siten, että pro-
jektissa hyödynnettiin Semanttinen Finlex -projektissa26 olleita lakitekstejä. Näistä
valittiin 20 datasäädöksen kannalta relevanttia lainsäädäntöä. Palveludemo hakee
RAG-menetelmällä konteksti-ikkunaan mahtuvia otteita valituista lainsäädännöistä
palvelun käytön aikana. Semanttinen Finlex ei kuitenkaan sisällä koko Suomen
24 https://www.eduskunta.fi/FI/naineduskuntatoimii/kirjasto/aineistot/kotimai-
nen_oikeus/kotimaiset-oikeuslahteet/Sivut/Oikeudelliset-verkkopalvelut.aspx#:~:-
text=Finlex%20on%20kaikille%20avoin%20ja,viranomaisaineistoa%2C%20
valtiosopimuksia%20ja%20hallituksen%20esityksi%C3%A4.
25 https://www.finlex.fi/fi/kayttoehdot/
26 https://data.finlex.fi/fi/main
https://www.finlex.fi/fi/kayttoehdot/
https://data.finlex.fi/fi/main
36
Liikenne- ja viestintäministeriön julkaisuja 2024:9
lainsäädäntöä eivätkä kaikki sen sisältämät säädökset ole ajankohtaisia. Esimerkiksi
hallintolaki (2003/434) uusin versio Semanttisessa Finlexissä on vuodelta 2021, kun
Finlexissä näkyy ajantasainen versio vuodelta 2023.
Tietolaatikko. PALVELUDEMOSSA KÄYTETTY LAINSÄÄDÄNTÖ:
• Arkistolaki
• Elintarvikemarkkinalaki
• Hallintolaki
• Kilpailulaki
• Kuluttajansuojalaki
• Laki eräiden tuotteiden markkinavalvonnasta
• Laki hallinnon yhteisistä sähköisen asioinnin tukipalveluista
• Laki julkisen hallinnon tiedonhallinnasta
• Laki liikenteen palveluista
• Laki oikeudenkäynnistä hallintoasioissa
• Laki oikeudenkäynnistä markkinaoikeudessa
• Laki sähköisen viestinnän palveluista
• Laki vahvasta sähköisestä tunnistamisesta ja sähköisistä
luottamuspalveluista
• Laki varallisuusoikeudellisista oikeustoimista
• Laki viranomaisten toiminnan julkisuudesta
• Liikesalaisuuslaki
• Oikeudenkäymiskaari
• Rikoslaki
• Tietosuojalaki
• Tilastolaki Tietolaatikko päättyy.
37
Liikenne- ja viestintäministeriön julkaisuja 2024:9
4.2.2 Esikoulutettujen kielimallien haasteet kysymyksiin
vastaamisessa lainvalmisteludatasta
Kokeilussa ilmeni varsin nopeasti, että Finnish GPT ja Poro eivät sellaisenaan hal-
linneet keskustelua, tiivistämistä tai vertailua. Tämä on tyypillinen tilanne esikou-
lutuksen jälkeen. Mallit eivät siis olleet vielä niin kehittyneitä, että voisivat käsitellä
todellisen maailman dataa ja ongelmatilanteita. Ne saattoivat esimerkiksi jatkaa
kysymystä kysymyksellä tai antaa tietoa vain lyhyen lähdetekstipätkän perusteella.
Alla on kuvaus kahdesta projektin aikana esiin tulleesta käytännön tilanteesta,
joissa näkyi Finnish GPT:n heikko suoriutuminen kysymys-vastaus-tyyppisessä teh-
tävässä etenkin ennen hienosäätöä.
Ongelma 1: Esikoulutetut, mutta ei keskusteluun tai kysymyksiin vastaamiseen hie-
nosäädetyt, kielimallit jatkavat kysymystä toisilla kysymyksillä. Ne eivät ymmärrä
eroa käyttäjän kysymyksen ja käyttäjän olettaman avustajan vastauksen välillä.
Kuvassa käytetty malli on Finnish GPT Small.
Kuvio 4. Hienosäätämättömän mallin vastaus
Ongelma 2: Kielimalli ei vastaa kysymykseen hakutulosten perusteella. RAG-mene-
telmässä syötteissä kielimallille käytetään hakutuloksia kysymyksen lisäksi. Hakutu-
loksia ei näytetä käyttäjälle, vaan ne lisätään pyyntöön taustalla. Tällöin on tärkeää,
että kielimalli osaa hyödyntää annettuja hakutuloksia vastauksessaan ja viitata nii-
hin. Alla kuvataan tilanne, jossa haun perusteella on lisätty olennaista taustaa.
Kielimalli ei kuitenkaan käytä taustatietoa oikein eikä osaa vastata, että tietojen
jakamisesta säädetään laissa julkisen hallinnon tiedonhallinnasta.
38
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Taulukko 3. Kielimallin toiminta
Kysymys Missä laeissa säädellään dataan pääsystä, datan jakamisesta tai
datan avaamisesta?
Hakutulos
ja kysymys
(esimerkkiin
on lisätty
vain 1
hakutulos)
Taustatietoa:
Laki julkisen hallinnon tiedonhallinnasta
Viranomainen voi luovuttaa teknisten rajapintojen avulla tietoja
muulle kuin toiselle viranomaiselle, jos tiedot saavalla toimijalla
on erikseen laissa säädetty tiedonsaantioikeus ja oikeus käsitellä
näitä tietoja. Tekninen rajapinta voidaan avata 22 §:ssä säädettyjen
edellytysten täyttyessä siten kuin mainitussa pykälässä säädetään.
Tiedot luovuttavan viranomaisen on tarvittaessa varmistettava,
että tietoja saava toimija noudattaa tietojen käsittelyssä tässä laissa
säädettyjä velvollisuuksia.
Tiedon antamisesta muussa sähköisessä muodossa ja yleisölle
katseluyhteytenä toteutettuna tietopalveluna säädetään erikseen.
Käyttäen yllä olevaa taustatietoa vastaa kysymykseen: Missä laeissa
säädetään dataan pääsystä, datan jakamisesta tai datan avaamisesta?
Kielimallin
vastaus
Vastaus on, ettei missään laissa. Tämä johtuu siitä, etteivät datan
avaamiseen liittyvät säädökset ole olleet voimassa. Data on ollut
vapaasti saatavilla, mutta ei vapaasti käytettävissä. Datan avaaminen
on edellyttänyt, kuten edellä on todettu, erillistä lainsäädäntöä.
4.2.3 Kysymyksiin vastaamiseen vaihtoehdot ja hienosäätö
Finnish GPT-3 ja Poro ovat esikoulutettuja (pretrained) kielimalleja. Tämä tarkoittaa,
että malli on esikoulutettu valtavalla määrällä tekstiä. Sille on opetettu suomen kie-
len rakenne ja tietyt tehtävät, kuten seuraavan sanan ennustaminen. Kun kielimallia
halutaan käyttää sanojen ennustamista haastavampiin tehtäviin, kuten kysymyksiin
vastaamiseen RAG-menetelmässä, sitä pitää hienosäätää (fine-tuning) hyödyntäen
tehtävään sopivaa dataa. Projektissa siis käytettiin esikoulutettuja malleja, joita sit-
ten hienosäädettiin lainvalmistelun käyttöyhteyteen sopivaksi. Kielimallien koulut-
tamisesta on taustatietoa liitteessä 1.
Projektiryhmä kokeili käyttää palveludemossa ennen hienosäädön aloittamista eri-
laista kielimallia. Ennen luovaan kysymyksiin vastaamiseen (generative Q&A) hieno-
säätöä kokeiltiin vastausten hakemiseen (extractive Q&A) valmiiksi hienosäädettyä
kielimallia nimeltään BERT Finnish Cased for QA.27 Malleissa on eroa: vastausten luo-
miseen hienosäädetyt mallit osaavat vastata kysymyksiin, joihin ei löydy suoraa
vastausta, mutta vastausten hakemiseen koulutetut kielimallit vain etsivät tekstin
27 https://huggingface.co/TurkuNLP/bert-base-finnish-cased-squad2
https://huggingface.co/TurkuNLP/bert-base-finnish-cased-squad2
39
Liikenne- ja viestintäministeriön julkaisuja 2024:9
seasta vastauksen eivätkä luo uutta tekstiä. Alla on esimerkki siitä, miten BERT Fin-
nish Cased for QA vastaa taustatiedon perusteella kysymykseen: “Missä laeissa sää-
dellään dataan pääsystä?”.
Kuvio 5. Kielimallin hienosäätäminen
Projektiryhmä sulki kokeilun jälkeen pois tarkastelusta extractive Q&A -mallit, koska
tarpeena oli vastata kysymyksiin myös uutta tekstiä luoden. Tämän jälkeen edettiin
hienosäätämään generative Q&A eli luovaa kysymyksiin vastaamisen kielimallia.
40
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Suomalaisten kielimallien hienosäätöä kysymyksiin vastaamiseksi vaikeuttaa se, että
suomalaista kysymys-vastaus -dataa on saatavilla varsin vähän. Projektissa käytet-
tiin hienosäätöön koneella suomennettua SQuAD-dataa.28 Tätä dataa ei kuitenkaan
ole alunperin luotu suomalaiseen toimintaympäristöön eikä oikeaoppisella suomen
kielellä. Projektin aikana julkaistiin myös Instruction Collection Fin -data,29 jota oli
käytetty Poron hienosäätöön.30
Projektin edetessä projektiryhmä päätyi siis hienosäätämään Finnish GPT 3B kieli-
mallin käyttäen SQuAD-dataa, minkä tuloksena syntyi Finnish GPT 3B Instruct -kie-
limalli. Tähän päädyttiin, koska vaikka kyseessä ei ole suurin suomalainen kielimalli,
se oli suurin malli, jonka hienosäätö oli toteutettavissa Google Colab -ympäristössä.
Suuremman kielimallin hienosäätö olisi vaatinut merkittävästi suuremman GPU-ka-
pasiteetin, jonka saatavuudessa oli haasteita ja jota projektin rajoitteet eivät mah-
dollistaneet. Infrastruktuurin haasteista kerrotaan lisää luvussa 3.3.1.
Projektin infrastruktuurin rajoitteet eivät kuitenkaan muuttaneet ymmärrystä hie-
nosäädettyjen suomalaisten kielimallien suorituskyvystä ja jatkokehitystarpeista.
Tutkimuksen mukaan Finnish GPT 3B:n suorituskyky ei eronnut merkittävästi par-
haasta Finnish GPT 8B -mallista. Poro 34B:n suorituskyky monivalintatehtävissä on
paremmalla tasolla kuin Finnish GPT 3B:n ja myös Poron hienosäädettyä kielimallia
onnistuttiin vertailemaan projektissa. Poro 34B Chat -malli otettiin käyttöön sellaise-
naan toiseksi vaihtoehdoksi käyttäjille, kun malli oli julkaistu.
Hienosäädössä esikoulutetulle kielimallille opetettiin sekä 1) keskusteluun sopiva
formaatti, kuten ChatML,31 että 2) vastaamaan kysymyksiin taustan tai syötettyjen
dokumenttien perusteella. Alla olevissa esimerkeissä nähdään myös hienosäätöda-
taa, jonka avulla kielimallia opetetaan vastaamaan: “En osaa vastata taustan perus-
teella”, jos taustadokumentista ei löydy vastausta. Näemme myös, että SQuAD-data
on konekäännettyä ja kattaa vaihtelevia aiheita, jotka eivät liity lainsäädäntöön.
Hienosäätö kesti noin 3 tuntia 1 x NVIDIA A100 40 GB GPU:lla, ja hienosäädön infra-
struktuurin kustannus oli alle 100 euroa.
28 https://huggingface.co/datasets/TurkuNLP/squad_v2_fi
29 https://huggingface.co/datasets/LumiOpen/instruction-collection-fin
30 https://huggingface.co/LumiOpen/Poro-34B-chat
31 https://huggingface.co/docs/transformers/main/en/
chat_templating#what-template-should-i-use
https://huggingface.co/datasets/TurkuNLP/squad_v2_fi
https://huggingface.co/datasets/LumiOpen/instruction-collection-fin
https://huggingface.co/LumiOpen/Poro-34B-chat
41
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Taulukko 4. Hienosäätödata
Esimerkki käsitellystä hienosäätödatasta
<|im_start|>system
Olet avustaja. Seuraavaksi saat kysymyksen tai tehtävän. Kirjoita vastaus parhaasi
mukaan siten että se täyttää kysymyksen tai tehtävän vaatimukset.<|im_end|>
<|im_start|>user
Tausta: Aleksandria oli Athanasiuksen nuoruusvuosina koko valtakunnan tärkein
kauppakeskus. Intellektuaalisesti, moraalisesti ja poliittisesti se edusti etnisesti
monimuotoista kreikkalais-roomalaista maailmaa jopa enemmän kuin Rooma tai
Konstantinopoli, Antiokia tai Marseille. Sen kuuluisa katekeettinen koulu, joka ei
ollut menettänyt mitään kuuluisasta intohimostaan ortodoksisuuden puolesta
Pantaenoksen, Klemens Aleksandrialaisen, Origenes Aleksandrialaisen, Dionysioksen
ja Theognostoksen ajoista lähtien, oli alkanut saada lähes maallisen luonteen
kiinnostuksen kohteidensa laajuudessa, ja sen vakavasti otettaviin kuulijoihin kuului
vaikutusvaltaisia pakanoita.
Käytä vain taustaa ja vastaa kysymykseen tai tehtävään: Mistä Alexandria
tunnettiin?<|im_end|>
<|im_start|>assistant
tärkein kauppakeskus<|im_end|>
<|im_start|>system
Olet avustaja. Seuraavaksi saat kysymyksen tai tehtävän. Kirjoita vastaus parhaasi
mukaan siten että se täyttää kysymyksen tai tehtävän vaatimukset.<|im_end|>
<|im_start|>user
Tausta: Maan pinta ja pilvet imevät auringon näkyvää ja näkymätöntä säteilyä
ja lähettävät suuren osan energiasta infrapunana takaisin ilmakehään. Tietyt
ilmakehän aineet, pääasiassa pilvipisarat ja vesihöyry, mutta myös hiilidioksidi,
metaani, dityppioksidi, rikkiheksafluoridi ja kloorifluorihiilivedyt, absorboivat tätä
infrapunasäteilyä ja säteilevät sitä uudelleen kaikkiin suuntiin, myös takaisin Maahan.
Näin ollen kasvihuoneilmiö pitää ilmakehän ja maanpinnan paljon lämpimämpänä
kuin jos infrapunaa absorboivia aineita ei olisi ilmakehässä.
Käytä vain taustaa ja vastaa kysymykseen tai tehtävään: Mitkä aineet päästävät
vesihöyryä takaisin ilmakehään?<|im_end|>
<|im_start|>assistant
En osaa vastata taustan perusteella.<|im_end|>
42
Liikenne- ja viestintäministeriön julkaisuja 2024:9
4.2.4 Kielimallien vertailu hienosäädön jälkeen
Kielimalleja vertailtiin palautteen ja testidatan avulla. Testidata sisälsi 20 asiantun-
tijan kysymystä ja vastausta sekä otteita relevantista lainsäädännöstä. Alla näkyy
kolme testikysymystä ja kielimallien vastaukset. Relevanttien dokumenttien sisältö
on RAG-menetelmän mukaisesti yhdistetty testikysymykseen, ja tilan säästämiseksi
täyttä syötettä ei näytetä tässä. Testidatan tuloksista nähdään sama kuin käyttä-
jien palautteesta: hienosäädetyt kielimallit Finnish GPT 3B Instruct ja Poro 34B Chat
eivät onnistuneet vastaamaan kysymyksiin tarkasti ja hyödyntäen vain annettuja
otteita lainsäädännöstä.
Näemme myös, että OpenAI GPT-4o -mallin vastaukset ovat lähempänä asiantun-
tijoiden vastauksia. Kielimalleilla on siis potentiaalia ratkaista projektissa havaittuja
haasteita, kun sekä esikoulutettujen kielimallien että niistä hienosäädettyjen kieli-
mallien konteksti-ikkunan pituus ja suorituskyky on riittävän hyvällä tasolla.
Testidata keskittyi ennen kaikkea vastausten luomisen arviointiin, ja oletuksena oli,
että relevantit dokumentit oli jo löydetty. Tämän vertailun rajoitteena on, että se ei
testaa hakutoiminnallisuutta. Kun halutaan tarkkoja vastauksia viitaten hakutulok-
siin kuten relevanttiin lainsäädäntöön, on tärkeää panostaa myös haun tarkkuuteen.
43
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Taulukko 5. Kielimallien vastauksia kysymyksiin
Kysymys, relevantit
dokumentit ja
asiantuntijan vastaus
Kielimalli Kielimallin vastaus
Kysymys: Minkä lain
tavoitteena on edistää
sähköisen viestinnän
palvelujen tarjontaa ja
käyttöä?
Relevantit
dokumentit:
- Laki sähköisen
viestinnän palveluista
(2014/917, versio: 2024-
02-17), 1 luku 1 §
Asiantuntijan vastaus:
Sähköisen viestinnän
palveluista annetun
lain (917/2014)
tavoitteena on edistää
sähköisen viestinnän
palvelujen tarjontaa ja
käyttöä sekä varmistaa,
että viestintäverkkoja
ja viestintäpalveluja
on kohtuullisin ehdoin
jokaisen saatavilla koko
maassa.
OpenAI GPT-4o Lain sähköisen viestinnän palveluista (2014/917,
versio: 2024-02-17) tavoitteena on edistää sähköisen
viestinnän palvelujen tarjontaa ja käyttöä.
Finnish GPT 3B
Instruct
Laki sähköisen viestinnän palveluista (2014/917, versio:
2024-02-17), 1 luku 1 §
Lain tavoitteena on edistää sähköisen viestinnän
palvelujen tarjontaa ja käyttöä sekä varmistaa,
että viestintäverkkoja ja viestintäpalveluja on
kohtuullisin ehdoin jokaisen saatavilla koko maassa.
Lain tavoitteena on lisäksi turvata radiotaajuuksien
tehokas ja häiriötön käyttö sekä edistää kilpailua
ja varmistaa, että viestintäverkot ja -palvelut
ovat teknisesti kehittyneitä, laadultaan hyviä,
toimintavarmoja ja turvallisia sekä hinnaltaan edullisia.
Lain tavoitteena on myös turvata sähköisen viestinnän
luottamuksellisuuden ja yksityisyyden suojan
toteutuminen.
Poro 34B Chat Sähköisen viestinnän palveluista annetun lain
(2014/917) tavoitteena on edistää sähköisen viestinnän
palvelujen tarjontaa ja käyttöä sekä varmistaa,
että viestintäverkkoja ja viestintäpalveluja on
kohtuullisin ehdoin jokaisen saatavilla koko maassa.
Lain tavoitteena on myös turvata radiotaajuuksien
tehokas ja häiriötön käyttö sekä edistää kilpailua
ja varmistaa, että viestintäverkot ja -palvelut
ovat teknisesti kehittyneitä, laadultaan hyviä,
toimintavarmoja ja turvallisia sekä hinnaltaan edullisia.
Lain tavoitteena on lisäksi turvata sähköisen viestinnän
luottamuksellisuuden ja yksityisyyden suojan
toteutuminen.
44
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Kysymys, relevantit
dokumentit ja
asiantuntijan vastaus
Kielimalli Kielimallin vastaus
Kysymys: Missä
säädetään viestin
ja välitystietojen
luottamuksel
lisuudesta?
Relevantit
dokumentit:
- Laki sähköisen
viestinnän palveluista
(2014/917, versio: 2024-
02-17), 17 luku 136 §
Asiantuntijan vastaus:
Sähköisen viestinnän
palveluista annetussa
lain (917/2014) 136 §:ssä
säädetään viestin
ja välitystietojen
luottamukselli
suudesta.
OpenAI GPT-4o Viestin ja välitystietojen luottamuksellisuudesta
säädetään Laki sähköisen viestinnän palveluista
(2014/917, versio: 2024-02-17) 17 luvun 136 §:ssä.
Tämä pykälä sisältää säännökset siitä, että sähköisen
viestinnän osapuoli voi käsitellä omia sähköisiä
viestejään ja niihin liittyviä välitystietoja, sekä
määrittelee tilanteet, joissa muut voivat käsitellä
viestejä ja niiden välitystietoja. Lisäksi se kieltää
viestin, radioviestinnän tai välitystiedon luvattoman
ilmaisemisen tai hyödyntämisen ilman viestinnän
osapuolen suostumusta, ellei laissa toisin säädetä.
Finnish GPT 3B
Instruct
Laki sähköisen viestinnän palveluista (2014/917, versio:
2024-02-17), 17 luku 136 §
Viestinnän osapuoli voi käsitellä omia sähköisiä
viestejään ja niihin liittyviä välitystietoja, jollei laissa
toisin säädetä.
Yleisesti vastaanotettavaksi tarkoitettua radio-
viestintää ja sen välitystietoja saa käsitellä, jollei laissa
toisin säädetä.
Se, joka on ottanut vastaan tai muutoin saanut
tiedon sähköisestä viestistä, radioviestinnästä tai
välitystiedosta, jota ei ole hänelle tarkoitettu, ei saa
ilman viestinnän osapuolen suostumusta ilmaista tai
käyttää hyväksi viestin sisältöä, välitystietoa tai tietoa
viestin olemassaolosta, ellei laissa toisin säädetä.
Sen estämättä, mitä 3 momentissa säädetään,
radioviestintää tai sen välitystietoja voi käsitellä
vain, jos käsittelyssä tai käsittelyn tuloksesta ei voida
tunnistaa yksittäistä luonnollista henkilöä.
Käytä vain taustaa ja vastaa kysymykseen tai
tehtävään: Missä
Poro 34B Chat Lain sähköisen viestinnän palveluista (2014/917) 17
luvun 136 §:ssä säädetään luottamuksellisuudesta. Sen
mukaan viestinnän osapuoli voi käsitellä omia sähköisiä
viestejään ja niihin liittyviä välitystietoja, jollei laissa
toisin säädetä. Lisäksi yleisesti vastaanotettavaksi
tarkoitettua radioviestintää ja sen välitystietoja saa
käsitellä, jollei laissa toisin säädetä. Muissa tapauksissa
viestinnän osapuolen on annettava suostumus tai
laissa on oltava erityissäännös.
45
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Kysymys, relevantit
dokumentit ja
asiantuntijan vastaus
Kielimalli Kielimallin vastaus
Kysymys: Missä
laissa säädetään
tietokantasuojasta?
Relevantit
dokumentit:
- Tekijänoikeuslaki
(1961/404, versio: 2024-
01-01), 5 luku 49 §
Asiantuntijan vastaus:
Tekijänoikeuslain
(404/1961) 49 §:ssä
säädetään omaa lajiaan
olevasta tietokannan
suojasta.
OpenAI GPT-4o Tietokantasuojasta säädetään Suomen
tekijänoikeuslaissa (1961/404), erityisesti 5 luvussa 49 §.
Finnish GPT 3B
Instruct
Tausta: Tekijänoikeuslaki (1961/404, versio: 2024-01-01),
5 luku 49 §
Sillä, joka on valmistanut
1) luettelon, taulukon, ohjelman tai muun sellaisen
työn, jossa on yhdisteltynä suuri määrä tietoja, taikka
2) tietokannan, jonka sisällön kerääminen,
varmistaminen tai esittäminen on edellyttänyt
huomattavaa panostusta,
on yksinomainen oikeus määrätä työn koko sisällöstä
tai sen laadullisesti tai määrällisesti arvioiden
olennaisesta osasta valmistamalla siitä kappaleita ja
saattamalla se yleisön saataviin.
(14.10.2005/821)
Edellä 1 momentissa säädetty oikeus on voimassa,
kunnes 15 vuotta on kulunut siitä vuodesta, jona
työ valmistui, tai jos työ saatettiin yleisön saataviin
ennen tämän ajanjakson päättymistä, 15 vuotta siitä
vuodesta, jona työ saatettiin ensimmäisen kerran
yleisön saataviin ensimmäisen kerran yleisön
Poro 34B Chat Tekijänoikeuslaki, tarkemmin sanottuna sen 5. luvun
49. pykälä, määrää tietokannan suojasta. Tämä laki
suojaa tietokantoja, joiden sisällön kerääminen,
varmistaminen tai esittäminen on edellyttänyt
huomattavaa panostusta. Tietokannan valmistajan on
saatava yksinoikeus määrätä työn koko sisällöstä tai
sen laadullisesti tai määrällisesti arvioiden olennaisesta
osasta valmistamalla siitä kappaleita ja saattamalla se
yleisön saataviin.
Tämä yksinoikeus on voimassa 15 vuotta työn
valmistumisesta tai, jos työ on saatettu yleisön
saataville ennen tämän ajanjakson päättymistä, 15
vuotta siitä vuodesta, jona työ on ensimmäisen kerran
saatettu yleisön saataville.
Jos haluat lisätietoja, voit vierailla seuraavalla
verkkosivustolla: https://www.minilex.fi/a/tunne-
oikeutesi-tietokannan-suojaan-eli-copyright-lex-faq
46
Liikenne- ja viestintäministeriön julkaisuja 2024:9
4.2.5 Datan puute hienosäädön esteenä
Yleisesti voidaan todeta, että tarkastellut suomalaiset kielimallit tarvitsevat paljon
hienosäätöä. Tämä hienosäätövaihe edellyttää, että relevanttia dataa on saatavilla.
Tällaisia suomenkielisiä datoja ei kuitenkaan juurikaan ole avoimesti jaettu. Projek-
tin aikana löydetyt datat olivat automaattisesti käännettyjä eivätkä siis soveltuneet
täysin suomalaiseen toimintaympäristöön.
Edellytys suomalaisten kielimallien tehokkaalle kehitykselle on eri tehtä-
viin sopivan laadukkaan datan kerääminen, luominen ja avoin jakaminen.
Suomenkielisiä aineistoja erilaisten laajojen kielimallien kouluttamiseen pitäisi
kerätä ja jakaa nykyistä paljon avoimemmin. Erityisen tärkeää tämä on silloin, kun
puhutaan yhteiskunnallisesti niin merkittävästä aineistosta kuin lainsäädännöstä.
Luotettavuuden näkökulmasta on tärkeää varmistaa, että suomalaisten kielimallien
kehittäjillä ja hyödyntäjillä on avoin pääsy ajantasaiseen lainsäädäntöön.
Silloin kun joudutaan käyttämään automaattisesti käännettyä dataa, siitä on tärkeää
kommunikoida läpinäkyvästi. Samalla on syytä arvioida, onko tarpeen investoida
vastaaviin Suomessa luotuihin datoihin.
4.3 Infrastruktuurin rakentaminen
4.3.1 Pilviympäristön valinta ja infrastruktuurin haasteet
Projektissa ei suoritettu kallista esikoulutusvaihetta, joten siinä ei ollut syytä ottaa
käyttöön supertietokoneita kuten LUMIa, vaan palveludemoa alettiin rakentaa huo-
mattavasti kustannustehokkaammin pilvipalvelualustalle. Pilvipalvelualustat on
suunniteltu jatkuvien palveluiden tarjoamiseen ja ylläpitoon, ja ne sopivat tästäkin
näkökulmasta supertietokonetta paremmin palveludemon toteuttamiseen.
Kielimalleille, niiden hienosäädölle ja niitä hyödyntäville palveluille tarvitaan hyvin
suunniteltu tekninen ympäristö, jossa on riittävä määrä laskentatehoa ja datan tal-
lennuskykyä ja jonka tietoturva on vahva. Lisäksi on tärkeää, että ympäristön verk-
koyhteydet ja palvelinresurssit ovat riittävät mallin toimimiseksi vaatimusten
mukaisesti.
47
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Kielimallien hienosäätö ja jatkuva käyttö vaatii GPU-pohjaista kapasiteettia. GPU:t
eli grafiikkasuorittimet ovat erikoistuneita piirejä, jotka nopeuttavat grafiikan ja
kuvien käsittelyä tietokoneissa ja niitä käytetään myös suurta laskentatehoa vaa-
tivassa koneoppimisessa. Pilvipalvelualustat, kuten Microsoft Azure, Amazon Web
Services (AWS) ja Google Cloud Platform tarjoavat GPU-pohjaista laskentakapasi-
teettia, mutta niissä on rajatut GPU-resurssit, joille saattaa olla korkeaa kysyntää.
Projektin alkuvaiheessa arvioitiin, että tekniseksi ympäristöksi soveltuu mikä
tahansa näistä pilvipalvelun tarjoajista. Projektin alussa palveluntarjoajaksi valittiin
Microsoft Azure, sillä se on käytössä Liikenne- ja viestintäministeriössä. Ratkaisun
hallittavuus otettiin huomioon rakentamalla kaikki infrastruktuuri koodina ja sovel-
lus Docker -pohjaisesti. Nämä valinnat helpottavat merkittävästi sovellusten siirret-
tävyyttä ja skaalautuvuutta eri Microsoft Azure ympäristöissä tai eri pilvialustoilla.
Näin projektissa vältettiin lukittautuminen tiettyyn palveluntarjoajaan.
Projektitiimi havaitsi, että Microsoft Azuren GPU-pohjainen kapasiteetti on tällä het-
kellä vahvasti rajattua monissa eri palveluissa. Azure Machine Learning -palvelussa
isompaa kapasiteettia on erikseen pyydettävä eikä saatavuudesta ole takeita. GPU:i-
den kysyntää Azuressa on saattanut osaltaan kasvattaa se, että Microsoft Azure on
eksklusiivinen palveluntarjoaja kaikille OpenAI:n tuotteille.32
Tässä projektissa GPU-kiintiöiden haasteet tulivat ilmi useassa kohdassa, muun
muassa Azure Machine Learning -palvelussa, jota haluttiin käyttää hienosäätöön.
Pyynnöstä huolimatta projektissa ei saatu hyödynnettäväksi riittävää GPU-pohjaista
kapasiteettia. Myös AWS:ssä oli oma prosessinsa GPU-kapasiteetin varaamiseen,
mikä hidasti eri infrastruktuurivaihtoehtojen kokeilua.
Finnish GPT 3B… hienosäätö oli toteutettavissa Google Colab -ympäris-
tössä – suuremman kielimallin hienosäätö olisi vaatinut merkittävästi suu-
remman GPU-kapasiteetin, jonka saatavuudessa oli haasteita
Kielimallien hienosäätö toteutettiin lopulta Google Colab -palvelussa, jossa A100
GPU:n muistia oli käytettävissä 40GB:ä. GPU:n muisti vaikutti kielimallin valin-
taan hienosäädössä. Suurin malli, jonka hienosäätö onnistui muistin optimoin-
nin jälkeen oli Finnish GPT 3B. Toimenpiteet muistin optimointiin sisälsivät
pienemmän eräkoon, kvantisoinnin eli numeroiden tarkkuuden vähentämisen
32 https://openai.com/index/openai-and-microsoft-extend-partnership/
https://openai.com/index/openai-and-microsoft-extend-partnership/
48
Liikenne- ja viestintäministeriön julkaisuja 2024:9
bitsandbytes-kirjastolla sekä parametritehokkaan hienosäädön Low-Rank adapta-
tion (LoRa) -menetelmällä33 ja peft-kirjastolla. Hienosäädetty Finnish GPT 3B Instruct
kielimalli julkaistiin Hugging Faceen.
Yleisesti ottaen, esikoulutuksen ja hienosäädön yhteydessä onkin tärkeä kokeilla
muistin optimointia eri menetelmin. Optimointiin on käytettävissä kirjastoja ja esi-
merkkikoodia erityisesti ympäristössä, jossa on käytössä NVIDIA:n CUDA-tuettuja
GPU:ita. Hugging Face on julkistanut yhteistyön myös AMD:n kanssa, minkä odote-
taan helpottavan tulevaisuudessa muistin optimointia myös AMD-ympäristöissä.34
Emme hyödyntäneet tässä projektissa rinnakkaisia GPU:ita, mutta tästä skenaariosta
on tärkeä ymmärtää, että rinnakkaisilla GPU:illa optimointi on erityisen riippuvaista
käytettävästä laitteistosta.35 Hyviä resursseja ovat esimerkiksi Transformers-kirjaston
dokumentaatio36, oppaat37 ja Alignment Handbook.38
4.3.2 Palvelun arkkitehtuuri
Siirrettävyyden ja skaalautuvuuden näkökulmista ensimmäiseen arkkitehtuuriin
harkittiin Microsoft Azuren tarjoamia palveluita, joilla voidaan ajaa Docker-pohjaisia
sovelluksia. Ensimmäisessä arkkitehtuurissa sovellus päätettiin toteuttaa Azure Con-
tainer Instances -palvelun avulla, koska se tarjoaa kustannustehokkaan ratkaisun
ajaa sovellusta, joka vaatii paljon keskusmuistia. Ratkaisu siirrettiin kuitenkin myö-
hemmin Azure Web App -palvelun päälle tietoturvallisemman HTTPS-verkkoproto-
kollan mahdollistamiseksi. Alla olevassa kuvassa näkyy projektissa käytetty alustava
ratkaisuarkkitehtuuri.
33 https://arxiv.org/pdf/2106.09685
34 https://huggingface.co/blog/huggingface-and-amd
35 https://huggingface.co/docs/transformers/en/perf_train_gpu_many
36 https://huggingface.co/docs/transformers/en/perf_train_gpu_one
37 https://huggingface.co/docs/transformers/en/llm_tutorial_optimization
38 https://github.com/huggingface/alignment-handbook/
https://arxiv.org/pdf/2106.09685
https://huggingface.co/blog/huggingface-and-amd
https://huggingface.co/docs/transformers/en/perf_train_gpu_many
https://huggingface.co/docs/transformers/en/perf_train_gpu_one
https://huggingface.co/docs/transformers/en/llm_tutorial_optimization
https://github.com/huggingface/alignment-handbook/
49
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Kuvio 6. Palveludemon ensimmäisen version arkkitehtuuri
Viimeisin käyttöversion arkkitehtuuri muotoutui iteratiivisen lähestymisen kautta.
Sovelluksen käytössä esimerkiksi huomattiin, että kielimalli on syytä erottaa itse
sovelluksesta, jotta käyttökokemus paranee latenssin eli viiveen osalta ja kus-
tannuksia voidaan hallita paremmin. Kielimallille haluttiin myös käyttää omaa
GPU-pohjaista infrastruktuuria. Tästä syystä kielimalli päädyttiin julkaisemaan erilli-
sen rajapinnan kautta hyödyntäen Hugging Facen välittämää kapasiteettia AWS:ssä.
Alla olevassa kuvassa on nähtävillä uudempi arkkitehtuuri.
50
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Kuvio 7. Palveludemon lopullinen arkkitehtuuri
Suurien kielimallien käyttö voi tarkoittaa, että osa toteutuksesta pitää siirtää uusiin
palveluihin tai toiseen pilveen, kuten Amazon Web Servicesiin (AWS) tai Google
Cloud Platformiin (GCP). Kustannukset liittyvät nimenomaan GPU-muistinkäyttöön
ja prosessointiaikaan. Näiden optimointiin keskittynyt erityisosaaminen voikin mak-
saa itsensä nopeasti takaisin.
Kun palvelu otetaan jatkuvaan käyttöön, etenkin GPU:n ja muistin tarve kasvaa luo-
vien kielimallien vaatiman laskentatehon vuoksi. Lisäksi on varauduttava siihen, että
tekstin luomisen latenssi voi olla yllättävän pitkä. Tämän takia on tärkeää eristää
muut toiminnallisuudet ja resurssit inferenssiin keskittyvästä moduulista. Käyttöko-
kemukseen onkin jatkokehityksessä syytä kiinnittää huomiota.
51
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Käytön kustannukset vaihtelivat projektin aikana arkkitehtuurimuutosten ja hie-
nosäädön tarpeen vuoksi. Viimeisimmän version infrastruktuurin kustannusen-
nuste kesäkuulle oli noin 230 euroa kuukaudessa ilman luovien kielimallien osuutta.
Lisäksi Finnish GPT 3B Instructin ja Poro 34B Chatin kustannukset perustuivat aktii-
viseen käyttöön ja olivat 1 dollaria eli noin 0,9 euroa tunnissa (Finnish GPT) ja 5
dollaria eli noin 4,6 euroa tunnissa (Poro). Kustannusten säästämiseksi luovien kie-
limallien resurssit ajettiin automaattisesti alas kuuden tunnin (Finnish GPT) tai tun-
nin (Poro) inaktiviteetin jälkeen. Alasajossa piti tasapainoitella käyttökokemuksen
kanssa, koska kielimallien resurssien uudelleen käynnistäminen kesti kauan. Jos
näitä kielimalleja käytettäisiin ympäri vuorokauden, olisi kokonaiskustannus kie-
limallista riippuen noin 880 euroa kuukaudessa – 3 540 euroa kuukaudessa. Toi-
saalta kustannus kasvaisi myös käyttäjämäärän mukaan, kun tarvittaisiin enemmän
GPU-resursseja rinnakkaisiin kyselyihin vastaamiseen. Vertailun vuoksi todettakoon,
että OpenAI GPT-4o hinnoittelu on 5 dollaria eli noin 4,6 euroa / miljoona tokenia
kielimallin syötteitä ja 15 dollaria eli noin 13,8 euroa / miljoona tokenia kielimallin
vastauksia.39
Suomalaisten kielimallien käytön kustannuksessa nähdään samaa käyttäytymistä
kuin kaupallisten mallien hinnoittelussa: kustannus riippuu sekä 1) valitun tekoälyn
tai kielimallin koosta että 2) käytön määrästä, myös tekstin pituudessa mitattuna.
Esikouluttamalla ja käyttämällä uudempia kielimalleja, joissa saadaan enemmän
suorituskykyä irti samasta koosta tai parametrimäärästä, voimme parhaimmillaan
laskea kustannuksia ja hiilijalanjälkeä.
4.4 Palveludemon rakentaminen
4.4.1 Palveludemon toiminta
Palveludemo rakennettiin web-palveluksi. Työkalussa on helppo käyttöliittymä
kyselyihin, vastauksiin ja Semanttinen Finlex -hakutuloksiin. Työkalussa voi myös
kokeilla kahta eri kielimallia, Finnish GPT 3B Instructia ja Poro 34B Chatia. Palvelu-
demo hyödyntää Finnish Sentence BERTiä lainsäädäntödatan hakuun Semanttisesta
Finlexistä ja muodostaa vastauksen valitulla kielimallilla. Alla oleva kuva esittää pal-
veludemon toiminnan.
39 https://openai.com/api/pricing/
https://openai.com/api/pricing/
52
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Kuvio 8. Palveludemon toiminta
Palveludemossa käytettiin yksinkertaista käyttöliittymää, ja sitä parannettiin projek-
tin aikana useaan otteeseen palautteen perusteella. Esimerkiksi lain hakutulosten
tiivistämiseen, järjestelyyn ja lain kohtien viitteisiin luotiin lainvalmistelijan tarpei-
siin sopiva formaatti.
Alla olevissa kuvissa on kuvakaappaukset palveludemon käyttöliittymästä sekä
ohjeet palvelun käyttöön. Palvelussa voidaan hakea vastauksia kysymyksiin ja hakea
niihin liittyviä säädöstekstejä. Hakutulosten linkit ohjaavat löydettyjen pykälien
kohdalle Semanttinen Finlex-palvelussa.
Kuvio 9. Palveludemon käyttöliittymä
53
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Kuvio 10. Palveludemon käyttöliittymä
4.4.2 Palveludemosta saatu palaute
Palveludemosta pyydettiin aktiivisesti palautetta käyttäjiltä heti, kun sen ensimmäi-
nen versio oli olemassa. Palvelun käytöstä keskusteltiin viikkopalavereissa, joiden
jälkeen kehitystyötä ohjattiin palautteen mukaiseksi.
Palautetta pyydettiin myös kyselyllä, jossa kartoitettiin lainvalmisteluun tehokkuu-
teen ja vaikuttavuuteen liittyviä haasteita sekä käyttökokemuksia ja parannuside-
oita palveludemon käytöstä. Kyselyssä esimerkiksi kysyttiin, mitä tietoa käyttäjä
yritti saada esille, miten helppoa työkalua oli käyttää, miten relevantteja ja luotetta-
via hakutulokset olivat ja miten hyödyllinen työkalu olisi, jos se toimisi tarkoitetulla
tavalla.
Chat-pohjainen työkalu koettiin helppokäyttöiseksi, joskin hieman yksinkertaiseksi.
Sen sijaan työkalun antamia hakutuloksia ei pidetty aina relevantteinä eikä varsin-
kaan vastauksia luotettavina.
”Sisällöltään systeemin antamat vastaukset vaikuttavat vähemmän sel-
keiltä tai edes luotettavilta.”
Palveludemon käyttäjä
54
Liikenne- ja viestintäministeriön julkaisuja 2024:9
Palautteissa näkyi selvästi, miten tekniset rajoitteet ja kielimallien suorituskyky vai-
kuttivat käyttökokemukseen. Teknisiä rajoitteita olivat etenkin konteksti-ikkunan
pituus lainsäädännön haussa ja tekstin luomisessa eli kysymyksiin vastaamisessa
haetun lainsäädännön perusteella. Lyhyt konsteksti-ikkuna tarkoitti, että vastaami-
seen käytetyt lainsäädännön kohdat olivat pituudeltaan lyhyitä, jopa alle pykälän
mittaisia. Tämän lisäksi vastaamisessa ei voitu käyttää kaikkia haluttuja hakutu-
loksia, vaan konteksti-ikkunaan mahtui noin 5–10 hakutulosta. Kielimallien suori-
tuskyky vastaamisessa näkyi myös niin, että vastaukset eivät perustuneet pyynnön
mukaisesti hakutuloksiin. Kokonaisuudessaan nämä rajoitteet tarkoittivat, ettei
käyttäjien kysymyksiin vastattu kattavasti ja tarkasti.
”Eniten arvoa olisi luonnollisesti luotettavuuden olennaisella paranemi-
sella ja kyvyllä analysoida aihetta kysymyksen ympärillä yksinkertaista
oikean pykälän poimimista laajemmin. Nythän tuloksena on periaatteessa
hiukan edistynyt ctrl+f -toiminto, mikä ei vielä tarjoa merkittävää tehok-
kuutta työhön.”
Palveludemon käyttäjä
Palaute vahvisti käsitystä asiantuntijoiden tarpeista ja tekoälyn mahdollisuuksista
lainsäädännössä. Yli puolet vastaajista olivat samaa mieltä, että tärkeimpiä tehok-
kuuden haasteita ovat, että 1) joutuu kahlaamaan läpi paljon lakeja manuaalisesti
ja arvioimaan lakien riippuvuussuhteita, 2) oman toimialan tuntemuksen ulkopuo-
lelta on hidasta saada vastauksia ja 3) ristiriitaisuuksien tunnistaminen on työlästä
etenkin horisontaalisissa säädöksissä. Vaikuttavuuden tärkeimpänä haasteena puo-
let vastaajista näkivät tärkeimpänä haasteena, että lainvalmistelija työstää lakia vah-
vasti omaan ymmärrykseensä ja toimialansa tuntemukseen pohjautuen. Yli puolet
olivat samaa tai täysin samaa mieltä, että toimiessaan työkalu auttaisi työtä.
”Sekin olisi arvokasta tietoa valmistelijalle, että riippuvuus vaikka kahden
säädöksen välillä on ’todennäköinen’. Luomuälyä sitten käytettäisiin vain
oleellisten tekstien/materiaalien lukemiseen. Riippuvuudet eivät siis aina
selviä säädöstekstistä pelkästään ja tausta-aineistona tulisi olla ’kaikki
säädökset’.”
Palveludemon käyttäjä
Palautteesta näkyi myös käyttäjien haluamat parannukset kielimalleihin ja tekoä-
lyratkaisuihin: kattava lainvalmistelun data, tarkempi hakutoiminto ja vastausten
lisäksi työteht