� � � � ���� � � � � �� � � �� ����� �� � � ��� ��� � ����� � �� �� � � �� � 


����������������
����������������������
��������������������
��
����������������
��������
�������������

�����������


Luovan tekoälyn palveludemo 
liikenne- ja viestintäministeriön 
lainvalmistelutyön tueksi
Loppuraportti

Futurice Oy

Liikenne- ja viestintäministeriö Helsinki 2024

Liikenne- ja viestintäministeriön julkaisuja 2024:9 


Liikenne- ja viestintäministeriö
CC BY-SA 4.0

ISBN pdf: 978-952-243-743-3
ISSN pdf: 1795-4045

Taitto: Valtioneuvoston hallintoyksikkö, Julkaisutuotanto

Helsinki 2024

Julkaisujen jakelu 
Distribution av publikationer

Valtioneuvoston  
julkaisuarkisto Valto

Publikations- 
arkivet Valto

julkaisut.valtioneuvosto.fi

https://julkaisut.valtioneuvosto.fi/


Kuvailulehti
20.8.2024

Luovan tekoälyn palveludemo liikenne- ja viestintäministeriön lainvalmistelutyön 
tueksi
Loppuraportti

Liikenne- ja viestintäministeriön julkaisuja 2024:9
Julkaisija Liikenne- ja viestintäministeriö

Tekijät Martti Sutinen, Ida Rainio, Miikka Vuorinen
Yhteisötekijä Futurice Oy
Kieli Suomi Sivumäärä 79

Tiivistelmä
Teknologia- ja innovaatiokonsultointiyritys Futurice toteutti Liikenne- ja 
viestintäministeriön kanssa projektin, jossa kokeiltiin suomalaisten kielimallien (LLM) 
hyödyntämistä lainvalmistelun tukena. Tavoitteena oli tehostaa suurten tietomäärien 
analysointia vaativaa lainvalmistelua ja edistää Suomen strategista autonomiaa 
tekoälyn saralla.

Projektissa rakennettiin chatbot-käyttöliittymää hyödyntävä palveludemo, jolle 
lainvalmistelija pystyi esittämään kysymyksiä lainsäädännöstä. Projekti osoittaa, 
etteivät suomalaiset kielimallit ole vielä riittävällä tasolla tukemaan lainvalmistelutyötä. 
Suurimpia haasteita olivat konteksti-ikkunan rajallisuus ja suomenkielisen 
hienosäätödatan puute. Projektissa havaittiin kuitenkin selvää potentiaalia 
lainsäädäntötyön tehostamiseksi.

Suomalaisten kielimallien kehittämiseksi suositellaan investointeja dataan, 
tekoälyteknologiaan ja osaamiseen. Kunnes kotimaiset kielimallit saavuttavat 
vaadittavan kypsyystason, ehdotetaan kaupallisten kielimallien käyttöä niiden rinnalla. 
Lainvalmistelutyön tehostamisen ohella investointien nähdään mahdollistavan 
Suomelle aseman toimia esimerkkinä tekoälyn eettisessä hyödyntämisessä hallinnossa. 
Kotimaisiin ja eurooppalaisiin kielimalleihin investoimisen nähdään vähentävän 
teknologista riippuvuutta suhteessa muihin maihin ja edistävän suomen kieleen ja 
kulttuuriin pohjaavien kielimallien asemaa.

Asiasanat Tekoäly, digitalisaatio, datapolitiikka, datatalous, tietotekniikka, lainvalmistelu

ISBN PDF 978-952-243-743-3 ISSN PDF 1795-4045

Julkaisun osoite https://urn.fi/URN:ISBN:978-952-243-743-3

https://urn.fi/URN:ISBN:978-952-243-743-3


Presentationsblad
20.8.2024

Demotjänst baserad på generativ AI för att stödja kommunikationsministeriets 
lagberedningsarbete
Slutrapport

Kommunikationsministeriets publikationer 2024:9
Utgivare Kommunikationsministeriet

Författare Martti Sutinen, Ida Rainio, Miikka Vuorinen
Utarbetad av Futurice Ab
Språk Finska Sidantal 79

Referat
Futurice, ett konsultföretag inom teknik och innovation, genomförde tillsammans 
med kommunikationsministeriet ett projekt där man testade att använda finska 
språkmodeller (LLM) för att stödja lagberedningen. Syftet var att effektivisera 
lagberedningsarbetet, som kräver analys av stora mängder data, och att främja Finlands 
strategiska autonomi inom AI.

I projektet skapades en demotjänst med ett användargränssnitt i form av en 
chattbot, som lagberedare kunde ställa frågor till om finsk lag. Projektet visade 
att de finska språkmodellerna ännu inte är så pass utvecklade att de kan stödja 
lagberedningsarbetet. De största utmaningarna var det begränsade kontextfönstret 
och bristen på finskspråkiga data för att finjustera modellerna. Det konstaterades 
dock samtidigt att det hos tekniken finns en klar potential för effektivisering av 
lagberedningen.

I rapporten rekommenderas att det görs investeringar i data, AI-teknik och kompetens, 
så att de finska språkmodellerna blir mer utvecklade. Tills de inhemska språkmodellerna 
har nått önskad utvecklingsnivå föreslås det att kommersiella språkmodeller används 
vid sidan av dem. Förutom att effektivisera lagberedningen anses investeringar göra 
det möjligt för Finland att föregå med gott exempel när det gäller etisk användning av 
AI inom förvaltningen. Genom att investera i inhemska och europeiska språkmodeller 
minskar Finland sitt tekniska beroende av andra länder och främjar språkmodeller som 
bygger på det finska språket och den finska kulturen.

Nyckelord Artificiell Intelligens, digitalisering (process), datapolicy, dataekonomi, informationsteknik

ISBN PDF 978-952-243-743-3 ISSN PDF 1795-4045

URN-adress https://urn.fi/URN:ISBN:978-952-243-743-3

https://urn.fi/URN:ISBN:978-952-243-743-3


Description sheet
20 August 2024

Generative AI Service Demo to Support Law Drafting of the Ministry of Transport 
and Communications
Final report

Publications of the Ministry of Transport and Communications 2024:9
Publisher Ministry of Transport and Communications

Authors Martti Sutinen, Ida Rainio, Miikka Vuorinen
Group author Futurice Oy
Language Finnish Pages 79

Abstract
Futurice, a technology and innovation consulting firm, carried out a project together 
with the Ministry of Transport and Communications to test how the Finnish large 
language models (LLMs) could support legislative drafting. The objective was to 
improve the efficiency of the legislative drafting process, which requires analysing large 
amounts of data, and to promote Finland's strategic autonomy in the field of artificial 
intelligence.

The project built a service demo with a chatbot from which the law drafters could ask 
questions about Finnish legislation. The project showed that the Finnish LLMs are not 
yet sufficiently developed to support legislative drafting. The greatest challenges were 
the limits of the context window and the lack of Finnish datasets for fine-tuning the 
models. However, the project identified clear potential for improving the efficiency of 
law drafting.

The report recommends investments in datasets, AI technology and expertise in 
order to develop the Finnish LLMs. Until the domestic LLMs reach the required level 
of maturity, using commercial models alongside them is proposed as a temporary 
solution. The report writers suggest that, as well as improving the efficiency of 
legislative drafting, such investments would enable Finland to serve as an example 
in the ethical use of AI in government. The writers see investment in domestic and 
European LLMs as a way to reduce technological dependence on other countries and to 
promote LLMs based on Finnish language and culture.

Keywords Artificial Intelligence, digitalisation, data policy, data economy, information technology

ISBN PDF 978-952-243-743-3 ISSN PDF 1795-4045

URN address https://urn.fi/URN:ISBN:978-952-243-743-3

https://urn.fi/URN:ISBN:978-952-243-743-3


Sisältö

Esipuhe.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 8

1	 Yhteenveto.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 10

2	 Johdanto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 14

3	 Kokeilun tausta ja sisältö. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 18
3.1	 Tekoälyn hyödyntäminen lainvalmistelussa.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 18
3.2	 Käyttötapauksena datasäädös. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 22
3.3	 Strategisen autonomian edistäminen suomalaisilla kielimalleilla.. . . . . . . . . . . . . . . . . . . . . . . . . 	 23
3.4	 Mahdolliset suomalaisten kielimallit. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 26
3.5	 Suomalaisten kielimallien käyttö lainvalmistelussa.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 28

4	 Tekninen toteutus.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 31
4.1	 Kielimallien arviointi ja vertailu.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 32
4.2	 Kielimallien hienosäätö. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 34

4.2.1	 Lainvalmisteludatan lisääminen ja Retrieval Augmented Generation -menetelmä. . . . . . . . . . . . . . 	 34
4.2.2	 Esikoulutettujen kielimallien haasteet kysymyksiin vastaamisessa lainvalmisteludatasta.. . . . . 	 37
4.2.3	 Kysymyksiin vastaamiseen vaihtoehdot ja hienosäätö.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 38
4.2.4	 Kielimallien vertailu hienosäädön jälkeen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 42
4.2.5	 Datan puute hienosäädön esteenä. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 46

4.3	 Infrastruktuurin rakentaminen.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 46
4.3.1	 Pilviympäristön valinta ja infrastruktuurin haasteet.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 46
4.3.2	 Palvelun arkkitehtuuri.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 48

4.4	 Palveludemon rakentaminen.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 51
4.4.1	 Palveludemon toiminta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 51
4.4.2	 Palveludemosta saatu palaute. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 53


5	 Tulokset ja johtopäätökset.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 56
5.1	 Yhteenveto projektin tuloksista. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 56
5.2	 Johtopäätökset.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 58

5.2.1	 Johtopäätökset suomalaisen datan saatavuudesta ja laadusta.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 59
5.2.2	 Johtopäätökset kielimallien rajoituksista ja kehitystarpeista. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 61
5.2.3	 Johtopäätökset kielimallien hienosäädön ja jatkuvan käytön kehitysympäristöistä. . . . . . . . . . . . . 	 64
5.2.4	 Johtopäätökset lainvalmistelutyön tehostamisesta tekoälyn avulla.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 64
5.2.5	 Johtopäätökset osaamisen ja toimintamallien kehittämisestä.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 66

6	 Jatkokehitysehdotukset. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 67
6.1	 Projektin mahdollisen skaalauksen vaiheet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 67
6.2	 Arvio tarvittavista investoinneista.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 68

7	 Lopuksi.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 70

Liite 1: Suomalaisten kielimallien koulutus, kategoriat ja data. . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 72

Liite 2: Henri Schildtin raportti. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 	 74


8

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

E S I P U H E

Pääministeri Petteri Orpon hallitusohjelmassa asetetaan tavoitteeksi, että Suomi on 
teknologinen edelläkävijä, joka hyödyntää digitalisaation ja tekoälyn mahdollisuu-
det täysimääräisesti, ihmiset mukana pitäen. Digitalisaatio, nopeat datayhteydet 
ja teknologian kehittyminen voivat oikein hyödynnettyinä merkittävästi parantaa 
ihmisten elämänlaatua, yritysten kilpailukykyä ja työvoiman saatavuutta sekä tehos-
taa julkista hallintoa. Tavoitteena on tarttua täysimääräisesti uusien teknologioiden 
ja digitalisaation tarjoamaan potentiaaliin.

Muutaman vuoden takainen generatiivisen tekoälyn rynnistys käyttäjäystävälli-
sessä muodossa ihmisten saataville tarjoaa uusia keinoja tekoälyn hyödyntämi-
seksi myös julkisella sektorilla. Panostamalla tekoälykyvykkyyksien ja -osaamisen 
lisäämiseen voimme lisätä työn mielekkyyttä ja vaikuttavuutta sekä parantaa tuot-
tavuutta, mutta myös vahvistaa ratkaisuja tarjoavien yritysten asemaa globaaleilla 
markkinoilla. Generatiivisen tekoälyn ja kielimalliteknologioiden hyödyntämisessä 
Suomen tavoitteena on lisäksi edistää kielellistä ja kulttuurista monimuotoisuutta 
tukemalla suomen ja ruotsin kielten sekä Suomessa puhuttujen vähemmistökielten 
asemaa näiden teknologioiden kehittämisessä.

Näitä tavoitteita silmällä pitäen toteutimme yhteistyössä Suomen itsenäisyyden 
juhlarahasto Sitran rahoittamana ja teknologia- ja innovaatiokonsultointiyritys 
Futuricen toimittamana kokeilun, miten suomalaiseen kielimalliin perustuvaa luo-
vaa tekoälyä voisi hyödyntää ministeriömme lainvalmistelutyön tukena. Kokeilussa 
toteutettiin suomenkieliseen kielimalliin tukeutuva palveludemo lainvalmistelijoi-
den testattavaksi sekä kattava selvitysraportti kokeilusta. Saimme kokeilusta arvo-
kasta uutta ymmärrystä tekoälyn mahdollisuuksista, mutta myös laajemmin eväitä 
EU-vaikuttamistyömme ja digitaalisen vuosikymmenen tavoitteiden puitteissa teh-
tävän politiikkakehitystyön tueksi.


9

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Liikenne- ja viestintäministeriöstä kokeiluun osallistuivat Maria Rautavirta, Tomi 
Paavola, Anna Wennäkoski, Lotta Engdahl ja Eero Roslander sekä muita ministe-
riön valmistelijoita palveludemon testaajina. Sitran osallistujina olivat Kristo Leh-
tonen, Satu Salminen ja Tarmo Toikkanen. Futuricelta kokeilun toteuttajina olivat 
Martti Sutinen, Ida Rainio, Miikka Vuorinen, Henri Schildt ja Tuomas Syrjänen. Selvi-
tysraportin ovat kirjoittaneet Martti Sutinen, Ida Rainio ja Miikka Vuorinen. Kokeilua 
arvioi Futuricen tiimiin kuulunut Aalto-yliopiston strategian professori Henri Schildt 
raportissaan, joka on kokeilun selvitysraportin liitteenä. Kokeilun selvitysraportissa 
esitetyt näkemykset ja johtopäätökset ja suositukset ovat kirjoittajien, eivätkä vält-
tämättä edusta liikenne- ja viestintäministeriön näkemyksiä.

Maria Rautavirta

Tietoliiketoimintayksikön johtaja, liikenneneuvos


10

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

1	 Yhteenveto

Suomalainen teknologia- ja innovaatiokonsultointiyritys Futurice toteutti liikenne- 
ja viestintäministeriön (LVM) tilaamana projektin, jossa kokeiltiin suomalaisten 
suurten kielimallien (large language model, LLM) hyödyntämistä lain- ja säädösval-
mistelun tukena. Tavoitteena oli oppia, voisiko Suomessa kehitettyjä, avoimeen läh-
dekoodiin perustuvia kielimalleja hyödyntää lainvalmistelutyön tehostamisessa ja 
samalla vauhdittaa Suomen strategista autonomiaa tekoälyn suhteen. Strateginen 
autonomia tekoälyn saralla tarkoittaa, että EU:ssa ja Suomessa luodaan omaan kult-
tuuriimme ja arvoihimme sopivia kielimalleja sekä dataa niiden kouluttamiseksi ja 
käyttämiseksi.

Lainvalmistelu on monimutkainen prosessi, joka vaatii valtavan taustamateriaalin 
läpikäyntiä ja erilaisten tietojen yhdistämistä. Tekoäly voi analysoida suuria tieto-
määriä nopeasti ja tarkasti, mikä voisi merkittävästi vähentää asiantuntijoiden työ-
taakkaa. Myös lainvalmistelun laatu voisi parantua, kun tekoäly käsittelisi suuria 
tietomääriä kattavasti ja vähemmän asioita jäisi lainvalmistelijan oman havainnon 
tai harkinnan varaan.

Mitä kokeilussa tehtiin?
Projektissa toteutettiin chatbot-käyttöliittymää hyödyntävä palveludemo, jolta lain-
valmistelija voi kysyä kysymyksiä suomalaisesta lainsäädännöstä. Käyttötapaukseksi 
valittiin datasäädöksen1 kansalliseen toimeenpanoon liittyvä lainvalmistelu. Data-
säädös on mittava horisontaalinen säädös, jonka valmistelun yhteydessä on käy-
tävä läpi laajasti suomalaista lainsäädäntöä ja tunnistettava ne muutostarpeet, joita 
datasäädöksen voimaantulo aiheuttaa.

Projektin tekninen toteutus sisälsi suomalaisten kielimallien arviointia ja hienosää-
töä sekä palveludemon ja sen vaatiman infrastruktuurin rakentamisen. Palveludemo 
rakennettiin lopulta kolmen suomalaisen kielimallin – Finnish GPT 3B Instructin, 
Poro 34B Chatin ja Finnish Sentence Bertin – varaan. Finnish GPT 3B Instructia ja 

1	 https://eur-lex.europa.eu/legal-content/FI/TXT/
PDF/?uri=OJ:L_202302854&qid=1716756952571

https://eur-lex.europa.eu/legal-content/FI/TXT/PDF/?uri=OJ:L_202302854&qid=1716756952571
https://eur-lex.europa.eu/legal-content/FI/TXT/PDF/?uri=OJ:L_202302854&qid=1716756952571


11

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Poroa 34B Chatia käytettiin rinnakkaisina vaihtoehtoina tekstin luomiseen, Finnish 
Sentence Bertiä puolestaan tekstien vertailuun ja hakuun. Palveludemon haku koh-
distui 20 suomalaiseen lakikokonaisuuteen, jotka liittyvät tiiviisti datasäädökseen. 
Palveludemossa ei voitu hyödyntää koko Suomen lainsäädäntöä Finlex-palvelun 
käyttöehtojen sisältämien rajoitusten vuoksi.

Mitä kokeilussa opittiin?
Projektissa luotiin merkittävää ymmärrystä suomalaisten kielimallien soveltuvuu-
desta lainvalmisteluun ja näkemystä siitä, mitä niiden kehittämiseksi tulisi jatkossa 
tehdä, jotta ne voisivat tehostaa lainvalmistelua. Kokeiltujen suomalaisten kielimal-
lien suorituskyky ei projektin läpiviennin aikana vielä ollut riittävällä tasolla. Ne eivät 
kyenneet hakemaan riittävästi tietoa kerralla eivätkä tyydyttävällä tavalla tuotta-
maan keskusteluja. Erityisen haasteen asetti, että kokeiltujen kielimallien konteks-
ti-ikkunan eli kerralla käsiteltävän tekstin määrä oli vain 2 048 tokenia (noin 4–5 
sivua), mikä on selkeästi liian vähän suomalaisen lainsäädännön läpikäyntiin. Kokei-
lussa luotu palveludemo ei siis juuri tehostanut lainvalmistelutyötä.

Kokeilussa kuitenkin opittiin, mihin Suomessa kannattaa seuraavaksi panos-
taa tämän asiantilan parantamiseksi. Koska esikoulutetut kielimallit eivät sellaise-
naan soveltuneet käyttöön, hienosäädettiin kielimalleja vastaamaan kysymyksiin. 
Näimme, että GPU-kapasiteettia on syytä varata pilvipalveluissa etukäteen, koska 
sopivien GPU-resurssien saatavuus vaikutti projektissa kielimallien hienosäädön laa-
tuun ja aikatauluun. Tärkein haaste tarkan kysymyksiin vastaamisen näkökulmasta 
oli kuitenkin suomenkielisen hienosäätödatan puute. Jouduimme käyttämään 
konekäännettyä dataa, mikä heikensi kysymyksiin vastaamisen laatua. Tarvitsemme 
enemmän avoimesti jaettua suomenkielistä dataa, jonka avulla esikoulutetuista kie-
limalleista voi hienosäätää hyödyllisiä käytännön sovelluksiin.

Jatkossa on syytä parantaa lainsäädäntödatan käyttöehtoja ja saatavuutta ja tehos-
taa kielimallien käsittelemän tietomäärän konteksti-ikkunaa; tokenien pituudessa 
olisi päästävä kymmeniin tuhansiin tai jopa miljoonaan tokeniin. Tämä mahdol-
listaisi luotettavien vastausten tuottamisen RAG-menetelmällä ja pitkiin lähdeai-
neistoihin viitaten. Kielimalliteknologia kehittyy tällä hetkellä nopeasti, joten tämä 
tilanne on mahdollista saavuttaa muutamissa vuosissa.

Tekoälyn tuominen osaksi lainvalmistelua on kuitenkin hyvin tärkeää tehtävän vaa-
tivuuden takia. Niin kauan kuin suomalaisia kielimalleja vasta kehitetään tehok-
kaammiksi, kannattaa tätä asiantuntijatyötä tukea tehokkaiden kansainvälisten 
kielimallien avulla. Ne voidaan korvata suomalaisilla kielimalleilla heti, kun ne saa-
vuttavat lainvalmistelutyöhön vaadittavan kypsyystason.


12

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Projektissa todettiin myös, että lainvalmistelua voisi tehostaa tekoälyn avulla ken-
ties tehokkaammin muilla tavoin kuin henkilökohtaisen chat-työkalun avulla. “Teks-
tiltä kyselemisen” sijaan lainvalmistelija hyötyisi enemmän työn systemaattisuutta 
varmistavasta ja sidosryhmien välistä kanssakäymistä tukevasta ratkaisusta. Toimiva 
ratkaisu voisi olla lainvalmisteluprosessiin räätälöity työkalu, jossa hyödynnettäisiin 
automaattista lakitekstin prosessointia ja taustatutkimusta.

Mitä seuraavaksi suositellaan tehtäväksi?
Jotta tekoäly voi aidosti tehostaa ja parantaa lainvalmisteluprosessia Suomessa, tar-
vitaan investointeja dataan, tekoälyteknologiaan ja osaamiseen sekä suomalaisten 
kielimallien jatkuvaa kehitystyötä. Tekoälyn kehittämisessä on syytä edetä niin, että 
investoidaan kaupallisen tekoälyn käyttöönottoon ja hienosäätöön lainvalmistelun 
käyttöyhteydessä, jotta työtä voidaan tehostaa heti. Samalla panostetaan strategi-
sen autonomian edistämiseen vauhdittaen suomalaisten kielimallien esikoulutus- ja 
hienosäätökäyttöön tarkoitetun datavarannon keräämistä ja jakamista.

Investointitarpeet lainvalmisteluun tarvitseman suomalaisten kielimallien ja tekoä-
lyn kehittämiseen ja käyttöön voidaan jakaa karkeasti näin:

1.	 Suomalaista yhteiskuntaa koskevan datan kerääminen, luominen ja 
avoin jakaminen (10–50 milj. euroa vuosittain)

2.	 Uusien esikoulutettujen (pretrained) ja hienosäädettyjen (finetuned) 
mallien laskentatehon ja jatkuvan palvelun infrastruktuurin hankinta 
(10–50 milj. euroa vuosittain)

3.	 Tekoälyosaamisen ja lainvalmistelun toimintamallien kehittäminen 
(5–25 milj. euroa)

Investointina tämä vastaisi noin 2–12 prosenttia valtion nykyisistä ICT-menoista.

Mahdollinen tapa skaalata projektia lainvalmistelun tarpeisiin olisi edetä rinnakkain 
suomalaisten kielimallien kehittämisessä ja kaupallisten mallien käyttöönotossa. 
Esimerkiksi Poro 34B Chat -mallia voitaisiin parantaa ja kouluttaa toimialakohtaisella 
datalla, mikä parantaisi sen kykyä tuottaa lakitekstiä. Samalla kaupallisen mallin, 
kuten GPT-4, käyttöönotto mahdollistaisi nopeamman ja kustannustehokkaamman 
ratkaisun, tukien lainvalmistelijoita välittömästi. Projekti vaatisi riittävän infrastruk-
tuurin laajentamisen ja jatkuvaa käyttäjätukea. Kokonaiskustannukset voisivat vaih-
della sadoista tuhansista euroista yli miljoonaan euroon ja projektin toteutus voisi 
kestää 1–2 vuotta.


13

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Tekoälyn hyödyntäminen hallinnossa on kansainvälisesti vielä alkuvaiheessa. Suomi 
voisi toimia erinomaisena testilaboratoriona tekoälyn eettisessä hyödyntämisessä, 
mikäli asiaan päätetään panostaa nyt. Tämän projektin tuomat opit ja jatkoaskeleet 
voivat asettaa Suomen johtavaksi maaksi tekoälypohjaisessa lainvalmistelussa tarjo-
ten samalla mallin muille seurattavaksi.


14

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

2	 Johdanto

Projektin lähtökohtana oli luoda julkisen sektorin työntekijöiden käyttöön gene-
ratiivista eli luovaa tekoälyä hyödyntävä työkalu, joka perustuu suomalaiselle 
kielimallille.

Lainvalmistelu on erittäin vaativaa ja kuormittavaa työtä, johon kuuluu valtavan 
suuren tietomäärän hankinta, läpikäynti ja synnyttäminen. Työtä vaikeuttaa enti-
sestään se, että tarvittava taustamateriaali on hajautettu useisiin tietokantoihin ja 
käytetty terminologia on vaihtelevaa. Lisäksi prosessista tulee jatkuvasti yhä moni-
mutkaisempi, kun tiedon, aiemman lainsäädännön ja sidosryhmien määrä kasvaa. 
Tekoälyn hyödyntäminen voisikin merkittävästi tehostaa lainsääädäntöprosessia ja 
parantaa lainvalmistelun laatua.

Samaan aikaan, kun tekoälyratkaisut yleistyvät ja niitä sovitellaan yhä useampiin 
käyttötapauksiin, Suomessa ja Euroopassa on alettu keskustella EU:n strategisen 
autonomian vahvistamisesta ja riippuvuuden vähentämisestä yhdysvaltalaisista 
tekoälyratkaisuista. Esimerkiksi Sitra on ehdottanut, että EU-maat vahvistaisivat 
kykyään toimia riippumattomasti luovan tekoälyn kehittämisessä ja kehittäisivät 
itse kilpailukykyisiä ja luotettavia eurooppalaisia kielimalleja.2 Erityisesti eurooppa-
laisten kielimallien suosimista voitaisiin odottaa julkisen sektorin organisaatioilta.

Liikenne- ja viestintäministeriö (LVM) halusi vastata näihin kahteen haasteeseen. 
Se pyysi teknologia- ja innovaatiokonsultointiyritys Futuricea kokeilemaan, voisiko 
lainvalmistelun tueksi luoda suomalaiseen kielimalliin perustuvan tekoälyratkai-
sun. Tarkoituksena ei ollut vielä luoda valmista palvelua, vaan kehittää Proof-of-
Concept -tasoinen palveludemo, jolla suomalaisen kielimallin käyttöä voi kokeilla 
yhdessä selkeästi rajatussa käyttötapauksessa. Tarkoitus oli ennen kaikkea oppia 
lisää suomalaisten, avoimella lisenssillä julkaistujen kielimallien suorituskyvystä ja 
jatkokehitystarpeista lainvalmistelu käyttöyhteydessä. Näin voitaisiin paitsi kehit-
tää suomalaisia kielimalleja entisestään ja tehdä niitä yhä houkuttelevimmiksi myös 
yksityiselle sektorille sekä edistää strategista autonomiaa. Toki projektin tavoitteena 
oli myös, että ratkaisu tehostaisi lainvalmistelutyötä.

2	 https://www.sitra.fi/julkaisut/euroopan-johtoasema-datataloudessa-varmistettava/

https://www.sitra.fi/julkaisut/euroopan-johtoasema-datataloudessa-varmistettava/


15

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Palveludemon käyttötapaukseksi oli jo ennen projektin alkamista valittu datasää-
döksen kansalliseen toimeenpanoon liittyvä lainvalmistelu. Datasäädös on laaja 
horisontaalinen säädös, jonka kansallisen toimeenpanon valmistelu on erittäin työ-
lästä. Datasäädöstä valmisteltiin keväällä 2024, mikä tarkoitti sitä, että palvelude-
moa päästiin heti kokeilemaan osana käytännön lainvalmistelutyötä ja sen hyödyt 
ja puutteet tulivat heti esiin. Käyttötapaus kielimallien soveltamiseen oli haastava 
johtuen datasäädöksen laajuudesta ja sen kansallisen toimeenpanon lainvalmiste-
lun prosessin monimutkaisuudesta.

Taulukko 1.  Projektin tavoitteet ja rajaukset

Projektin tavoitteet Projektin rajaukset

Lainvalmistelun tehostaminen 
tekoälytyökalulla

Tuetaan lainvalmistelijaa hahmottamaan, 
mitä toimenpiteitä datasäädöksen kansallinen 
toimeenpano vaatii.

Mitä kokeillaan?

Suomalaisen kielimallin eli suurilta 
osin suomen kielellä koulutetun kieli­
mallin hyödyntäminen lainvalmistelua 
tukevassa tekoälytyökalussa.

Strategisen autonomian edistäminen

Hyödynnetään ja kehitetään suomalaista 
kielimallia, jotta vähennetään riippuvuutta 
kansainvälisistä kaupallisista palveluista. 
Julkaistaan tuotos avoimena lähdekoodina, 
jotta se edistäisi muita TKI-panostuksia 
suomalaisiin kielimalleihin.

Missä tehtävissä kokeillaan?

Lainvalmisteluprosessin 
perusvalmistelu

Ymmärryksen lisääminen suomalaisista 
kielimalleista lainvalmistelun yhteydessä

Ymmärretään, miten suomalaiset kielimallit 
toimivat, miten työkalun kehitys tulee 
toteuttaa, onko työkalun avulla mahdollista 
saavuttaa tavoitellut hyödyt ja kannattaako sitä 
jatkokehittää.

Millä aineistolla kokeillaan?

EU:n datasäädös ja siihen liittyvä 
Suomen lainsäädäntö.

Koska kyseessä oli monitieteellistä osaamista vaativa projekti, sitä varten koottiin 
projektiryhmä, joka koostui data-asiantuntijasta (Martti Sutinen, Futurice), ohjelmis-
tokehittäjästä (Miikka Vuorinen, Futurice) ja strategisesta muotoilijasta (Ida Rainio, 
Futurice). Projektiryhmää ohjasivat Tomi Paavola, Anna Wennäkoski ja Maria Rauta-
virta Liikenne- ja viestintäministeriöstä. Projektiin osallistui aktiivisesti myös Sitra, 
jota edustivat Satu Salminen ja Kristo Lehtonen. Projektiin osallistui satunnaisesti 
myös muita kyseisten organisaatioiden edustajia.


16

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Projekti koostui seuraavasta neljästä vaiheesta:

1. Strategisen autonomian tavoitteet
Vaiheen tavoitteena oli ymmärtää paremmin lainvalmistelun tehostamiseen ja Suo-
men strategiseen autonomiaan liittyviä tavoitteita sekä arvioida erilaisten kieli
mallien soveltuvuutta hankkeeseen.

2. Lainvalmistelun tarpeiden ymmärrys
Vaiheen tavoitteena oli ymmärtää käytännössä strategisen autonomian linkkiä 
tekoälyyn ja lainsäädäntöön sekä lainvalmistelijan työtä ja siinä olevia haasteita.

3. Palveludemon luominen ja menetelmien vertailu
Konkreettisen työkalun rakentaminen edellisessä vaiheessa määriteltyihin lainval-
mistelijan työn haasteisiin ja käyttökelpoisten toteutustapojen kartoitus ja valinta.

4. Tekoälyn kokeilut lainvalmistelussa & vertaisarviointi
Palveludemon validointi lainvalmistelijoiden kokemuksen sekä akateemisen tut-
kimuksen kautta ja tulevaisuuden suunnan määrittely strategisen autonomian 
edistämiseksi.

Projektin eteneminen on esitelty alla olevassa kuvassa.

Kuvio 1.  Projektin eteneminen


17

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Tässä raportissa kuvataan kokeilun aikana saadut opit ja havaitut jatkokehitystar-
peet. Raportin ensimmäinen luku taustoittaa kokeilun sisältöä. Toinen luku kertoo 
projektin teknisestä toteutuksesta. Kolmas luku sisältää kokeilun tulokset ja niistä 
vedettävät johtopäätökset. Neljäs luku puolestaan antaa ehdotuksia suomalaisten 
kielimallien jatkokehitykseen niin, että niitä voitaisiin entistä paremmin hyödyntää 
lainvalmistelukontekstissa.


18

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

3	 Kokeilun tausta ja sisältö

Tässä luvussa taustoitetaan, miksi tekoälyä haluttiin hyödyntää lainvalmiste-
lussa, miksi projektissa haluttiin käyttää ratkaisua, joka edistää strategista auto-
nomiaa ja mitä suomalaisia kielimalleja projektissa tarkasteltiin.

3.1	 Tekoälyn hyödyntäminen lainvalmistelussa
Lainvalmistelu on työläs ja pitkäkestoinen prosessi, joka periytyy jo itsenäisyyden 
alkuajoilta ja jota tietotekniikan kehitys ei ole juurikaan muuttanut. Prosessin aikana 
lainvalmistelija käy läpi tuhansia sivuja esimateriaaleja ja summaa tiedot asiakir-
jaan, jonka kansanedustajat saavat päätöksenteon pohjaksi. Prosessi on vaikeutu-
nut vuosi vuodelta, kun lainsäädännön ja prosessiin osallistettavien sidosryhmien 
määrä on lisääntynyt – ja työ tulee vain vaikeutumaan tulevaisuudessa, kun määrä 
kasvaa entisestään.

Projektia varten tehdyt lainvalmistelijoiden taustahaastattelut osoittivat, että lain-
valmistelussa olisi paljon mahdollisuuksia tehostaa työtä tekoälyn avulla. Samalla 
voitaisiin parantaa lainvalmistelutyön laatua ja lisätä työn mielekkyyttä.

“Aika paljon käytetään Ctrl+F-komentoa ja yritetään miettiä, mitä sanoja 
joku muu on joskus käyttänyt.”

Haastateltu lainvalmistelija

Oheisessa listassa on lueteltu, miten tekoäly voisi tehostaa lainvalmistelutyötä. Lista 
ei ole täydellinen, mutta antaa käsityksen siitä, että tekoälystä voi olla hyötyä hyvin 
erilaisten työvaiheiden tehostamiseksi.


19

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Tietolaatikko. TEKOÄLYN POTENTIAALISIMMAT HYÖDYNTÄMISKOHTEET 
LAINVALMISTELUSSA

Taustatutkimuksen nopeuttaminen

•	 Tekoäly voi analysoida suuria määriä dataa, kuten tutkimuksia, 
kansainvälisiä säädöksiä ja tilastoja, nopeasti ja tarkasti.

•	 Tekoäly voi analysoida ja tulkita lakitekstejä, hallituksen esityksiä 
ja muuta taustamateriaalia ja tunnistaa niiden keskeiset teemat ja 
mahdolliset yhteydet.

•	 Tekoäly voi vertailla tiettyjä säädöksiä keskenään ja tunnistaa 
ristiriitaisuuksia.

Lakitekstin luomisen nopeuttaminen

•	 Tekoäly voi auttaa luonnostelemaan lakiehdotuksia mallintamalla 
olemassa olevia lakitekstejä.

•	 Tekoäly voi auttaa kirjoittamaan tiettyjä osioita, esim. johtolauseita 
yhdenmukaisesti samalla tyylillä. (Johtolausekoneen rakentaminen 
onkin tunnistettu erilliseksi hankeideaksi).

•	 Tekoäly voi auttaa standardoimaan terminologiaa, mikä 
yhdenmukaistaisi kompleksista lainsäädäntöä.

Vuorovaikutuksen tehostaminen sidosryhmien kanssa

•	 Tekoäly voi luoda tietopankkeja lausuntokierroksen tueksi.

•	 Tekoäly voi analysoida sidosryhmien lausuntokierroksella antamaa 
palautetta.

•	 Tekoäly voi analysoida suuren määrän kansalaispalautetta, 
sosiaalisen median keskusteluja ja kyselytutkimuksia, jotta 
lainvalmistelijat saavat paremman käsityksen kansalaisten 
näkemyksistä ja huolenaiheista.


20

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Lain seurausten arviointi

•	 Tekoäly voi ennustemallejen avulla ennakoida lakiin liittyviä 
mahdollisia ongelmia ja esittää niihin ratkaisuehdotuksia.

•	 Tekoäly voi simuloida lakiehdotusten yhteiskunnallisia vaikutuksia 
analysoimalla historiallista dataa ja ennustamalla eri skenaarioita.

Lainvalmistelun käyttötapausten onnistunut toteutus edellyttää osaa-
vaa käyttäjää, käytettävän datan saatavuutta ja valittuihin tehtäviin 
sopivia kielimalleja tai tekoälyä. Vaikka projektissa kokeiltu teknologia 
ei sovellu näiden käyttötapausten toteuttamiseen, on teknologian kehi-
tys ja suunta rohkaiseva ja suuren osan näistä käyttötapauksista voinee-
kin tulevaisuudessa toteuttaa. Esimerkiksi Thomson Reuters Instituten 
raportin mukaan lakialan käyttötapauksia on jo toteutettu monipuo-
lisesti ja melkein puolet julkisen sektorin lainvalmistelun ja tuomiois-
tuinten ammattilaisista koki, että työssä pitäisi hyödyntää generatiivista 
tekoälyä. Tietolaatikko päättyy.

Lyhyessä ja nopeassa projektissa on tehtävä rajauksia, ja tässä projektissa oli jo 
ennen sen alkua päätetty, että tekoälyn hyödyntämisessä halutaan keskittyä lain-
säädännön perusvalmisteluun (lainvalmistelun prosessioppaassa kuvattu vaihe 
23) ja että projektissa halutaan luoda suomalaisia kielimalleja hyödyntävä 
työkalu.

”Kun laajoja kielimalleja hyödynnetään työkaluna, saadut hyödyt vaihte-
levat laajasti työtehtävän sisällön mukaan ja riippuvat käyttäjän halusta 
ja taidosta hyödyntää tekoälyä. Työkalu voi vähentää ohjelmoinnissa ja 
asiantuntijatyössä kuluvaa aikaa jopa alle puoleen, ja laajemmin tieto-
työssä työtehtävien viemä aika voi laskea parhaimmillaan noin 20–30 
prosenttia.”

Henri Schildt, strategian professori

3	 http://lainvalmistelu.finlex.fi/

http://lainvalmistelu.finlex.fi/


21

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Projektiryhmä haastatteli ennen työkalun teknistä toteutusta lainvalmistelijoita 
syvällisesti ymmärtääkseen, miten työtä käytännössä tehdään ja mitä työkalun 
pitäisi tehdä. Taustahaastattelut osoittivat, että perusvalmistelun työläyteen ja työn 
lopputuloksen laatuun vaikuttaa moni tekijä, ja niistä vain pieni osa voidaan rat-
kaista ainoastaan tekoälyä hyödyntävällä työkalulla. Alla oleva kuva kiteyttää pro-
jektissa havaitut haasteet sekä niihin liittyvät syy-seuraussuhteet. Kuva osoittaa 
myös, että vain osaa tunnistetuista haasteista kokeiltiin ratkaista projektissa.

Tämä tarkoittaa, että vaikka luotava työkalu toimisi täydellisesti, parasta mahdollista 
lopputulosta ei voida saavuttaa, ellei tehdä myös muita juurisyitä korjaavia toimen-
piteitä, kuten uudelleenmuotoilla lainvalmistelun prosessia tai kehitetä yhteistyön 
kulttuuria. Kielimallien ja tekoälyn datan ja teknologian kehittämisen rinnalla on tär-
keää investoida kulttuuriin, yhteisiin toimintamalleihin ja osaamiseen.

Kuvio 2.  Lainsäädäntötyön haasteet


22

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Tässä projektissa päätettiin keskittyä luomaan ratkaisua suuren aineistomäärän 
aiheuttamaan hankaluuteen ja lakitekstien sisällön monimuotoisuuteen niin, että 
työkalu vastaa lainvalmistelijan sille esittämiin Suomen lainsäädäntöä koskeviin 
kysymyksiin chat-käyttöliittymän kautta. Käyttötapaukseksi oli jo ennen ennen pro-
jektin alkamista valittu datasäädös. Se esitellään tarkemmin seuraavassa luvussa.

3.2	 Käyttötapauksena datasäädös
EU:n datasäädöksen kansallisen toimeenpanon lainvalmistelu oli tekoälyn hyödyn-
tämisen käyttötapauksena kiinnostava, sillä kyseessä on hyvin laaja horisontaali-
nen säädös, jonka valmisteluprosessi on erittäin työläs. Datasäädös on itsessään jo 
mittava – yli 70 sivua pitkä – ja se liittyy jollain tavalla hyvin moneen lakiin. Asian 
kompleksisuuden takia kaikki työtä helpottavat ja tehostavat työkalut ovat aidosti 
tarpeellisia.

Lainvalmistelussa täytyy selvittää, miten datasäädös suhteutuu olemassa olevaan 
lainsäädäntöön ja mitä muutostarpeita se aiheuttaa. Lainvalmistelija joutuu käy-
mään läpi erittäin suuren määrän juridisia selvityksiä, hallituksen esityksiä ja muita 
asiakirjoja. Lisäksi dataa kuvaava terminologia on vaihtelevaa. ”Dataan” voivat vii-
tata esimerkiksi sellaiset termit kuin tiedonhallinta, tietovarannot, rekisterit, tieto-
kannat, tiedot ja asiakirjat.

Datasäädöksen kansallisen lainvalmistelun aikataulu oli myös projektin kannalta 
otollinen. Prosessi alkoi datasäädöksen hyväksymisestä 27.11.2023, ja tavoitteena 
on saada arviomuistio valmiiksi vuonna 2024.4 Valmistelun on määrä johtaa hallituk-
sen esitykseen kansallisen lainsäädännön muutoksista ja lain vahvistamiseen ennen 
datasäädöksen soveltamisen alkamista 12.9.2025.

Palveludemon rakentamisen projekti käynnistyi vuoden 2023 joulukuussa ja pal-
veludemon ensimmäinen versio valmistui helmikuussa 2024. Demo siis saatiin val-
miiksi valmisteluvaiheen aikana ja näin sitä voitiin kokeilla osana aitoa käytännön 
työtä.

Datasäädökseen käyttötapauksena liittyi kuitenkin myös haasteita, ja ne liittyi-
vät juuri säädöksen kompleksisuuteen. Kyseessä on mittava ja monimutkainen 
säädös, johon liittyy vähintään kymmeniä muita lakeja. Projektissa lähdettiinkin 

4	 https://www.lausuntopalvelu.fi/FI/Proposal/Participation?proposalId=61e5ce77-ffe5-4a
1e-9ed3-b1888749c601

https://www.lausuntopalvelu.fi/FI/Proposal/Participation?proposalId=61e5ce77-ffe5-4a1e-9ed3-b1888749c601
https://www.lausuntopalvelu.fi/FI/Proposal/Participation?proposalId=61e5ce77-ffe5-4a1e-9ed3-b1888749c601


23

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

kokeilemaan, voiko suomalaisia kielimalleja hyödyntää tällaisessa käyttöyhteydessä 
ja mitä jatkokehitystä vaaditaan siihen, että niitä voitaisiin tulevaisuudessa hyödyn-
tää yhä paremmin lainvalmistelussa.

Tietolaatikko. DATASÄÄDÖS PÄHKINÄNKUORESSA

Datasäädös ottaa kantaa seuraaviin asioihin:

•	 Datan avaaminen ja dataan pääsy

•	 Datan liikkuvuus yli sektorirajojen

•	 Viranomaisen pääsy yksityisen sektorin dataan

•	 Datan yhteentoimivuus

•	 Pilvipalvelujen vaihdettavuus

•	 Datan sääntelyyn ja käyttöön liittyvät mahdollisuudet ja riskit Tietolaatikko päättyy.

3.3	 Strategisen autonomian edistäminen suomalaisilla 
kielimalleilla

Projektin yhtenä tavoitteena oli hyödyntää suomalaista tai eurooppalaista kielimal-
lia ja näin edistää strategista autonomiaa. Strateginen autonomia tarkoittaa EU:n 
ja Suomen kykyä toimia riippumattomasti suhteessa muihin valtioihin, erityisesti 
Yhdysvaltoihin ja Kiinaan.5 EU haluaa tavoitella tilannetta, jossa se on omavarainen 
tulevaisuuden kilpailukykynsä kannalta oleellisten tekijöiden suhteen. Yksi näistä 
on generatiivinen tekoäly.

Tavoitteena on, että EU:ssa pystytään itse kehittämään, käyttämään ja hallitsemaan 
tekoälyteknologiaa. Näin halutaan varmistaa, että EU pysyy mukana globaalissa 
teknologiakilpailussa, että EU-maissa tuotettua dataa käytetään turvallisesti ja että 
tekoälyn suhteen noudatetaan eurooppalaisia eettisiä ja vastuullisia arvoja.

5	 https://valtioneuvosto.fi/documents/10616/152531482/EUn+strateginen+autonomia.
pdf/5f42ead7-4e56-fdeb-47a9-be41cb0daa45/EUn+strateginen+autonomia.pdf

https://valtioneuvosto.fi/documents/10616/152531482/EUn+strateginen+autonomia.pdf/5f42ead7-4e56-fdeb-47a9-be41cb0daa45/EUn+strateginen+autonomia.pdf
https://valtioneuvosto.fi/documents/10616/152531482/EUn+strateginen+autonomia.pdf/5f42ead7-4e56-fdeb-47a9-be41cb0daa45/EUn+strateginen+autonomia.pdf


24

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Tärkeää on myös se, että vähentämällä riippuvuutta globaaleista digijäteistä EU:ssa 
ja Suomessa voidaan vaikuttaa tekoälystä syntyviin kustannuksiin mahdollisim-
man suorasti. Samalla halutaan välttää investointien valuminen EU:n ulkopuolelle. 
Visiona on, että kun eurooppalaiset ja suomalaiset kielimallit kehittyvät, sekä jul-
kisen sektorin toimijat että yksityiset yritykset alkavat rakentaa niiden päälle inno-
vaatioita, jotka toimivat hyvin juuri tässä yhteiskunnassa. Tämä puolestaan lisää 
niiden motivaatiota kohdistaa TKI-panostuksiaan nimenomaan tällaisten kielimal-
lien kehittämiseen.

Strategiseen autonomiaan liittyy kuitenkin myös epäselvyyksiä. Ensinnäkin käsite 
voidaan ymmärtää eri tavoin eri EU-maissa, ja se voi muuttua ajan myötä. Toisek-
seen on epäselvää, merkitseekö strateginen autonomia EU-tasoisen autonomian vai 
maakohtaisen autonomian kehittämistä. EU-maissa on tähän myös erilaista haluk-
kuutta. Kolmanneksi strategisen autonomian liian voimakas korostaminen saattaa 
myös sulkea Suomea tai EU:ta ulkopuolelle globaalissa kilpailussa.

Projektiryhmä ja työhön osallistuneet ministeriön edustajat kävivät projektin 
alussa keskustelua strategisen autonomian edistämisen merkityksestä ja päätyivät 
määrittelemään, että käytännössä strategisen autonomian edistäminen tekoälyn 
saralla tarkoittaa, että Suomessa luodaan omaan kulttuuriimme ja arvoihimme 
sopivia, avoimeen lähdekoodiin perustuvia kielimalleja sekä dataa niiden 
kouluttamiseksi ja käyttämiseksi.

Projektilla haluttiin edistää nimenomaan Suomen oman strategisen auto-
nomian vahvistumista.

Projektiryhmä tunnisti, että oma kielimalli on peruslähtökohta suomalaisuuden 
eloonjäämiselle digitalisoituvassa maailmassa eikä kukaan muu maailmassa kuin 
Suomi huolehdi suomalaisen kielimallin olemassaolosta. Julkisen sektorin toimi-
joilla todettiin olevan hyvin tärkeä rooli suomalaisten kielimallien kehittämisen 
edistäjänä.

Suomalaisen kielimallin käytön oletettiin sisältävän seuraavat edut verrattuna kan-
sainvälisiin, tiedetysti tehokkaampiin kielimalleihin:

	y Käytön kustannus on hallittavissa.
	y Aineistot ovat läpinäkyviä.
	y Malli osaa oikeanlaista suomen kieltä.
	y Malli tukee suomen kielen asemaa.
	y Malli edistää suomalaisten datalukutaitoa.


25

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Projektiryhmä tunnisti myös valintaan liittyviä avoimia kysymyksiä ja riskejä. Näitä 
ovat:

	y Miten kielimalleja ja niiden tarvitsemaa dataa eli kieliaineistoa 
ylläpidetään?

	y Miten avoimen lähdekoodin mallien tarkkuus vertautuu kaupallisiin 
ratkaisuihin?

	y Syntyykö suomalaisten kielimallien kehittämisen ympärille yksityisesti 
rahoitettua kestävää liiketoimintaa vai onko niiden elinehtona julkinen 
rahoitus?

Tietolaatikko. Tekoälyyn liittyvän strategisen autonomian edistämisen hyödyt 
Suomessa:

•	 Vaikutetaan tekoälystä aiheutuviin kustannuksiin.

•	 Mahdollistetaan uusien innovaatioiden syntyminen.

Miten tekoälyyn liittyvää strategista autonomiaa edistetään 
Suomessa?

•	 Tehdään kokeiluja, joissa hyödynnetään avoimeen lähdekoodiin 
perustuvia suomalaisia kielimalleja.

•	 Jatkokoulutetaan kielimalleja Suomessa tuotetulla suomenkielisellä 
datalla.

•	 Avataan suomenkielistä dataa, jotta mallien jatkokouluttaminen on 
mahdollista.

•	 Edistetään yksityisiä TKI-panostuksia suomalaisten kielimallien 
kehittämiseksi. Tietolaatikko päättyy.


26

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

3.4	 Mahdolliset suomalaisten kielimallit

Projektissa sovittiin käytettävän suomalaista kielimallia, mutta ennen mallin valin-
taa oli määriteltävä, mitä suomalaisella kielimallilla oikeastaan tarkoitetaan – riit-
tääkö, että malli tukee suomen kieltä vai pitääkö mallin olla Suomessa kehitetty. 
Projektiryhmä päätyi keskustelun kautta seuraaviin määritelmiin suomalaisesta 
kielimallista:

	y Malli on koulutettu pääosin tai suurilta osin suomen kielellä.
	y Mallin koulutus on tapahtunut Suomessa tai vähintään Euroopassa.
	y Malli osaa oikeaoppista suomen kieltä.
	y Mallin taustalla on tieteellinen vertaisarviointi.
	y Malli ja sen data on julkaistu avoimella lisenssillä.

Projektiryhmä tunnisti, että tulevaisuudessa lainvalmistelussa tarvittaneen tukea 
myös monikielisyydelle, kuten suomenruotsille, mutta tässä vaiheessa haluttiin 
käyttää kielimallia, joka tuottaa oikeaoppista suomea ja joka ymmärtää suomalai-
sen yhteiskunnan toimintaympäristöä.

Luotuja kriteereitä vastaavia, riittävän tunnettuja ja avoimen lisenssin kielimalleja 
oli saatavilla vain vähän. Alla luetellut vaihtoehdot täyttivät kriteerit:

	y TurkuNLP/gpt3-small (kutsutaan tässä raportissa myös nimellä “Finnish 
GPT Small”)

	y TurkuNLP/gpt3-finnish-large (“Finnish GPT Large”)
	y TurkuNLP/gpt3-finnish-3B (“Finnish GPT 3B”; tämä toimi pohjana 

lopulta valitulle mallille)
	y LumiOpen/Poro-34B (“Poro”)

	− Projektin loppuvaiheessa julkaistiin myös hienosäädetty Poro 34B 
Chat, joka ei ehtinyt mukaan alkuvaiheen testaukseen.

	y TurkuNLP/sbert-cased-finnish-paraphrase (“Finnish Sentence BERT”)


27

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Tietolaatikko. KIELIMALLIT PÄHKINÄNKUORESSA

TurkuNLP/gpt3-finnish, tuttavallisemmin Finnish GPT, on Turun yli-
opiston luonnollisen kielen prosessoinnin tutkimusryhmän (TurkuNLP) 
kehittämä suomenkielinen suuri kielimalli, joka perustuu GPT-3-arkki-
tehtuuriin. Se on esikoulutettu suomalaisella LUMI-supertietokoneella. 
Finnish GPT on tunnettu myös nimellä FinGPT, minkä voi sekoittaa 
samannimiseen rahoitusalan kielimalliin, joten käytämme tässä rapor-
tissa nimeä Finnish GPT. Kielimallista on saatavilla on useita eri kokoja, 
186 miljoonan ja 13,3 miljardin parametrin välillä.

LumiOpen/Poro-34B on Suomessa kehitetty monikielinen, ei pelkäs-
tään suomenkielinen kielimalli. Se osaa suomen lisäksi englantia ja koo-
dia. Poro perustuu Finnish GPT ja BLOOM -arkkitehtuureihin, ja mallissa 
on 34 miljardia parametria. Lisäksi siinä on hyödynnetty ALiBi -menetel-
mää, mikä mahdollistaa teoriassa pidemmän konteksti-ikkunan ekstra-
poloinnin kautta. Myös Poro on esikoulutettu LUMI:lla. Poro on tuotettu 
TurkuNLP:n, yksityisen tekoälylaboratorio SiloAI:n ja High Performance 
Language Technologies yhteistyönä.

TurkuNLP/sbert-cased-finnish-paraphrase eli Finnish Sentence BERT 
on niinikään TurkuNLP:n kehittämä suuri kielimalli. Malli perustuu BERT 
-arkkitehtuuriin ja eroaa Finnish GPT ja Poro kielimalleista sikäli, että 
sen erikoisosaaminen on tekstin merkityksen ymmärtäminen ja saman-
kaltaisten lauseiden tunnistaminen.

Tiivistettynä Finnish GPT ja Poro ovat tekstien luontiin sopivia malleja, 
Finnish Sentence BERT puolestaan on tekstien vertailuun ja hakuun tar-
koitettu malli. Tietolaatikko päättyy.


28

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Projektin aikana syntyi keskustelua tieteellisestä vertaisarvioinnista ja avoimuu-
desta. Tarkastelusta suljettiin ulos joitain avoimesti jaettuja, mutta ei tieteellistä ver-
taisarviointia läpikäyneitä, datoja ja suomalaisia kielimalleja kuten Llama 7B Instruct 
for Finnish -kielimallin. Toivomme, että tulevaisuudessa kielimallien kehittämiseen 
on helppo osallistua, ja että yhä useampi kielimalli ja kouluttamiseen data ja arvi-
ointiin käytetty data julkaistaan aidosti avoimella lisenssillä ja helppokäyttöisesti.

Esimerkkejä avoimista lisensseistä ovat Creative Commons CC0, MIT License ja 
Apache License 2.0. Poron lisenssi on Apache 2.0, ja sen käyttämä data on listattu 
avoimesti. Toisaalta kaikkeen dataan ei ole helppoa ja avointa pääsyä. Esimerkiksi 
Finnish Internet Parsebank6 ja Common Crawl Finnish (CC-Fi)7 lisenssejä ja pääsyä 
voisi selkeyttää. Kielipankissa8 on paljon CLARIN ACA lisenssillä suojattua dataa, 
kuten Finnish News Agency Archive 1992–2018,9 johon pääsevät vain akateemi-
sen yhteisön jäsenet. Esimerkki helposti jaetusta datasta on multilingual colossal, 
cleaned version of Common Crawl.10

Ideaalitilanteessa kaikkia kielimalleja on helppo kouluttaa ja testata sekä toistaa nii-
den suorituskykyä arvioivat tulokset.

3.5	 Suomalaisten kielimallien käyttö lainvalmistelussa
Kriteerit täyttävien kielimallien tarkempi tutkiminen ja kokeilu osoitti, että suo-
malaiset kielimallit jäävät vielä kauas taakse johtavien kansainvälisten kielimallien 
käytettävyydestä. Alla on taulukko tarkastelujen kielimallien ominaisuuksista. Sen 
jälkeen tässä luvussa selitetään, mitä lukemat tarkoittavat käytännössä.

6	 https://turkunlp.org/finnish_nlp.html#parsebank
7	 https://github.com/TurkuNLP/CC-Fi
8	 https://www.kielipankki.fi/
9	 http://urn.fi/urn:nbn:fi:lb-2019041501
10	 https://huggingface.co/datasets/allenai/c4

https://github.com/TurkuNLP/CC-Fi
https://www.kielipankki.fi/
http://urn.fi/urn:nbn:fi:lb-2019041501
https://huggingface.co/datasets/allenai/c4


29

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Taulukko 2.  Tarkasteltujen kielimallien ominaisuudet

Malli Käyttökohde Parametrien 
määrä

Kontekstin 
pituus (tokenia)

Finnish GPT (decoder)

Small Tekstin luonti 
(esikoulutettu)

186M 2 048

Large Tekstin luonti 
(esikoulutettu)

881M 2 048

“3B” Tekstin luonti 
(esikoulutettu)

2.8B 2 048

“3B Instruct” Tekstin luonti 
(hienosäädetty)

2.8B 2 048

“8B” Tekstin luonti 
(esikoulutettu)

7.5B 2 048

Poro (decoder)

“34B” Tekstin luonti 
(esikoulutettu)

34B 2 048

“34B Chat” Tekstin luonti 
(hienosäädetty)

34B 2 048

Finnish Sentence BERT (encoder)

Cased Finnish 
Sentence BERT 
model

Tekstien vertailu, 
haku (hienosäädetty)

110M 128

Parametrimäärät määrittävät, kuinka mallit prosessoivat ja tuottavat tekstiä. Pel-
kistetysti, mitä enemmän parametreja, sitä monimutkaisempia ja hienostuneem-
pia ovat mallin oppimat kielirakenteet. Parametrien määrä vaikuttaa myös suoraan 
siihen, kuinka tarkasti malli voi käsitellä ja tuottaa kohdekielen tekstiä, kuten suo-
mea. Tämä on erityisen tärkeää, kun mallia käytetään moninaisiin sovelluksiin, kuten 
tekstien vertailuun, hakuun tai luovaan tekstintuottamiseen. Toisaalta uudet ark-
kitehtuurit ja menetelmät tarjoavat jatkuvasti parempaa suorituskykyä suhteessa 
parametrimäärään – esimerkiksi kielimalleja avoimesti vertailevan LMSYS Chatbot 

https://huggingface.co/TurkuNLP/gpt3-finnish-small
https://huggingface.co/TurkuNLP/gpt3-finnish-large
https://huggingface.co/TurkuNLP/gpt3-finnish-3B
https://huggingface.co/Futurice/gpt3-finnish-3B-instruct
https://huggingface.co/TurkuNLP/gpt3-finnish-8B
https://huggingface.co/LumiOpen/Poro-34B
https://huggingface.co/LumiOpen/Poro-34B-chat
https://huggingface.co/TurkuNLP/sbert-cased-finnish-paraphrase
https://huggingface.co/TurkuNLP/sbert-cased-finnish-paraphrase
https://huggingface.co/TurkuNLP/sbert-cased-finnish-paraphrase


30

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Arena Leaderboardin11 mukaan uudemmat Llama 3 8B Instruct (8 miljardia para-
metria) ja Phi 3 Medium 4k Instruct (14 miljardia parametria) ovat parempia kuin 
vanhempi Llama 2 70B Chat (70 miljardia parametria). Hyödyntämällä uusia mene-
telmiä ja parametreja tehokkaasti voimmekin hallita kielimallien hiilijalanjälkeä 
paremmin.

Tokenit puolestaan kertovat, kuinka paljon informaatiota kielimalli voi käyttää ker-
ralla. Yleensä yhtä sanaa kohden lasketaan 1,5–2 tokenia. Esimerkiksi Finnish Sen-
tence BERTin raja haun yhteydessä on 128 tokenia, mikä ei yleensä riitä edes yhden 
lakipykälän näyttämiseen kerralla. Vertailun vuoksi todettakoon, että tokeneiden 
määrä OpenAI:n embeddings-mallissa, joka vastaa Finnish Sentence BERTin toimin-
nallisuutta, syötteen pituus on 8 191 tokenia,12 mikä vastaa noin 20 word-sivua.

Finnish GPT:ssä ja Porossa konteksti-ikkunan pituus on 2 048 tokenia. Tämä tar-
koittaa sitä, että yhdessä haussa voidaan huomioida noin 1 000–1 400 sanan eli 
noin 4–5 sivun mittainen teksti. Tämä ei riitä suomalaisen lainsäädännön läpikäyn-
tiin eikä relevanttien hakutulosten näyttämiseen. Esimerkiksi OpenAI GPT-4 mallin 
inputin pituus on 128 000 tokenia,13 ja Google Gemini 1.5 Pro yltää 2 000 000 toke-
nin konteksti-ikkunaan. Google on testannut onnistuneesti jopa 10 000 000 tokenin 
konteksti-ikkunaa.14

Jo alkuvaiheen vertailu osoitti, että tarkasteltujen kielimallien suorituskyky ei vielä 
toistaiseksi riitä datasäädöksen kaltaisen mittavan lainsäädännön valmisteluun. 
Käyttötapaus osoittautui siis jo varhain liian kompleksiseksi siihen, että projektissa 
voitaisiin tuottaa lainsäädäntötyötä aidosti tukeva työkalu. Sen sijaan käyttöta-
paus palveli yhä mainiosti sitä tavoitetta, että suomalaisten kielimallien jatkokehit-
tämistarpeet lainvalmistelussa ymmärretään paremmin. Jotta ymmärrys tekoälyn 
mahdollisuuksista lainvalmistelutyön tehostamisessa kasvaisi, tässä projektissa 
vertailtiin suomalaisten kielimallien vastauksia myös vastauksiin OpenAI GPT-4o 
-mallilta,15 joka on kansainvälinen ja kaupallinen kielimalli eikä täytä strategisen 
autonomian edistämiseen liittyviä vaatimuksia.

11	 https://chat.lmsys.org/?leaderboard
12	 https://platform.openai.com/docs/guides/embeddings/what-are-embeddings
13	 https://platform.openai.com/docs/models/overview
14	 https://blog.google/technology/ai/

google-gemini-next-generation-model-february-2024/
15	 https://openai.com/index/hello-gpt-4o/

https://chat.lmsys.org/?leaderboard
https://platform.openai.com/docs/guides/embeddings/what-are-embeddings
https://platform.openai.com/docs/models/overview
https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
https://openai.com/index/hello-gpt-4o/


31

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

4	 Tekninen toteutus

Projektissa kehitettiin Proof-of-Concept -tasoinen työkalu eli palveludemo, jolla tes-
tataan suomalaisten kielimallien kykyä suoriutua erilaisista tehtävistä rajoitetun 
datan avulla. Palveludemon rakentaminen oli iteratiivinen prosessi, jossa valintoja 
ja spesifikaatioita tarkennettiin jatkuvasti kokeilujen ja palautteen kautta. Työ sisälsi 
seuraavat pääkohdat, joita työstettiin pitkälti rinnakkain:

	y Kielimallien vertailu
	y Kielimallin hienosäätö (finetuning eli kielimallin lisäopettaminen)
	y Infrastruktuurin rakentaminen
	y Palveludemon rakentaminen

Alla oleva kuva tiivistää projektin pääkohdat ja työn iteratiivisen luonteen.

Kuvio 3.  Projektin pääkohdat

Seuraavissa luvuissa esitellään kunkin pääkohdan keskeisiä toimenpiteitä ja oppeja.


32

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

4.1	 Kielimallien arviointi ja vertailu

Projektissa vertailtiin suomalaisten kielimallien käytännön suorituskykyä sekä kvali-
tatiivisesti viikkopalavereissa kerättyjen kommenttien että palveludemon valmistu-
misen jälkeen lähetetyn palautekyselyn avulla.

Projektiryhmä aloitti työn vertaamalla Finnish GPT Small ja Finnish GPT Large mal-
leja kvalitatiivisesti. Loppukäyttäjälle tuotiin mahdollisuus valikoida käytettävä 
malli ja näin koottiin alustava ymmärrys suorituskyvystä. Sekä small- että large-mal-
lit olivat huonoja vastaamaan kysymyksiin, sillä niitä ei oltu hienosäädetty tähän 
tehtävään.

Hakua varten malliksi valikoitui Finnish Sentence BERT. Toinen harkittu malli oli 
uncased-versio, joka ei olisi huomioinut suuraakkosia vaan siinä kaikki teksti olisi 
käsitelty pienin aakkosin. Hakuun käytettäviä malleja ei vertailtu, koska tutkimus 
osoitti mallien suorituskyvyn olevan samankaltaista eikä hakuun liittynyt yhtä suu-
ria haasteita kuin vastausten luomiseen.16

Kielimallien käytännön kokeilu osoitti, että niiden konteksti-ikkunan rajoitettu 
pituus tuottaa merkittäviä haasteita datasäädöksen käyttötapauksessa. Datasää-
dös17 yksistään on yli 33 000 sanaa pitkä, mikä on huomattavasti enemmän kuin 
mitä suomalaiset kielimallit vielä toistaiseksi pystyvät käsittelemään. Datasäädök-
sen lisäksi kielimallin pitäisi pystyä käsittelemään mittavaa määrää muutakin lain-
säädäntöä. Datasäädöstä, kuten muitakin tekstejä, pitikin tässä projektissa käsitellä 
niin pienissä osissa, että vastausten luotettavuus ja kattavuus kärsi.

Työkalun mielekkäälle ja luotettavalle käytölle asetti haasteen myös se, että suo-
malaiset kielimallit kykenevät toistaiseksi vastaamaan kysymyksiin vain muutaman 
kappaleen tai sivun mittaisella tekstillä. Työkalu siis näytti vain osan relevan-
tista tiedosta käyttäjälle, eikä käyttäjä edes tiedä, millaista tietoa on jäänyt pois 
vastauksesta.

Tässä projektissa kielimallien suorituskykyä arvioitiin laadullisesti, mutta niiden 
arviointiin on olemassa myös määrällisiä vertailutyökaluja. Suomessa on tällä het-
kellä tarjolla suomalaisille kielimalleille suunnattu vertailutyökalu FIN-bench,18 joka 

16	 https://arxiv.org/pdf/1912.07076
17	 https://eur-lex.europa.eu/legal-cotent/FI/TXT/

PDF/?uri=OJ:L_202302854&qid=1716756952571
18	 https://github.com/TurkuNLP/FIN-bench

https://arxiv.org/pdf/1912.07076
https://eur-lex.europa.eu/legal-cotent/FI/TXT/PDF/?uri=OJ:L_202302854&qid=1716756952571
https://eur-lex.europa.eu/legal-cotent/FI/TXT/PDF/?uri=OJ:L_202302854&qid=1716756952571
https://github.com/TurkuNLP/FIN-bench


33

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

arvioi kielimallin suoriutumista muun muassa sellaisista luonnollisen kielen käsit-
telyn tehtävistä kuin kysymyksiin vastaamisesta ja tekstin ymmärtämisestä. Poro 
34B Chat julkaisun yhteydessä julkaistiin myös Finnish MT-bench.19 Kansainvälisiä 
arviointityökaluja ja -mittareita on tarjolla enemmän (mm. ARC, HellaSwag, MMLU, 
TruthfulQA, Winogrande ja GSM8k), mutta ne on suunniteltu ja optimoitu erityisesti 
englannin kielelle eikä niillä voi tehdä täysin kattavaa ja oikeudenmukaista arvioin-
tia suomenkielisille malleille.

FIN-bench mittarilla Finnish GPT Large tai suurempien mallien 3-shot suorituskyky 
on yli 40 prosenttia,20 mikä tarkoittaa, että malli onnistuu ratkaisemaan yli 40 pro-
senttia testialustan tarjoamista tehtävistä oikein tai tyydyttävästi. FIN-bench 
mukaan paras Finnish GPT malli oli melkein 50 prosentin suorituskyvyllä 8B versio 
eikä suurin 13B versio. Poron FINbench performanssi on tutkimuksen mukaan yli 
60 prosenttia,21 mikä osoittaa parempaa suoriutumista tehtävissä. Toisaalta Llama 
33B, jota ei ole esikoulutettu suomen kielellä, pärjäsi FIN-bench tuloksissa parem-
min kuin Finnish GPT 8B, mikä osoittaa, että FIN-bench ei arvioi suomen kielen 
taitoa vaan englannista käännetyistä monivalintatehtävistä suoriutumista. LLM-as-
a-judge eli kielimalli tuomarina -lähestyminen, jossa GPT-4 arvioi tekstin parem-
muutta, osoitti, että suomen kielen luomisen taito on Finnish GPT 8B, Finnish GPT 
13B ja Poro 34B välillä samankaltaista. Poro 34B Chatin MT-bench English tulosta 
6,1622 voidaan verrata GPT-4 tulokseen 8,99,23 missä asteikko on välillä 1 (huonoin) – 
10 (paras).

FIN-benchiä ei käytetty tässä projektissa, koska se oli puutteellisesti dokumentoitu 
eikä FIN-benchin ajo mallille ollut luotettavaa. Myös Finnish MT-benchin dokumen-
tointi oli rajallista emmekä onnistuneet tuottamaan uudelleen Poro 34B Chatin jul-
kaistuja MT-bench-lukuja tai vertailemaan niitä Finnish GPT 3B Instruct malliin. 
FIN-bench vertailun sijaan näytämme myöhemmin raportissa palveluun valittujen 
mallien suoriutumista lainvalmistelun esimerkkikysymyksissä.

Projektiryhmä päätyi lopulta hienosäätövaiheen aikana käyttämään Finnish GPT 3B 
kielimallia pohjana uudelle Finnish GPT 3B Instruct kielimallille ja otti käyttöön Poro 
34B Chat kielimallin sellaisenaan palveludemossa.

19	 https://github.com/LumiOpen/FastChat/tree/main/fastchat/llm_judge
20	 https://arxiv.org/pdf/2311.05640
21	 https://arxiv.org/pdf/2404.01856
22	 https://huggingface.co/LumiOpen/Poro-34B-chat
23	 https://lmsys.org/blog/2023-06-22-leaderboard/

https://github.com/LumiOpen/FastChat/tree/main/fastchat/llm_judge
https://arxiv.org/pdf/2311.05640
https://arxiv.org/pdf/2404.01856
https://huggingface.co/LumiOpen/Poro-34B-chat
https://lmsys.org/blog/2023-06-22-leaderboard/


34

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

4.2	 Kielimallien hienosäätö

4.2.1	 Lainvalmisteludatan lisääminen ja Retrieval Augmented 
Generation -menetelmä

Tekoäly on yhtä hyvä kuin sen kouluttamisessa käytetty tai käytön aikana syötetty 
data. Tässä projektissa oli tärkeää, että kielimalli hallitsee Suomen lainsäädännön.

Yksi keino parantaa sitä, että kielimalli vastaisi kysymyksiin perustuen lainvalmiste-
ludataan ja viitaten ajankohtaisiin lähteisiin, on RAG (Retrieval-Augmented Genera-
tion) -menetelmän käyttö.

RAG-menetelmä yhdistää tekstiä luovat mallit (kuten Finnish GPT) hakuun tai teks-
tien vertailuun tarkoitettuihin malleihin. Sen tarkoituksena on parantaa vastausten 
tarkkuutta erityisesti silloin, kun mallin tulee käsitellä suuria määriä tai uutta tietoa 
tai vastata kysymyksiin, joihin se ei ole suoraan koulutettu. RAG on erittäin käyttö-
kelpoinen menetelmä, ja sen hyödyntäminen edellyttää kielimalleja, jotka on hieno-
säädetty vastaamaan kysymyksiin syötettyjen dokumenttien perusteella.

Tietolaatikko. MIKÄ ON RAG-MENETELMÄ?

RAG-menetelmä tulee sanoista Retrieval-Augmented Generation. 
RAG-menetelmä yhdistää tiedonhaun (retrieval) ja tekstin tuottami-
sen (generation) parantaakseen generatiivisten kielimallien tuottamien 
vastausten ajantasaisuutta ja luotettavuutta. Tämä saavutetaan käyttä-
mällä ulkoista dataa mallin esikoulutuksessa opitun datan lisäksi.

RAG-menetelmän toiminta vaihe vaiheelta:

•	 Käyttäjä esittää kysymyksen chat-käyttöliittymän kautta.

•	 Hakuvaihe (retrieval): RAG-järjestelmä luo kysymyksen perusteella 
hakukyselyn, missä voidaan käyttää esim. Finnish Sentence BERT-
mallia, hakukysely lähetetään tietokantaan ja tietokannasta 
haetaan kysymykseen liittyvää relevanttia tietoa.

•	 Yhdistämisvaihe (augmented): Haettu tieto yhdistetään käyttäjän 
alkuperäiseen kysymykseen.


35

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

•	 Generointivaihe (generation): Yhdistetty tieto syötetään 
generatiiviselle kielimallille, kuten Finnish GPT-mallille, ja kielimalli 
muodostaa tarkemman vastauksen, koska se voi hyödyntää 
hakutuloksia.

•	 Vastaus ja hakutulokset näytetään käyttöliittymässä.

RAG-menetelmä yhdistää haun ja luovien kielimallien vahvuudet ja 
sopii tarkkojen vastausten tuottamiseen. Tietolaatikko päättyy.

Lainvalmistelussa tärkein datalähde on Suomen säädöskokoelma. Projektissa halut-
tiin hyödyntää Finlexissä julkaistavaa, digitaalisessa muodossa olevaa Suomen 
säädöskokoelmaa. Finlex on oikeusministeriön omistama ja Edita Lakitieto Oy:n 
tuottama ja ylläpitämä palvelu, jonka “perusajatuksena on turvata kaikille kansalai-
sille maksuton pääsy oikeudellisiin perustietovarantoihin”.24 Finlex on suurimmaksi 
osaksi tekijänoikeudesta vapaa verkkopalvelu, mutta sen käyttöehdoissa25 kuiten-
kin kielletään kokonaisen tietokannan tai sen olennaisen osan kopiointi ja julkaisu 
osana toista palvelua. Käyttöehtojen muotoilu siis esti Finlexin ajankohtaisen lain-
säädännön hyödyntämisen tekoälyn vastauksissa.

Jo pelkästään se, ettei Finlexin aineistoon ollut käyttöoikeutta, vaikutti 
merkittävästi palveludemon käyttökelpoisuuteen.

Osittainen ratkaisu Finlexin käyttöehtojen haasteeseen löydettiin siten, että pro-
jektissa hyödynnettiin Semanttinen Finlex -projektissa26 olleita lakitekstejä. Näistä 
valittiin 20 datasäädöksen kannalta relevanttia lainsäädäntöä. Palveludemo hakee 
RAG-menetelmällä konteksti-ikkunaan mahtuvia otteita valituista lainsäädännöistä 
palvelun käytön aikana. Semanttinen Finlex ei kuitenkaan sisällä koko Suomen 

24	 https://www.eduskunta.fi/FI/naineduskuntatoimii/kirjasto/aineistot/kotimai-
nen_oikeus/kotimaiset-oikeuslahteet/Sivut/Oikeudelliset-verkkopalvelut.aspx#:~:-
text=Finlex%20on%20kaikille%20avoin%20ja,viranomaisaineistoa%2C%20
valtiosopimuksia%20ja%20hallituksen%20esityksi%C3%A4.

25	 https://www.finlex.fi/fi/kayttoehdot/
26	 https://data.finlex.fi/fi/main

https://www.finlex.fi/fi/kayttoehdot/
https://data.finlex.fi/fi/main


36

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

lainsäädäntöä eivätkä kaikki sen sisältämät säädökset ole ajankohtaisia. Esimerkiksi 
hallintolaki (2003/434) uusin versio Semanttisessa Finlexissä on vuodelta 2021, kun 
Finlexissä näkyy ajantasainen versio vuodelta 2023.

Tietolaatikko. PALVELUDEMOSSA KÄYTETTY LAINSÄÄDÄNTÖ:

•	 Arkistolaki

•	 Elintarvikemarkkinalaki

•	 Hallintolaki

•	 Kilpailulaki

•	 Kuluttajansuojalaki

•	 Laki eräiden tuotteiden markkinavalvonnasta

•	 Laki hallinnon yhteisistä sähköisen asioinnin tukipalveluista

•	 Laki julkisen hallinnon tiedonhallinnasta

•	 Laki liikenteen palveluista

•	 Laki oikeudenkäynnistä hallintoasioissa

•	 Laki oikeudenkäynnistä markkinaoikeudessa

•	 Laki sähköisen viestinnän palveluista

•	 Laki vahvasta sähköisestä tunnistamisesta ja sähköisistä 
luottamuspalveluista

•	 Laki varallisuusoikeudellisista oikeustoimista

•	 Laki viranomaisten toiminnan julkisuudesta

•	 Liikesalaisuuslaki

•	 Oikeudenkäymiskaari

•	 Rikoslaki

•	 Tietosuojalaki

•	 Tilastolaki Tietolaatikko päättyy.


37

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

4.2.2	 Esikoulutettujen kielimallien haasteet kysymyksiin 
vastaamisessa lainvalmisteludatasta

Kokeilussa ilmeni varsin nopeasti, että Finnish GPT ja Poro eivät sellaisenaan hal-
linneet keskustelua, tiivistämistä tai vertailua. Tämä on tyypillinen tilanne esikou-
lutuksen jälkeen. Mallit eivät siis olleet vielä niin kehittyneitä, että voisivat käsitellä 
todellisen maailman dataa ja ongelmatilanteita. Ne saattoivat esimerkiksi jatkaa 
kysymystä kysymyksellä tai antaa tietoa vain lyhyen lähdetekstipätkän perusteella.

Alla on kuvaus kahdesta projektin aikana esiin tulleesta käytännön tilanteesta, 
joissa näkyi Finnish GPT:n heikko suoriutuminen kysymys-vastaus-tyyppisessä teh-
tävässä etenkin ennen hienosäätöä.

Ongelma 1: Esikoulutetut, mutta ei keskusteluun tai kysymyksiin vastaamiseen hie-
nosäädetyt, kielimallit jatkavat kysymystä toisilla kysymyksillä. Ne eivät ymmärrä 
eroa käyttäjän kysymyksen ja käyttäjän olettaman avustajan vastauksen välillä. 
Kuvassa käytetty malli on Finnish GPT Small.

Kuvio 4.  Hienosäätämättömän mallin vastaus

Ongelma 2: Kielimalli ei vastaa kysymykseen hakutulosten perusteella. RAG-mene-
telmässä syötteissä kielimallille käytetään hakutuloksia kysymyksen lisäksi. Hakutu-
loksia ei näytetä käyttäjälle, vaan ne lisätään pyyntöön taustalla. Tällöin on tärkeää, 
että kielimalli osaa hyödyntää annettuja hakutuloksia vastauksessaan ja viitata nii-
hin. Alla kuvataan tilanne, jossa haun perusteella on lisätty olennaista taustaa. 
Kielimalli ei kuitenkaan käytä taustatietoa oikein eikä osaa vastata, että tietojen 
jakamisesta säädetään laissa julkisen hallinnon tiedonhallinnasta.


38

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Taulukko 3.  Kielimallin toiminta

Kysymys Missä laeissa säädellään dataan pääsystä, datan jakamisesta tai 
datan avaamisesta?

Hakutulos 
ja kysymys 
(esimerkkiin 
on lisätty 
vain 1 
hakutulos)

Taustatietoa:

Laki julkisen hallinnon tiedonhallinnasta

Viranomainen voi luovuttaa teknisten rajapintojen avulla tietoja 
muulle kuin toiselle viranomaiselle, jos tiedot saavalla toimijalla 
on erikseen laissa säädetty tiedonsaantioikeus ja oikeus käsitellä 
näitä tietoja. Tekninen rajapinta voidaan avata 22 §:ssä säädettyjen 
edellytysten täyttyessä siten kuin mainitussa pykälässä säädetään. 
Tiedot luovuttavan viranomaisen on tarvittaessa varmistettava, 
että tietoja saava toimija noudattaa tietojen käsittelyssä tässä laissa 
säädettyjä velvollisuuksia.

Tiedon antamisesta muussa sähköisessä muodossa ja yleisölle 
katseluyhteytenä toteutettuna tietopalveluna säädetään erikseen.

Käyttäen yllä olevaa taustatietoa vastaa kysymykseen: Missä laeissa 
säädetään dataan pääsystä, datan jakamisesta tai datan avaamisesta?

Kielimallin 
vastaus

Vastaus on, ettei missään laissa. Tämä johtuu siitä, etteivät datan 
avaamiseen liittyvät säädökset ole olleet voimassa. Data on ollut 
vapaasti saatavilla, mutta ei vapaasti käytettävissä. Datan avaaminen 
on edellyttänyt, kuten edellä on todettu, erillistä lainsäädäntöä.

4.2.3	 Kysymyksiin vastaamiseen vaihtoehdot ja hienosäätö

Finnish GPT-3 ja Poro ovat esikoulutettuja (pretrained) kielimalleja. Tämä tarkoittaa, 
että malli on esikoulutettu valtavalla määrällä tekstiä. Sille on opetettu suomen kie-
len rakenne ja tietyt tehtävät, kuten seuraavan sanan ennustaminen. Kun kielimallia 
halutaan käyttää sanojen ennustamista haastavampiin tehtäviin, kuten kysymyksiin 
vastaamiseen RAG-menetelmässä, sitä pitää hienosäätää (fine-tuning) hyödyntäen 
tehtävään sopivaa dataa. Projektissa siis käytettiin esikoulutettuja malleja, joita sit-
ten hienosäädettiin lainvalmistelun käyttöyhteyteen sopivaksi. Kielimallien koulut-
tamisesta on taustatietoa liitteessä 1.

Projektiryhmä kokeili käyttää palveludemossa ennen hienosäädön aloittamista eri-
laista kielimallia. Ennen luovaan kysymyksiin vastaamiseen (generative Q&A) hieno-
säätöä kokeiltiin vastausten hakemiseen (extractive Q&A) valmiiksi hienosäädettyä 
kielimallia nimeltään BERT Finnish Cased for QA.27 Malleissa on eroa: vastausten luo-
miseen hienosäädetyt mallit osaavat vastata kysymyksiin, joihin ei löydy suoraa 
vastausta, mutta vastausten hakemiseen koulutetut kielimallit vain etsivät tekstin 

27	  https://huggingface.co/TurkuNLP/bert-base-finnish-cased-squad2

https://huggingface.co/TurkuNLP/bert-base-finnish-cased-squad2


39

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

seasta vastauksen eivätkä luo uutta tekstiä. Alla on esimerkki siitä, miten BERT Fin-
nish Cased for QA vastaa taustatiedon perusteella kysymykseen: “Missä laeissa sää-
dellään dataan pääsystä?”.

Kuvio 5.  Kielimallin hienosäätäminen

Projektiryhmä sulki kokeilun jälkeen pois tarkastelusta extractive Q&A -mallit, koska 
tarpeena oli vastata kysymyksiin myös uutta tekstiä luoden. Tämän jälkeen edettiin 
hienosäätämään generative Q&A eli luovaa kysymyksiin vastaamisen kielimallia.


40

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Suomalaisten kielimallien hienosäätöä kysymyksiin vastaamiseksi vaikeuttaa se, että 
suomalaista kysymys-vastaus -dataa on saatavilla varsin vähän. Projektissa käytet-
tiin hienosäätöön koneella suomennettua SQuAD-dataa.28 Tätä dataa ei kuitenkaan 
ole alunperin luotu suomalaiseen toimintaympäristöön eikä oikeaoppisella suomen 
kielellä. Projektin aikana julkaistiin myös Instruction Collection Fin -data,29 jota oli 
käytetty Poron hienosäätöön.30

Projektin edetessä projektiryhmä päätyi siis hienosäätämään Finnish GPT 3B kieli-
mallin käyttäen SQuAD-dataa, minkä tuloksena syntyi Finnish GPT 3B Instruct -kie-
limalli. Tähän päädyttiin, koska vaikka kyseessä ei ole suurin suomalainen kielimalli, 
se oli suurin malli, jonka hienosäätö oli toteutettavissa Google Colab -ympäristössä. 
Suuremman kielimallin hienosäätö olisi vaatinut merkittävästi suuremman GPU-ka-
pasiteetin, jonka saatavuudessa oli haasteita ja jota projektin rajoitteet eivät mah-
dollistaneet. Infrastruktuurin haasteista kerrotaan lisää luvussa 3.3.1.

Projektin infrastruktuurin rajoitteet eivät kuitenkaan muuttaneet ymmärrystä hie-
nosäädettyjen suomalaisten kielimallien suorituskyvystä ja jatkokehitystarpeista. 
Tutkimuksen mukaan Finnish GPT 3B:n suorituskyky ei eronnut merkittävästi par-
haasta Finnish GPT 8B -mallista. Poro 34B:n suorituskyky monivalintatehtävissä on 
paremmalla tasolla kuin Finnish GPT 3B:n ja myös Poron hienosäädettyä kielimallia 
onnistuttiin vertailemaan projektissa. Poro 34B Chat -malli otettiin käyttöön sellaise-
naan toiseksi vaihtoehdoksi käyttäjille, kun malli oli julkaistu.

Hienosäädössä esikoulutetulle kielimallille opetettiin sekä 1) keskusteluun sopiva 
formaatti, kuten ChatML,31 että 2) vastaamaan kysymyksiin taustan tai syötettyjen 
dokumenttien perusteella. Alla olevissa esimerkeissä nähdään myös hienosäätöda-
taa, jonka avulla kielimallia opetetaan vastaamaan: “En osaa vastata taustan perus-
teella”, jos taustadokumentista ei löydy vastausta. Näemme myös, että SQuAD-data 
on konekäännettyä ja kattaa vaihtelevia aiheita, jotka eivät liity lainsäädäntöön.

Hienosäätö kesti noin 3 tuntia 1 x NVIDIA A100 40 GB GPU:lla, ja hienosäädön infra-
struktuurin kustannus oli alle 100 euroa.

28	 https://huggingface.co/datasets/TurkuNLP/squad_v2_fi
29	 https://huggingface.co/datasets/LumiOpen/instruction-collection-fin
30	 https://huggingface.co/LumiOpen/Poro-34B-chat
31	 https://huggingface.co/docs/transformers/main/en/

chat_templating#what-template-should-i-use

https://huggingface.co/datasets/TurkuNLP/squad_v2_fi
https://huggingface.co/datasets/LumiOpen/instruction-collection-fin
https://huggingface.co/LumiOpen/Poro-34B-chat


41

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Taulukko 4.  Hienosäätödata

Esimerkki käsitellystä hienosäätödatasta

<s><|im_start|>system

Olet avustaja. Seuraavaksi saat kysymyksen tai tehtävän. Kirjoita vastaus parhaasi 
mukaan siten että se täyttää kysymyksen tai tehtävän vaatimukset.<|im_end|>

<|im_start|>user

Tausta: Aleksandria oli Athanasiuksen nuoruusvuosina koko valtakunnan tärkein 
kauppakeskus. Intellektuaalisesti, moraalisesti ja poliittisesti se edusti etnisesti 
monimuotoista kreikkalais-roomalaista maailmaa jopa enemmän kuin Rooma tai 
Konstantinopoli, Antiokia tai Marseille. Sen kuuluisa katekeettinen koulu, joka ei 
ollut menettänyt mitään kuuluisasta intohimostaan ortodoksisuuden puolesta 
Pantaenoksen, Klemens Aleksandrialaisen, Origenes Aleksandrialaisen, Dionysioksen 
ja Theognostoksen ajoista lähtien, oli alkanut saada lähes maallisen luonteen 
kiinnostuksen kohteidensa laajuudessa, ja sen vakavasti otettaviin kuulijoihin kuului 
vaikutusvaltaisia pakanoita.

Käytä vain taustaa ja vastaa kysymykseen tai tehtävään: Mistä Alexandria 
tunnettiin?<|im_end|>

<|im_start|>assistant

tärkein kauppakeskus<|im_end|>

</s>

<s><|im_start|>system

Olet avustaja. Seuraavaksi saat kysymyksen tai tehtävän. Kirjoita vastaus parhaasi 
mukaan siten että se täyttää kysymyksen tai tehtävän vaatimukset.<|im_end|>

<|im_start|>user

Tausta: Maan pinta ja pilvet imevät auringon näkyvää ja näkymätöntä säteilyä 
ja lähettävät suuren osan energiasta infrapunana takaisin ilmakehään. Tietyt 
ilmakehän aineet, pääasiassa pilvipisarat ja vesihöyry, mutta myös hiilidioksidi, 
metaani, dityppioksidi, rikkiheksafluoridi ja kloorifluorihiilivedyt, absorboivat tätä 
infrapunasäteilyä ja säteilevät sitä uudelleen kaikkiin suuntiin, myös takaisin Maahan. 
Näin ollen kasvihuoneilmiö pitää ilmakehän ja maanpinnan paljon lämpimämpänä 
kuin jos infrapunaa absorboivia aineita ei olisi ilmakehässä.

Käytä vain taustaa ja vastaa kysymykseen tai tehtävään: Mitkä aineet päästävät 
vesihöyryä takaisin ilmakehään?<|im_end|>

<|im_start|>assistant

En osaa vastata taustan perusteella.<|im_end|>

</s>


42

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

4.2.4	 Kielimallien vertailu hienosäädön jälkeen

Kielimalleja vertailtiin palautteen ja testidatan avulla. Testidata sisälsi 20 asiantun-
tijan kysymystä ja vastausta sekä otteita relevantista lainsäädännöstä. Alla näkyy 
kolme testikysymystä ja kielimallien vastaukset. Relevanttien dokumenttien sisältö 
on RAG-menetelmän mukaisesti yhdistetty testikysymykseen, ja tilan säästämiseksi 
täyttä syötettä ei näytetä tässä. Testidatan tuloksista nähdään sama kuin käyttä-
jien palautteesta: hienosäädetyt kielimallit Finnish GPT 3B Instruct ja Poro 34B Chat 
eivät onnistuneet vastaamaan kysymyksiin tarkasti ja hyödyntäen vain annettuja 
otteita lainsäädännöstä.

Näemme myös, että OpenAI GPT-4o -mallin vastaukset ovat lähempänä asiantun-
tijoiden vastauksia. Kielimalleilla on siis potentiaalia ratkaista projektissa havaittuja 
haasteita, kun sekä esikoulutettujen kielimallien että niistä hienosäädettyjen kieli-
mallien konteksti-ikkunan pituus ja suorituskyky on riittävän hyvällä tasolla.

Testidata keskittyi ennen kaikkea vastausten luomisen arviointiin, ja oletuksena oli, 
että relevantit dokumentit oli jo löydetty. Tämän vertailun rajoitteena on, että se ei 
testaa hakutoiminnallisuutta. Kun halutaan tarkkoja vastauksia viitaten hakutulok-
siin kuten relevanttiin lainsäädäntöön, on tärkeää panostaa myös haun tarkkuuteen.


43

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Taulukko 5.  Kielimallien vastauksia kysymyksiin

Kysymys, relevantit 
dokumentit ja 
asiantuntijan vastaus

Kielimalli Kielimallin vastaus

Kysymys: Minkä lain 
tavoitteena on edistää 
sähköisen viestinnän 
palvelujen tarjontaa ja 
käyttöä?

Relevantit 
dokumentit: 
- Laki sähköisen 
viestinnän palveluista 
(2014/917, versio: 2024-
02-17), 1 luku 1 §

Asiantuntijan vastaus: 
Sähköisen viestinnän 
palveluista annetun 
lain (917/2014) 
tavoitteena on edistää 
sähköisen viestinnän 
palvelujen tarjontaa ja 
käyttöä sekä varmistaa, 
että viestintäverkkoja 
ja viestintäpalveluja 
on kohtuullisin ehdoin 
jokaisen saatavilla koko 
maassa.

OpenAI GPT-4o Lain sähköisen viestinnän palveluista (2014/917, 
versio: 2024-02-17) tavoitteena on edistää sähköisen 
viestinnän palvelujen tarjontaa ja käyttöä.

Finnish GPT 3B 
Instruct

Laki sähköisen viestinnän palveluista (2014/917, versio: 
2024-02-17), 1 luku 1 §

Lain tavoitteena on edistää sähköisen viestinnän 
palvelujen tarjontaa ja käyttöä sekä varmistaa, 
että viestintäverkkoja ja viestintäpalveluja on 
kohtuullisin ehdoin jokaisen saatavilla koko maassa. 
Lain tavoitteena on lisäksi turvata radiotaajuuksien 
tehokas ja häiriötön käyttö sekä edistää kilpailua 
ja varmistaa, että viestintäverkot ja -palvelut 
ovat teknisesti kehittyneitä, laadultaan hyviä, 
toimintavarmoja ja turvallisia sekä hinnaltaan edullisia. 
Lain tavoitteena on myös turvata sähköisen viestinnän 
luottamuksellisuuden ja yksityisyyden suojan 
toteutuminen.

Poro 34B Chat Sähköisen viestinnän palveluista annetun lain 
(2014/917) tavoitteena on edistää sähköisen viestinnän 
palvelujen tarjontaa ja käyttöä sekä varmistaa, 
että viestintäverkkoja ja viestintäpalveluja on 
kohtuullisin ehdoin jokaisen saatavilla koko maassa. 
Lain tavoitteena on myös turvata radiotaajuuksien 
tehokas ja häiriötön käyttö sekä edistää kilpailua 
ja varmistaa, että viestintäverkot ja -palvelut 
ovat teknisesti kehittyneitä, laadultaan hyviä, 
toimintavarmoja ja turvallisia sekä hinnaltaan edullisia. 
Lain tavoitteena on lisäksi turvata sähköisen viestinnän 
luottamuksellisuuden ja yksityisyyden suojan 
toteutuminen.


44

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Kysymys, relevantit 
dokumentit ja 
asiantuntijan vastaus

Kielimalli Kielimallin vastaus

Kysymys: Missä 
säädetään viestin 
ja välitystietojen 
luottamuksel­
lisuudesta?

Relevantit 
dokumentit: 
- Laki sähköisen 
viestinnän palveluista 
(2014/917, versio: 2024-
02-17), 17 luku 136 §

Asiantuntijan vastaus: 
Sähköisen viestinnän 
palveluista annetussa 
lain (917/2014) 136 §:ssä 
säädetään viestin 
ja välitystietojen 
luottamukselli­
suudesta.

OpenAI GPT-4o Viestin ja välitystietojen luottamuksellisuudesta 
säädetään Laki sähköisen viestinnän palveluista 
(2014/917, versio: 2024-02-17) 17 luvun 136 §:ssä. 
Tämä pykälä sisältää säännökset siitä, että sähköisen 
viestinnän osapuoli voi käsitellä omia sähköisiä 
viestejään ja niihin liittyviä välitystietoja, sekä 
määrittelee tilanteet, joissa muut voivat käsitellä 
viestejä ja niiden välitystietoja. Lisäksi se kieltää 
viestin, radioviestinnän tai välitystiedon luvattoman 
ilmaisemisen tai hyödyntämisen ilman viestinnän 
osapuolen suostumusta, ellei laissa toisin säädetä.

Finnish GPT 3B 
Instruct

Laki sähköisen viestinnän palveluista (2014/917, versio: 
2024-02-17), 17 luku 136 §

Viestinnän osapuoli voi käsitellä omia sähköisiä 
viestejään ja niihin liittyviä välitystietoja, jollei laissa 
toisin säädetä.

Yleisesti vastaanotettavaksi tarkoitettua radio-
viestintää ja sen välitystietoja saa käsitellä, jollei laissa 
toisin säädetä.

Se, joka on ottanut vastaan tai muutoin saanut 
tiedon sähköisestä viestistä, radioviestinnästä tai 
välitystiedosta, jota ei ole hänelle tarkoitettu, ei saa 
ilman viestinnän osapuolen suostumusta ilmaista tai 
käyttää hyväksi viestin sisältöä, välitystietoa tai tietoa 
viestin olemassaolosta, ellei laissa toisin säädetä.

Sen estämättä, mitä 3 momentissa säädetään, 
radioviestintää tai sen välitystietoja voi käsitellä 
vain, jos käsittelyssä tai käsittelyn tuloksesta ei voida 
tunnistaa yksittäistä luonnollista henkilöä.

Käytä vain taustaa ja vastaa kysymykseen tai 
tehtävään: Missä

Poro 34B Chat Lain sähköisen viestinnän palveluista (2014/917) 17 
luvun 136 §:ssä säädetään luottamuksellisuudesta. Sen 
mukaan viestinnän osapuoli voi käsitellä omia sähköisiä 
viestejään ja niihin liittyviä välitystietoja, jollei laissa 
toisin säädetä. Lisäksi yleisesti vastaanotettavaksi 
tarkoitettua radioviestintää ja sen välitystietoja saa 
käsitellä, jollei laissa toisin säädetä. Muissa tapauksissa 
viestinnän osapuolen on annettava suostumus tai 
laissa on oltava erityissäännös.


45

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Kysymys, relevantit 
dokumentit ja 
asiantuntijan vastaus

Kielimalli Kielimallin vastaus

Kysymys: Missä 
laissa säädetään 
tietokantasuojasta?

Relevantit 
dokumentit: 
- Tekijänoikeuslaki 
(1961/404, versio: 2024-
01-01), 5 luku 49 §

Asiantuntijan vastaus: 
Tekijänoikeuslain 
(404/1961) 49 §:ssä 
säädetään omaa lajiaan 
olevasta tietokannan 
suojasta.

OpenAI GPT-4o Tietokantasuojasta säädetään Suomen 
tekijänoikeuslaissa (1961/404), erityisesti 5 luvussa 49 §.

Finnish GPT 3B 
Instruct

Tausta: Tekijänoikeuslaki (1961/404, versio: 2024-01-01), 
5 luku 49 §

Sillä, joka on valmistanut

1) luettelon, taulukon, ohjelman tai muun sellaisen 
työn, jossa on yhdisteltynä suuri määrä tietoja, taikka

2) tietokannan, jonka sisällön kerääminen, 
varmistaminen tai esittäminen on edellyttänyt 
huomattavaa panostusta,

on yksinomainen oikeus määrätä työn koko sisällöstä 
tai sen laadullisesti tai määrällisesti arvioiden 
olennaisesta osasta valmistamalla siitä kappaleita ja 
saattamalla se yleisön saataviin.

(14.10.2005/821)

Edellä 1 momentissa säädetty oikeus on voimassa, 
kunnes 15 vuotta on kulunut siitä vuodesta, jona 
työ valmistui, tai jos työ saatettiin yleisön saataviin 
ennen tämän ajanjakson päättymistä, 15 vuotta siitä 
vuodesta, jona työ saatettiin ensimmäisen kerran 
yleisön saataviin ensimmäisen kerran yleisön

Poro 34B Chat Tekijänoikeuslaki, tarkemmin sanottuna sen 5. luvun 
49. pykälä, määrää tietokannan suojasta. Tämä laki 
suojaa tietokantoja, joiden sisällön kerääminen, 
varmistaminen tai esittäminen on edellyttänyt 
huomattavaa panostusta. Tietokannan valmistajan on 
saatava yksinoikeus määrätä työn koko sisällöstä tai 
sen laadullisesti tai määrällisesti arvioiden olennaisesta 
osasta valmistamalla siitä kappaleita ja saattamalla se 
yleisön saataviin.

Tämä yksinoikeus on voimassa 15 vuotta työn 
valmistumisesta tai, jos työ on saatettu yleisön 
saataville ennen tämän ajanjakson päättymistä, 15 
vuotta siitä vuodesta, jona työ on ensimmäisen kerran 
saatettu yleisön saataville.

Jos haluat lisätietoja, voit vierailla seuraavalla 
verkkosivustolla: https://www.minilex.fi/a/tunne-
oikeutesi-tietokannan-suojaan-eli-copyright-lex-faq


46

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

4.2.5	 Datan puute hienosäädön esteenä

Yleisesti voidaan todeta, että tarkastellut suomalaiset kielimallit tarvitsevat paljon 
hienosäätöä. Tämä hienosäätövaihe edellyttää, että relevanttia dataa on saatavilla. 
Tällaisia suomenkielisiä datoja ei kuitenkaan juurikaan ole avoimesti jaettu. Projek-
tin aikana löydetyt datat olivat automaattisesti käännettyjä eivätkä siis soveltuneet 
täysin suomalaiseen toimintaympäristöön.

Edellytys suomalaisten kielimallien tehokkaalle kehitykselle on eri tehtä-
viin sopivan laadukkaan datan kerääminen, luominen ja avoin jakaminen.

Suomenkielisiä aineistoja erilaisten laajojen kielimallien kouluttamiseen pitäisi 
kerätä ja jakaa nykyistä paljon avoimemmin. Erityisen tärkeää tämä on silloin, kun 
puhutaan yhteiskunnallisesti niin merkittävästä aineistosta kuin lainsäädännöstä. 
Luotettavuuden näkökulmasta on tärkeää varmistaa, että suomalaisten kielimallien 
kehittäjillä ja hyödyntäjillä on avoin pääsy ajantasaiseen lainsäädäntöön.

Silloin kun joudutaan käyttämään automaattisesti käännettyä dataa, siitä on tärkeää 
kommunikoida läpinäkyvästi. Samalla on syytä arvioida, onko tarpeen investoida 
vastaaviin Suomessa luotuihin datoihin.

4.3	 Infrastruktuurin rakentaminen

4.3.1	 Pilviympäristön valinta ja infrastruktuurin haasteet

Projektissa ei suoritettu kallista esikoulutusvaihetta, joten siinä ei ollut syytä ottaa 
käyttöön supertietokoneita kuten LUMIa, vaan palveludemoa alettiin rakentaa huo-
mattavasti kustannustehokkaammin pilvipalvelualustalle. Pilvipalvelualustat on 
suunniteltu jatkuvien palveluiden tarjoamiseen ja ylläpitoon, ja ne sopivat tästäkin 
näkökulmasta supertietokonetta paremmin palveludemon toteuttamiseen.

Kielimalleille, niiden hienosäädölle ja niitä hyödyntäville palveluille tarvitaan hyvin 
suunniteltu tekninen ympäristö, jossa on riittävä määrä laskentatehoa ja datan tal-
lennuskykyä ja jonka tietoturva on vahva. Lisäksi on tärkeää, että ympäristön verk-
koyhteydet ja palvelinresurssit ovat riittävät mallin toimimiseksi vaatimusten 
mukaisesti.


47

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Kielimallien hienosäätö ja jatkuva käyttö vaatii GPU-pohjaista kapasiteettia. GPU:t 
eli grafiikkasuorittimet ovat erikoistuneita piirejä, jotka nopeuttavat grafiikan ja 
kuvien käsittelyä tietokoneissa ja niitä käytetään myös suurta laskentatehoa vaa-
tivassa koneoppimisessa. Pilvipalvelualustat, kuten Microsoft Azure, Amazon Web 
Services (AWS) ja Google Cloud Platform tarjoavat GPU-pohjaista laskentakapasi-
teettia, mutta niissä on rajatut GPU-resurssit, joille saattaa olla korkeaa kysyntää.

Projektin alkuvaiheessa arvioitiin, että tekniseksi ympäristöksi soveltuu mikä 
tahansa näistä pilvipalvelun tarjoajista. Projektin alussa palveluntarjoajaksi valittiin 
Microsoft Azure, sillä se on käytössä Liikenne- ja viestintäministeriössä. Ratkaisun 
hallittavuus otettiin huomioon rakentamalla kaikki infrastruktuuri koodina ja sovel-
lus Docker -pohjaisesti. Nämä valinnat helpottavat merkittävästi sovellusten siirret-
tävyyttä ja skaalautuvuutta eri Microsoft Azure ympäristöissä tai eri pilvialustoilla. 
Näin projektissa vältettiin lukittautuminen tiettyyn palveluntarjoajaan.

Projektitiimi havaitsi, että Microsoft Azuren GPU-pohjainen kapasiteetti on tällä het-
kellä vahvasti rajattua monissa eri palveluissa. Azure Machine Learning -palvelussa 
isompaa kapasiteettia on erikseen pyydettävä eikä saatavuudesta ole takeita. GPU:i-
den kysyntää Azuressa on saattanut osaltaan kasvattaa se, että Microsoft Azure on 
eksklusiivinen palveluntarjoaja kaikille OpenAI:n tuotteille.32

Tässä projektissa GPU-kiintiöiden haasteet tulivat ilmi useassa kohdassa, muun 
muassa Azure Machine Learning -palvelussa, jota haluttiin käyttää hienosäätöön. 
Pyynnöstä huolimatta projektissa ei saatu hyödynnettäväksi riittävää GPU-pohjaista 
kapasiteettia. Myös AWS:ssä oli oma prosessinsa GPU-kapasiteetin varaamiseen, 
mikä hidasti eri infrastruktuurivaihtoehtojen kokeilua.

Finnish GPT 3B… hienosäätö oli toteutettavissa Google Colab -ympäris-
tössä – suuremman kielimallin hienosäätö olisi vaatinut merkittävästi suu-
remman GPU-kapasiteetin, jonka saatavuudessa oli haasteita

Kielimallien hienosäätö toteutettiin lopulta Google Colab -palvelussa, jossa A100 
GPU:n muistia oli käytettävissä 40GB:ä. GPU:n muisti vaikutti kielimallin valin-
taan hienosäädössä. Suurin malli, jonka hienosäätö onnistui muistin optimoin-
nin jälkeen oli Finnish GPT 3B. Toimenpiteet muistin optimointiin sisälsivät 
pienemmän eräkoon, kvantisoinnin eli numeroiden tarkkuuden vähentämisen 

32	 https://openai.com/index/openai-and-microsoft-extend-partnership/

https://openai.com/index/openai-and-microsoft-extend-partnership/


48

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

bitsandbytes-kirjastolla sekä parametritehokkaan hienosäädön Low-Rank adapta-
tion (LoRa) -menetelmällä33 ja peft-kirjastolla. Hienosäädetty Finnish GPT 3B Instruct 
kielimalli julkaistiin Hugging Faceen.

Yleisesti ottaen, esikoulutuksen ja hienosäädön yhteydessä onkin tärkeä kokeilla 
muistin optimointia eri menetelmin. Optimointiin on käytettävissä kirjastoja ja esi-
merkkikoodia erityisesti ympäristössä, jossa on käytössä NVIDIA:n CUDA-tuettuja 
GPU:ita. Hugging Face on julkistanut yhteistyön myös AMD:n kanssa, minkä odote-
taan helpottavan tulevaisuudessa muistin optimointia myös AMD-ympäristöissä.34 
Emme hyödyntäneet tässä projektissa rinnakkaisia GPU:ita, mutta tästä skenaariosta 
on tärkeä ymmärtää, että rinnakkaisilla GPU:illa optimointi on erityisen riippuvaista 
käytettävästä laitteistosta.35 Hyviä resursseja ovat esimerkiksi Transformers-kirjaston 
dokumentaatio36, oppaat37 ja Alignment Handbook.38

4.3.2	 Palvelun arkkitehtuuri

Siirrettävyyden ja skaalautuvuuden näkökulmista ensimmäiseen arkkitehtuuriin 
harkittiin Microsoft Azuren tarjoamia palveluita, joilla voidaan ajaa Docker-pohjaisia 
sovelluksia. Ensimmäisessä arkkitehtuurissa sovellus päätettiin toteuttaa Azure Con-
tainer Instances -palvelun avulla, koska se tarjoaa kustannustehokkaan ratkaisun 
ajaa sovellusta, joka vaatii paljon keskusmuistia. Ratkaisu siirrettiin kuitenkin myö-
hemmin Azure Web App -palvelun päälle tietoturvallisemman HTTPS-verkkoproto-
kollan mahdollistamiseksi. Alla olevassa kuvassa näkyy projektissa käytetty alustava 
ratkaisuarkkitehtuuri.

33	 https://arxiv.org/pdf/2106.09685
34	 https://huggingface.co/blog/huggingface-and-amd
35	 https://huggingface.co/docs/transformers/en/perf_train_gpu_many
36	 https://huggingface.co/docs/transformers/en/perf_train_gpu_one
37	 https://huggingface.co/docs/transformers/en/llm_tutorial_optimization
38	 https://github.com/huggingface/alignment-handbook/

https://arxiv.org/pdf/2106.09685
https://huggingface.co/blog/huggingface-and-amd
https://huggingface.co/docs/transformers/en/perf_train_gpu_many
https://huggingface.co/docs/transformers/en/perf_train_gpu_one
https://huggingface.co/docs/transformers/en/llm_tutorial_optimization
https://github.com/huggingface/alignment-handbook/


49

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Kuvio 6.  Palveludemon ensimmäisen version arkkitehtuuri

Viimeisin käyttöversion arkkitehtuuri muotoutui iteratiivisen lähestymisen kautta. 
Sovelluksen käytössä esimerkiksi huomattiin, että kielimalli on syytä erottaa itse 
sovelluksesta, jotta käyttökokemus paranee latenssin eli viiveen osalta ja kus-
tannuksia voidaan hallita paremmin. Kielimallille haluttiin myös käyttää omaa 
GPU-pohjaista infrastruktuuria. Tästä syystä kielimalli päädyttiin julkaisemaan erilli-
sen rajapinnan kautta hyödyntäen Hugging Facen välittämää kapasiteettia AWS:ssä. 
Alla olevassa kuvassa on nähtävillä uudempi arkkitehtuuri.


50

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Kuvio 7.  Palveludemon lopullinen arkkitehtuuri

Suurien kielimallien käyttö voi tarkoittaa, että osa toteutuksesta pitää siirtää uusiin 
palveluihin tai toiseen pilveen, kuten Amazon Web Servicesiin (AWS) tai Google 
Cloud Platformiin (GCP). Kustannukset liittyvät nimenomaan GPU-muistinkäyttöön 
ja prosessointiaikaan. Näiden optimointiin keskittynyt erityisosaaminen voikin mak-
saa itsensä nopeasti takaisin.

Kun palvelu otetaan jatkuvaan käyttöön, etenkin GPU:n ja muistin tarve kasvaa luo-
vien kielimallien vaatiman laskentatehon vuoksi. Lisäksi on varauduttava siihen, että 
tekstin luomisen latenssi voi olla yllättävän pitkä. Tämän takia on tärkeää eristää 
muut toiminnallisuudet ja resurssit inferenssiin keskittyvästä moduulista. Käyttöko-
kemukseen onkin jatkokehityksessä syytä kiinnittää huomiota.


51

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Käytön kustannukset vaihtelivat projektin aikana arkkitehtuurimuutosten ja hie-
nosäädön tarpeen vuoksi. Viimeisimmän version infrastruktuurin kustannusen-
nuste kesäkuulle oli noin 230 euroa kuukaudessa ilman luovien kielimallien osuutta. 
Lisäksi Finnish GPT 3B Instructin ja Poro 34B Chatin kustannukset perustuivat aktii-
viseen käyttöön ja olivat 1 dollaria eli noin 0,9 euroa tunnissa (Finnish GPT) ja 5 
dollaria eli noin 4,6 euroa tunnissa (Poro). Kustannusten säästämiseksi luovien kie-
limallien resurssit ajettiin automaattisesti alas kuuden tunnin (Finnish GPT) tai tun-
nin (Poro) inaktiviteetin jälkeen. Alasajossa piti tasapainoitella käyttökokemuksen 
kanssa, koska kielimallien resurssien uudelleen käynnistäminen kesti kauan. Jos 
näitä kielimalleja käytettäisiin ympäri vuorokauden, olisi kokonaiskustannus kie-
limallista riippuen noin 880 euroa kuukaudessa – 3 540 euroa kuukaudessa. Toi-
saalta kustannus kasvaisi myös käyttäjämäärän mukaan, kun tarvittaisiin enemmän 
GPU-resursseja rinnakkaisiin kyselyihin vastaamiseen. Vertailun vuoksi todettakoon, 
että OpenAI GPT-4o hinnoittelu on 5 dollaria eli noin 4,6 euroa / miljoona tokenia 
kielimallin syötteitä ja 15 dollaria eli noin 13,8 euroa / miljoona tokenia kielimallin 
vastauksia.39

Suomalaisten kielimallien käytön kustannuksessa nähdään samaa käyttäytymistä 
kuin kaupallisten mallien hinnoittelussa: kustannus riippuu sekä 1) valitun tekoälyn 
tai kielimallin koosta että 2) käytön määrästä, myös tekstin pituudessa mitattuna. 
Esikouluttamalla ja käyttämällä uudempia kielimalleja, joissa saadaan enemmän 
suorituskykyä irti samasta koosta tai parametrimäärästä, voimme parhaimmillaan 
laskea kustannuksia ja hiilijalanjälkeä.

4.4	 Palveludemon rakentaminen

4.4.1	 Palveludemon toiminta

Palveludemo rakennettiin web-palveluksi. Työkalussa on helppo käyttöliittymä 
kyselyihin, vastauksiin ja Semanttinen Finlex -hakutuloksiin. Työkalussa voi myös 
kokeilla kahta eri kielimallia, Finnish GPT 3B Instructia ja Poro 34B Chatia. Palvelu-
demo hyödyntää Finnish Sentence BERTiä lainsäädäntödatan hakuun Semanttisesta 
Finlexistä ja muodostaa vastauksen valitulla kielimallilla. Alla oleva kuva esittää pal-
veludemon toiminnan.

39	 https://openai.com/api/pricing/

https://openai.com/api/pricing/


52

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Kuvio 8.  Palveludemon toiminta

Palveludemossa käytettiin yksinkertaista käyttöliittymää, ja sitä parannettiin projek-
tin aikana useaan otteeseen palautteen perusteella. Esimerkiksi lain hakutulosten 
tiivistämiseen, järjestelyyn ja lain kohtien viitteisiin luotiin lainvalmistelijan tarpei-
siin sopiva formaatti.

Alla olevissa kuvissa on kuvakaappaukset palveludemon käyttöliittymästä sekä 
ohjeet palvelun käyttöön. Palvelussa voidaan hakea vastauksia kysymyksiin ja hakea 
niihin liittyviä säädöstekstejä. Hakutulosten linkit ohjaavat löydettyjen pykälien 
kohdalle Semanttinen Finlex-palvelussa.

Kuvio 9.  Palveludemon käyttöliittymä


53

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Kuvio 10.  Palveludemon käyttöliittymä

4.4.2	 Palveludemosta saatu palaute

Palveludemosta pyydettiin aktiivisesti palautetta käyttäjiltä heti, kun sen ensimmäi-
nen versio oli olemassa. Palvelun käytöstä keskusteltiin viikkopalavereissa, joiden 
jälkeen kehitystyötä ohjattiin palautteen mukaiseksi.

Palautetta pyydettiin myös kyselyllä, jossa kartoitettiin lainvalmisteluun tehokkuu-
teen ja vaikuttavuuteen liittyviä haasteita sekä käyttökokemuksia ja parannuside-
oita palveludemon käytöstä. Kyselyssä esimerkiksi kysyttiin, mitä tietoa käyttäjä 
yritti saada esille, miten helppoa työkalua oli käyttää, miten relevantteja ja luotetta-
via hakutulokset olivat ja miten hyödyllinen työkalu olisi, jos se toimisi tarkoitetulla 
tavalla.

Chat-pohjainen työkalu koettiin helppokäyttöiseksi, joskin hieman yksinkertaiseksi. 
Sen sijaan työkalun antamia hakutuloksia ei pidetty aina relevantteinä eikä varsin-
kaan vastauksia luotettavina.

”Sisällöltään systeemin antamat vastaukset vaikuttavat vähemmän sel-
keiltä tai edes luotettavilta.”

Palveludemon käyttäjä


54

Liikenne- ja viestintäministeriön julkaisuja 2024:9 

Palautteissa näkyi selvästi, miten tekniset rajoitteet ja kielimallien suorituskyky vai-
kuttivat käyttökokemukseen. Teknisiä rajoitteita olivat etenkin konteksti-ikkunan 
pituus lainsäädännön haussa ja tekstin luomisessa eli kysymyksiin vastaamisessa 
haetun lainsäädännön perusteella. Lyhyt konsteksti-ikkuna tarkoitti, että vastaami-
seen käytetyt lainsäädännön kohdat olivat pituudeltaan lyhyitä, jopa alle pykälän 
mittaisia. Tämän lisäksi vastaamisessa ei voitu käyttää kaikkia haluttuja hakutu-
loksia, vaan konteksti-ikkunaan mahtui noin 5–10 hakutulosta. Kielimallien suori-
tuskyky vastaamisessa näkyi myös niin, että vastaukset eivät perustuneet pyynnön 
mukaisesti hakutuloksiin. Kokonaisuudessaan nämä rajoitteet tarkoittivat, ettei 
käyttäjien kysymyksiin vastattu kattavasti ja tarkasti.

”Eniten arvoa olisi luonnollisesti luotettavuuden olennaisella paranemi-
sella ja kyvyllä analysoida aihetta kysymyksen ympärillä yksinkertaista 
oikean pykälän poimimista laajemmin. Nythän tuloksena on periaatteessa 
hiukan edistynyt ctrl+f -toiminto, mikä ei vielä tarjoa merkittävää tehok-
kuutta työhön.”

Palveludemon käyttäjä

Palaute vahvisti käsitystä asiantuntijoiden tarpeista ja tekoälyn mahdollisuuksista 
lainsäädännössä. Yli puolet vastaajista olivat samaa mieltä, että tärkeimpiä tehok-
kuuden haasteita ovat, että 1) joutuu kahlaamaan läpi paljon lakeja manuaalisesti 
ja arvioimaan lakien riippuvuussuhteita, 2) oman toimialan tuntemuksen ulkopuo-
lelta on hidasta saada vastauksia ja 3) ristiriitaisuuksien tunnistaminen on työlästä 
etenkin horisontaalisissa säädöksissä. Vaikuttavuuden tärkeimpänä haasteena puo-
let vastaajista näkivät tärkeimpänä haasteena, että lainvalmistelija työstää lakia vah-
vasti omaan ymmärrykseensä ja toimialansa tuntemukseen pohjautuen. Yli puolet 
olivat samaa tai täysin samaa mieltä, että toimiessaan työkalu auttaisi työtä.

”Sekin olisi arvokasta tietoa valmistelijalle, että riippuvuus vaikka kahden 
säädöksen välillä on ’todennäköinen’. Luomuälyä sitten käytettäisiin vain 
oleellisten tekstien/materiaalien lukemiseen. Riippuvuudet eivät siis aina 
selviä säädöstekstistä pelkästään ja tausta-aineistona tulisi olla ’kaikki 
säädökset’.”

Palveludemon käyttäjä

Palautteesta näkyi myös käyttäjien haluamat parannukset kielimalleihin ja tekoä-
lyratkaisuihin: kattava lainvalmistelun data, tarkempi hakutoiminto ja vastausten 
lisäksi työteht