Categories
2020

Natural Language Processing får sin rette plads

Med fuld bevidsthed om at gentage 2016, 2017, 2018 og 2019 forudsigelser, og med en klar risiko for at jeg ser naiv ud i 2021, så tror og håber jeg på at 2020 bliver året hvor Natural Language Processing får sin rette plads i det danske medielandskab.

Af Claus Ladefoged
Digital Udviklingschef for TV2 Regionerne

Hold dig opdateret på Mediernes Fremtid:




For en god ordens skyld, så er Natural Language Processing (NLP) kort sagt systematisering af tekst, således at programmering kan forstå indholdet af eksempelvis artikler. Dette kan anvendes i mange sammenhænge, og for vores vedkommende hos TV2 Regionerne ønsker vi at anvende det til personificering af indhold, hvilket vi næppe er de eneste, som overvejer.

Min intention ved at skrive denne artikel er at give et opråb om, at vi (næsten) er teknologisk moden til NLP i Danmark – og spørge, om ikke vi skal samarbejde på tværs af medievirksomheder om at udvikle dansk NLP. Vi har jo stort set samme behov ved netop
dette område.

I min ydmyge optik, og jeg kan meget vel tage fejl og have overset større barrierer, er der følgende, som tidligere har holdt NLP tilbage fra større anvendelse i de danske medier, og som jeg bilder mig selv ind er ved at være overkommet, hvorfor jeg tror på fremdriften i 2020.

Frygt

NLP er machine learning, og derfor må det jo være kompliceret? Og er det kompliceret, kræver det stort tilløb, og formentlig også en stor pengepung? Det tror jeg dog efterhånden, de fleste via eksperimentering har fundet ud af, langt fra er tilfældet. Der findes en lang række open source-moduler, som kan strikkes sammen og anvendes efter behov.

Det største arbejde ligger i stedet i manuel tilpasning af modulernes forståelse af det anvendte sprog. Har man ikke allerede eksperimenteret, så gør det. Man kan blive bidt af det.

Infrastruktur

Man skal være gearet til det. Eksempelvis skal vi hos TV2 Regionerne have samlet vores artikler og tilbyde et sted, hvor NLP-modulerne kan stikke snablen ned og returnere noget brugbart, samt tage dette i anvendelse.

Hos de fleste medievirksomheder vil infrastrukturen formentlig skulle optimeres, eller måske er der andre udviklingsprojekter som overskygger NLP-udvikling. Men forhåbentlig er vejen ved at være banet.

Synlighed

Lad os være ærlige; mange beslutningstagere vælger udviklingsprojekter som viser tydelig fremdrift, og nedprioriterer egentlig vigtige projekter, fordi udviklingen ikke er synlig.

Man kan godt lancere velfungerende NLP-teknologi, uden nogen bider mærke i det, mens et nyt funklende videounivers giver masser af kredit og opmærksomhed. Gudskelov kan vi kigge mod udenlandske medier som anvender NLP, og som kan bevise synlig forskel i KPI-arket.

Prioritering af indhold

Der er en klar fare for, at machine learning kan tage overhånd, og der skal absolut være en redaktion som fremhæver indhold uden om det automatiserede anbefalede indhold. Der er gudskelov stort fokus på at holde en klar redaktionel linje, og nogle har allerede brændt sig og delt deres erfaringer.

Kvalitet

Arbejder man med NLP vil man kunne finde frem til hvor korrekt, ens NLP-modul er. Eksempelvis kan en sentimentanalyse af modulet være 87% korrekt eller 91% korrekt og misforstå det resterende.

Det lyder godt at sige, at modulet i 91% af tilfældene er spot-on, men vi kan vel godt acceptere 4% færre træffere, og så iterativt arbejde os op. Det tror jeg på vi er blevet agile nok til acceptere.

Dansk korpus

Den helt store barriere for NLP i Danmark er vores kryptiske nordgermanske sprog, som jo egentlig forståeligt nok, især for en midtjyde som undertegnede. Men det er svært for en computer at forstå. Men her sker der for alvor noget lige nu:

Ønsker man at anvende NLP til eksempelvis engelske tekster, er man godt stillet. Her findes der moduler som er optrænet og forstår engelsk, og så er det blot at koble NLP-moduler på, og så har man et NLP-setup.

Det er også forsøgt at lave korpusser som forstår dansk, og det kan være jeg tager fejl, men uden kontekst nok til at modulet kunne oplæres tilstrækkeligt til at forstå sproget i en brugbar form. Det er fundamentalt nødvendigt, at systemet forstår dansk, hvis vi vil anvende alle de sexede NLP-moduler, som er frit til rådighed på markedet.

Samarbejde med ITU

Gudskelov for os i mediebranchen har ITU, og bestemt også andre, smøget ærmerne op og taget sagen i egen hånd, og er i gang med at udvikle et brugbart dansk korpus. Hos ITU går projektet under navnet Gigaword, og jeg er stolt over at kunne sige, at TV2 Regionerne er en del af projektet.

Korpuset har som intention at indeholde minimum 1 milliard danske ord i kontekst, som skal danne et netværk af det danske sprog, som korpuset dermed kan forstå. Det er tidligere anvendt at danne et netværk af ord baseret på Wikipedia, lovtekster osv., men hos TV2 Regionerne har vi et stort arkiv af lokalt forankrede nyheder som i den grad kan berige korpusets forståelse af dansk.

Det er sådanne projekter der i al beskeden skal til for at Danmark kan følge med andre lande omkring NLP – selv Island er mere fremme i skoene i dag end Danmark, no offence Island, men så alligevel.

Lad os samarbejde

Hvorfor opfordrer og håber jeg så på samarbejde omkring NLP på tværs af medier i Danmark i 2020?

Først og fremmest forsøger vi at opnå det samme mange steder, så hvorfor ikke hjælpes ad, frem for at bruge virksomhedens eller skatteydernes penge på det? Og mon ikke slutresultatet bliver bedre, hvis vi arbejder mange kompetencer sammen om det, hvilket i sidste ende er til gavn for den kære læser?

Dertil er det for en sjælden gang skyld et teknisk område, som er let at arbejde sammen om. Normal vis er teknik ikke let at samarbejde om på tværs af medier da vores setup ikke er identisk, men NLP fungere i selvstændige moduler, som herefter blot kan tweakes efter eget behov.

Personligt har jeg selv arbejdet i Jupyter Notebook, hvori man simpelt kan udvikle diverse NLP-moduler skrevet i eksempelvis Python. Skriv koden til NLP-modulet deri, og del din notebook med andre, og lad dem berige modulet. Jeg synes, det er oplagt.

NLP er udbredt i danske e-commerce-forretninger, som arbejder med engelsktalendekunder. Jeg har personligt selv været med til at udvikle et NLP-modul, som analyserede brugeres holdning omkring produkter baseret på deres kommentarer, hvilket blot tog tre måneder at udvikle for to (meget dygtige) udviklere, og som i den grad gavnede virksomheden. Nu synes jeg tiden, er kommet til den danske mediebranche også.

Jeg er fuldt ud klar over at der er mange andre ambitiøse initiativer kørende omkring NLP i Danmark end de enkeltstående tilfælde, jeg har nævnt her, eksempelvis danlp.alexandra.dk.

Jeg håber blot, min opfordring er klar: At vi hos TV2 Regionerne er klar til samarbejde.

Så tøv ikke med at kontakte mig hvis vi skal tage en uforpligtende sort kop kaffe og gøre NLP til en brugbar størrelse i 2020(/21).

« Se de andre artikler om medieåret 2020