Tagger

Deltag

Du er mere end velkommen til at deltage i udviklingen af taggeren. Lige nu er der primært to måder af bidrage på. Enten kan du forbedre koden, eller også kan du publicere et datassæt.

Kode

Hvis du vil arbejde med koden så fork koden på github, gør den bedre og send et pullrequest

Nedenfor kan du se nogen af de ting, vi gerne vil forbedre.
Datasæt

Hvis du har et datasæt, så kontakt os på [email protected]. Så kan vi publicere det på download-siden.

Roadmap

Denne liste indholder nogle idéer til, hvilken retning udviklingen af taggeren kunne tage. Det er bare nogle idéer. Du kan i høj grad selv være med til at definere, hvad der skal ske.

Tvetydigheder

Afklaringen af tvetydigheder kunne godt blive bedre. Man kunne fx overveje at afgøre tvetydigheder ud fra alle de andre ord i teksten, i stedet for som nu kun at bruge andre fundne tags. På den måde kunne man fx bruge ikke-egennavne, som fx rock i stedet for Kasper Eistrup til at afgøre om egennavnet Kashmir er en region eller et band.

Dette er nu implementeret
Relevans

En god, ny feature kunne også være muligheden for at score relevansen af den enkelte entitet. Fx ved at se på om et givent navn stod i overskriften eller i brødteksten - og hvor mange gange den enkelte entitet optræder i teksten.

Dette har Malthe nu lavet som en del af "Kod i Ferien"-projektet
Nøgleord

Det er planen, at taggeren skal kunne mere end NER, altså genkendelse af egennavne. Det kunne være rigtig godt, hvis den også kunne bruges til at finde abstrakte nøgleord, eller emner, som fx støjrock eller retspolitik.

Dette er nu implementeret.
Fælles, opdaterede datasæt

Vi håber på at kunne lave et fælles, generisk datasæt, som vedligeholdes centralt, men som kan bruges decentralt. Derved ville vi undgå at flere forskellige brugere skal vedligeholde og opdatere hvert deres sæt. Et sådant fælles datasæt kunne fx tage udgangspunkt i den danske wikipedia

Tagger

Autotag din tekst!

Deltag

Kode

Datasæt

Roadmap

Tvetydigheder

Relevans

Nøgleord

Fælles, opdaterede datasæt