Deltag
Du er mere end velkommen til at deltage i udviklingen af taggeren. Lige nu er der primært to måder af bidrage på. Enten kan du forbedre koden, eller også kan du publicere et datassæt.
-
Kode
Hvis du vil arbejde med koden så fork koden på github, gør den bedre og send et pullrequest
Nedenfor kan du se nogen af de ting, vi gerne vil forbedre.
-
Datasæt
Hvis du har et datasæt, så kontakt os på [email protected]. Så kan vi publicere det på download-siden.
Roadmap
Denne liste indholder nogle idéer til, hvilken retning udviklingen af taggeren kunne tage. Det er bare nogle idéer. Du kan i høj grad selv være med til at definere, hvad der skal ske.
-
Tvetydigheder
Afklaringen af tvetydigheder kunne godt blive bedre. Man kunne fx overveje at afgøre tvetydigheder ud fra alle de andre ord i teksten, i stedet for som nu kun at bruge andre fundne tags. På den måde kunne man fx bruge ikke-egennavne, som fx rock i stedet for Kasper Eistrup til at afgøre om egennavnet Kashmir er en region eller et band.
Dette er nu implementeret
-
Relevans
En god, ny feature kunne også være muligheden for at score relevansen af den enkelte entitet. Fx ved at se på om et givent navn stod i overskriften eller i brødteksten - og hvor mange gange den enkelte entitet optræder i teksten.
Dette har Malthe nu lavet som en del af "Kod i Ferien"-projektet
-
Nøgleord
Det er planen, at taggeren skal kunne mere end NER, altså genkendelse af egennavne. Det kunne være rigtig godt, hvis den også kunne bruges til at finde abstrakte nøgleord, eller emner, som fx støjrock eller retspolitik.
Dette er nu implementeret.
-
Fælles, opdaterede datasæt
Vi håber på at kunne lave et fælles, generisk datasæt, som vedligeholdes centralt, men som kan bruges decentralt. Derved ville vi undgå at flere forskellige brugere skal vedligeholde og opdatere hvert deres sæt. Et sådant fælles datasæt kunne fx tage udgangspunkt i den danske wikipedia