Vi forbedrer søgbarheden ved at rette fejl
Politiets efterretninger 1867-1930 er digitaliseret og søgbare på kbharkiv.dk.
For at gøre oplysningerne i efterretningerne søgbare, er de trykte bogstaver fra de historiske efterretninger blevet til søgbar tekst ved hjælp af automatisk tekstgenkendelse. Men ikke alle ord og bogstaver blev genkendt korrekt, og ved projektets start var derfor kun 80% af efterretningernes indhold søgbart.
Det satte vi os sidste år for at rette op på! Nu er vi næsten i mål og du kan være med til slutspurten.
- Læs mere om projektet med at gøre søgningen i politiets efterretninger bedre
- Gå direkte til vejledning til fejlretning af politiets efterretninger
Ret ord, der er genkendt forkert
Alle, der har lyst til at deltage, kan være med. Blot læs vejledningen inden du går i gang. Det er ikke svært og 5 minutters indsats gør også en forskel.
Vi retter fejlene ord for ord, efterretning for efterretning og vi tager en mindre portion efterretninger ad gangen. – Og nu er vi ved den sidste portion!
Rettelserne udføres online i et lille værktøj, vi har kaldt CorrectOCR, som vi har lavet til formålet.
Der bliver mindre at rette undervejs
Alle de rettede ord bliver indlæst i en stor ordbog, der gør programmet bag fejlretningen – CorrectOCR – klogere. Det betyder at hver gang vi er færdige med en portion efterretninger, bruger programmet ordbogen til at behandle næste portion efterretninger, der skal rettes.
Nu er ordbogen imidlertid så omfangsrig at vi kun behøver at rette 14 efterretninger mere, før vi vurderer at ordbogen kan rette resten af de i alt 15.000 efterretninger, så de også ender på en søgbarhed forventeligt over 95%.
Der er nemlig sket store forbedringer undervejs. Da vi havde rettet 120 efterretninger, havde ordbogen fået tilføjet så mange nye ord, at de næste efterretninger ikke skulle have gennemgået 20% af ordene, men blot lidt over 5 %.
Når de sidste 14 efterretninger er færdigrettede, retter vi alle 15.000 efterretninger igennem med ordbogen, og så vil søgbarheden på efterretningerne være forbedret markant.
Vi takker alle der foreløbig har været med til at rette – og håber vi sammen kan nå i mål med de sidste.