Gør søgningen i politiets efterretninger bedre

De trykte bogstaver fra efterretningerne er blevet til søgbar tekst ved hjælp af automatisk tekstgenkendelse. Men programmet har ikke genkendt alle bogstaver korrekt. Vær med til at rette fejlene.

Automatisk tekstgenkendelse tager nogle gange fejl 

Politiets efterretninger 1867-1930 er digitaliseret og søgbare på kbharkiv.dk. Over 15.000 efterretninger skrevet med både gotisk frakturskrift og almindelig maskinskrift. 

For at gøre oplysningerne i efterretningerne søgbare, blev de scannede sider OCR-behandlet (optical character recognition). Det betyder at et computerprogram har kigget på siderne og forsøgt at genkende sidernes indhold som tekst, der kan søges i. Men programmet genkendte ikke alle ord og bogstaver korrekt – og stavefejlene gør at ca. 20% af efterretningernes indhold nu ikke er søgbar.  

Det kan du være med til at forbedre! 

Ret ord, der er genkendt forkert 

Fejlretning er ikke svær, men kræver dog for en del af efterretningernes vedkommende, at du kan læse trykt frakturskrift. 

Alle, der har lyst til at deltage, kan være med. Blot læs vejledningen inden du går i gang.

Vi retter fejlene ord for ord, efterretning for efterretning. Men vi tager en mindre portion efterretninger ad gangen. Når portionen er færdig, opdaterer vi kbharkiv.dk med de rettede efterretningerne. 

Rettelserne udføres online i et lille værktøj vi har lavet til formålet. Det har vi kaldt CorrectOCR. Værktøjet og projektet er stadig i BETA. Det betyder at det stadig er under udvikling og test.

Der bliver mindre at rette undervejs 

Alle de rettede ord bliver indlæst i en stor ordbog, der gør programmet bag fejlretningen – CorrectOCR – klogere.  Det betyder at hver gang vi er færdige med en portion efterretninger, bruger programmet ordbogen til at behandle næste portion efterretninger, der skal rettes. 

Endvidere kan CorrectOCR komme med forslag til passende rettelser. I begyndelsen vil forslagene ikke være så gode, men efterhånden som ordbogen vokser, og systemet lærer mere om de typiske fejl, kan det selv lave flere rettelser. For at give ordbogen en passende kulturhistorisk dannelse, har vi ladet den læse Grundtvig, Herman Bang, Georg Brandes, samt Johannes V. Jensen. 

For hver portion efterretninger der gennemgås, vil være færre fejl at rette i den næste!

Faktisk er der allerede sket store forbedringer. Efter at de første 100 efterretninger var blevet rettet havde ordbogen fået tilføjet så mange nye ord, at de efterretninger, der nu ligger i CorrectOCR ikke skal have gennemgået 20% af ordene, men kun 10%. Når vi har fået den procentsats et stykke længere ned, retter vi alle 15.000 efterretninger igennem med ordbogen og så vil søgbarheden på efterretningerne være forbedret markant.

Emner

Se mere indhold om