Wyszukiwarka Poliqarp/marasca – Fundacja Języka Polskiego

To jest nowa wersja retrodygitalizacji drugiego wydania słownika Lindego w formie dwuwarstwowego (teksty i skany) korpusu DjVu z indeksem i wyszukiwarką Poliqarp wykorzystującą dwupoziomowe wyrażenia regularne. Jest ona uzupełniona przez indeks, który pozwala wyszukiwać hasła na listach *a fronte* i *a tergo*.

Niniejsza wersja korpusu jest dostępna od listopada 2016. Korpus ten liczy ok. 7 mln segmentów, odpowiadającym około 5000 stronom słownika.

Aktualnie rekomendowaną formą powoływania się w publikacjach naukowych na dygitalizację słownika i wyszukiwarkę jest cytowanie artykułu Skanowane teksty jako korpusy lub Efficient search in hidden text of large DjVu documents. Rekomendowaną formą powoływania się na indeks jest cytowanie referatu Elektroniczny indeks do słownika Lindego.

Zaleca się korzystanie z korpusu i indeksu za pomocą programu the djview4poliqarp, najlepiej razem z programem djview4 który obsługuje spisy treści zawarte w plikach słownika.

Skany wykonała Joanna A. Bilińska na skanerze Fujitsu fi-6130 przy użyciu programu scanhelper , która również wykorzystała program Scan Tailor do ulepszenia skanów. Janusz S. Bień skonwertował je na format DjVu za pomocą programu didjvu. Wykonal on również OCR (automatyczne rozpoznanie znaków) za pomocą programu ocrodjvu korzystającego z silnika Tesseract. Różne dodatkowe operacje na wynikach OCR wykonali Janusz S. Bień i Michał Rudolf. Korpus przygotował i opublikował w Internecie Michał Rudolf.

Wyszukiwanie może być ograniczone do konkretnych tomów za pomocą warunku meta, np. meta volume=6.

Warunek meta może być również uzywany do ograniczenia wyszukiwania z użyciem innych pól metadanych, ale nie jest to praktyczne.

Każdy segment (słowo, znak interpunkcyjny) ma nastepujące atrybuty:

orth, segment tekstowy wydzielony zgodnie z Unicode® Standard Annex #29 Unicode Text Segmentation
base, to samo co orth
lang, możliwe wartości: de (język niemiecki, raczej wiarygodne), fr (język francuski, raczej wiarygodne), pl (inne języki łącznie z polskim), ru (aktualnie nie używane), en (aktualnie nie używane);
script, mozliwe wartości : latn (normalne pismo łacińskie i błędnie rozpoznane inne pisma), latf (tekst niemiecki drukowany czcionką gotycką), cyrl (cyrylica, aktualnie nie używane);
series, grubość czcionki - możliwe wartości, raczej mało wiarygodne: medium, bold;
shape, postura czcionki - możliwe wartości, raczej mało wiarygodne: upright, italic;
wconf prawdopodobieństwo prawidłowego rozpoznania znaku, wartość jest cyfrą; do atrybutu można stosować wyrażenia regularne postaci np [8-9] (wysokie prawdopodobieństwo); taka reprezentacja atrybutu zaproponował Jakub Wilk.