Edycja elektroniczna Słownika wileńskiegoHistoria projektu
Bogdan Walczak pisał: „Wartość naukowa dawnych słowników to ich wartość źródłowa.”1 To zdanie stało się zachętą do podjęcia próby dygitalizacji bazodanowej dwutomowego Słownik języka polskiego wydanego w Wilnie w 1861 roku.
Przez dygitalizację bazodanową słownika rozumie się proces, w wyniku którego powstaje baza danych będąca elektroniczną wersją dygitalizowanego dokumentu.2
Przy udziale studentów Uniwersytetu Warszawskiego została przeprowadzona pierwsza dygitalizacja bazodanowa Słownika wileńskiego. Biorące udział w projekcie dwie grupy studentów pracowały nad pierwszym tomem Słownika. Przyjęte założenia nie zostały w pełni zrealizowane, ale nie oznacza to, że całość nie ma wartości. Studencka edycja elektroniczna udowodniła, że można dokonywać nowoczesnych reedycje danych słowników. Prototypowa elektroniczna wersja słownika została wystawiona w Internecie 8 grudnia 2007 roku na stronie: http://swil.zozlak.org.
Internetowa strona edycji prototypowej Słownika składa się z kilku elementów. Lewy margines zawiera indeks a fronte haseł wprowadzonych do bazy danych. Na prawym marginesie widoczny jest indeks a tergo. W centrum ekranu umieszczono wyniki dygitalizacji tekstowej i graficznej. W lewej części znajduje się plik tekstowy obejmujący hasła wydrukowane na jednej stronie słownika. Z prawej strony tekstu umieszczono okno przeznaczone na skan.
Prototypowa elektroniczna wersja Słownika wileńskiego daje możliwość różnorodnego wyszukiwania haseł. Dzięki polom „Def.” i „Przykład” bez czytania słownika strona po stronie, można wyszukać hasła, które zawierają określony ciąg znaków. Wpisany w pola wyszukiwania ciąg znaków może reprezentować fragment wyrazu, cały wyraz lub połączenie wyrazowe.
Opracowanie elektronicznej wersji słownika w formie bazy danych pozwala wzbogacać jego treść nie ingerując w tekst słownika. Ważnym elementem edycji prototypowej jest dodanie charakterystyki leksyki w polach tematycznych. Studenci przyporządkowali pierwsze znaczenie haseł do pól tematycznych opracowanych przez Stanisława Dubisza.3
Pozytywnie zweryfikowane metody dygitalizacji stały się podstawą do ubiegania się o grant na dygitalizację całego słownika. Wniosek został pozytywnie zaopiniowany. W połowie 2009 roku przystąpiono do realizacji projektu badawczego w ramach funduszy przeznaczonych na naukę w latach 2009-2012.
W wyniku realizacji projektu powstała elektroniczna edycja Słownika wileńskiego. Cel ten był realizowany trójstopniowo. W pierwszej kolejności przeprowadzono dygitalizację graficzną. W Internecie wystawiono skany z narzędziami umożliwiającymi nawigację oraz oglądanie podobizn stron Słownika w powiększeniu. Następnie do skanów dodano wersje tekstowe poszczególnych artykułów hasłowych. Stopniowo dodawano narzędzia wyszukiwania w bazie danych.
Internetowa strona projektu zmieniała się wielokrotnie. Ostateczna wersja składa się z kilku części. Są nimi:
- pole narzędzi
- pole indeksu
- pole wersji tekstowej
- pole skanu
- przycisk filtrów bazy danych.
Poszczególne części ekranu przeznaczone są na prezentację wyników poszczególnych etapów realizacji projektu: dygitalizacji graficznej, tekstowej i bazodanowej
Do korzystania z wyników dygitalizacji graficznej służą narzędzia informatyczne, które umożliwiają oglądanie skanów poszczególnych stron Słownika, przechodzenie ze strony na stronę i zmianę wielkości skanu.
Korzystanie z wyników dygitalizacji tekstowej ułatwiają narzędzia przeszukiwania indeksu. W indeksie Czytelnicy mogą wyszukać:
- wyraz hasłowy;
- zbiór artykułów hasłowych, których wyraz hasłowy rozpoczyna się jakimś ciągiem znaków;
- zbiór artykułów hasłowych, których wyraz hasłowy kończy się jakimś ciągiem znaków;
- zbiór artykułów hasłowych zawierających w wyrazach hasłowych jakiś ciąg znaków.
Wysortowane zbiory haseł można porządkować w układach a fronte i a tergo.
Najtrudniejszym etapem prac okazała się korekta plików tekstowych uzyskanych w wyniku procedury OCR. Nieoczekiwanie wyniki automatycznego rozpoznania tekstu tomu drugiego (znacznie obszerniejszego od pierwszego) dały rezultaty dalece niezadawalające. Mimo usilnych starań i wydłużenia prac nad korektą do końca nie udało się wyeliminować błędów w wersji tekstowej. Fakt jest ważny, bo rzutuje na kompletność wyników wyszukiwania. Realizacja dygitalizacji bazodanowej jest w pewnym stopniu zakłócona z powodu trudności na etapie wcześniejszym.
Trzeba zaznaczyć, że nawet obecna wersja tekstowa pozwala wyszukiwać ciągi znaków w tekście Słownika. Na przykład ciąg znaków słownik występuje w ponad dwudziestu artykułach hasłowych.
Przycisk „filtry” umożliwia wyszukiwanie zbiorów artykułów hasłowych zawierających wspólny element budowy.
Możliwe jest wyszukiwanie ze względu na ponad tysiąc szczegółowych kryteriów wyszukiwania zgrupowanych w filtrach: fonetyka, fleksja, części mowy, liczba, rodzaj, rzeczownik, przymiotnik i przysłówek, czasownik, słowotwórstwo, składnia, terminologia naukowa, terminologia wg, profesjolekty, etymologia, stylistyka, pragmatyka, poprawność, autor i źródło, leksyka, semantyka, zasięg chronologiczny, zasięg kulturowy, zasięg społeczny i zasięg terytorialny.
W tym miejscu nie sposób omówić wszystkie szczegółowe kryteria wyszukiwania. W bazie danych uwzględniono między innymi profesjolekty, które w Słowniku wileńskim są oznaczane w trojaki sposób. Najczęściej autorzy stosują zapisany kursywą skrót nazwy dziedziny, do której odnosi się dana jednostka. Można też spotkać wydzielony w nawiasie okrągłym zakres użycia ograniczony do wykonawców poszczególnych zawodów. Informacja o przynależności danej jednostki do leksyki specjalnej jest niejednokrotnie wpleciona w definicję.
ap. || apt.
|
bar. || bart. || (u bartników)
|
druk. || (u drukarza) || (u drukarzów) || (u druk.) || (w sztuce drukarskiéj) || u drukarzy
|
fl. || flis. || (u flisów) || u flisów
|
gis || (u gisera)
|
Wydzielona grupa filtrów „mówiąc o” pozwala wyszukiwać zbiory jednostek o użyciu ograniczonym do mówienia o ciele, czasie, ilości i liczbie, dźwiękach, kolorach, ludziach, kobietach, odzieniu, płynach, wytworach, pokarmach, przyrodzie, roślinach, rzeczach, zwierzętach, koniach, psach, ptakach.
Starano się, aby ilość i jakość filtrów odzwierciedlała cechy materiału językowego zarejestrowanego w Słowniku wileńskim i warsztat leksykograficzny autorów.
Wyniki prac na wszystkich etapach były prezentowane w środowisku polonistycznym i informatycznym. Wykaz prac opublikowanych w toku realizacji projektu znajduje się w zakładce Bibliografia.
Zainteresowanie EESW ciągle wzrasta. Świadczy o tym liczba zarejestrowanych czytelników. Pierwszego września były to już 722 osoby.
Ostatnia modyfikacja: 01.09.2012
1 Walczak B., Słownik wileński na tle dziejów polskiej leksykografii, Poznań 1991, s. 169.
2 Przyjętą terminologię omawia się w artykule: Majewska M.B., Projekt dygitalizacji „Słownika języka polskiego” wydanego w 1861 roku w Wilnie, „Poradnik Językowy”, 2010, z. 2., s. 46–56.
3 Por.: Dubisz S., Język - historia – kultura (wykłady, studia, analizy), Warszawa 2005, s. 132–140.
|