ŚNIADANIE Z KORPUSEM (1) – Wprowadzenie
Wpisem tym rozpoczynam tematykę korpusową na blogu. Będzie można znaleźć tu wskazówki jak korzystać z korpusów językowych, jak wykorzystywać je do nauki, oraz jak przeprowadzać na nich proste badanka/eksperymenty. Odpowiemy sobie też oczywiście na pytanie czym są korpusy, oraz zastanowimy się jakie mają plusy i minusy. Mam nadzieję, iż artykuły będą przydatne zarówno dla osób już zaznajomionych z tym tematem, jak i całkowitych nowicjuszy w świecie korpusów.
Niemalże za każdym razem, kiedy otwieramy dowolny podręcznik do
nauki języka angielskiego, trafiamy na różnego rodzaju „zasoby żywego języka”,
a więc pocztówki, artykuły, teksty piosenek, ogłoszenia, wywiady. Przydają się
nam one nie tylko w treningu czytania; bardzo często uczniowie mają na przykład
za zadanie wyszukać z tych źródeł słówka, próbować odgadywać ich znaczenie z
kontekstu, podać synonimy, antonimy etc. Dlaczego jest to tak ważne? Z
oczywistych przyczyn – wiedzę o języku zdobywamy z zasobów „wyprodukowanych”
przez rodzimych użytkowników danego języka, przez co uczymy się go jak gdyby od
nich samych, a nie z podręczników, czy od nauczycieli. Książki i pedagodzy mają
w pewnym sensie za zadanie jedynie przekazać nam wiedzę zgromadzoną w
oryginalnych materiałach językowych. Nie ma bowiem lepszego źródła wiedzy o
języku, a także samego języka, niż jego rodzimi użytkownicy.
Zastanówmy się teraz, z ilu słów składałby się zbiór takich
tekstów z jednego, dowolnego podręcznika do angielskiego (gdybyśmy mogli do
niego „wrzucić” wszystkie listy, pocztówki, teksty piosenek, artykuły,
zgromadzone w tym podręczniku). Dziesięć tysięcy? Nieźle, tym bardziej, że z
owych tekstów na pewno bylibyśmy w stanie wypisać co najmniej kilkanaście
nowych słówek (zależy jaki poziom podręcznika, a jaka nasza znajomość języka),
zapewne kilka idiomów, parę niezwykle użytecznych fraz, które brzmią
„angielsko”, a także poszukać synonimów. I właśnie zbiór takich tekstów nazwiemy
tytułowym korpusem. Już! Odpowiedzieliśmy sobie właśnie na pytanie, czym jest
korpus językowy. Jest to zbiór tekstów w danym języku. Po prostu. O tym
dlaczego jest to takie ważne i jak dokładniej przekłada się to na życie osób
zainteresowanych językiem kiedy indziej. Dzisiaj, tytułem wprowadzenia,
zaprezentuję ogólny zarys korpusów językowych, ich przydatności w pracy, nauce,
a także w zabawie (z) językiem angielskim J
Korpusem może być nazwany każdy obszerniejszy zbiór danych
tekstowych. Częściowo prawdą jest więc, iż historia korpusów jest prawie tak
stara, jak historia języka pisanego, ze szczególnym uwzględnieniem historii
gromadzenia danych tekstowych, lub powstawania zbiorów dokumentów. To, co
jednak szczególnie kryje się dziś pod hasłem „korpus” dotyczy danych tekstowych
gromadzonych w formie elektronicznej, a zatem jest to ściśle związane z
rewolucją komputerową, szczególnie w dziedzinie gromadzenia i przetwarzania
informacji w ogóle. Dzięki temu, że dane korpusowe są tworzone i przetrzymywane
w formie elektronicznej, korzystanie z nich jest o wiele prostsze i wygodniejsze.
To tak jak z komputerowym katalogiem w bibliotekach – szybciej dotrzemy do
interesującej nas pozycji wpisując jej dane w wyszukiwarkę, niż szukając jej na
półkach, bądź w katalogu u bibliotekarki.
Pamiętacie jak zgadywałem jaki rozmiar może mieć korpus różnego
rodzaju tekstów, z których korzysta podręcznik do języka angielskiego?
Strzelałem że ok. 10 000 słów. Należy o tym wspomnieć, gdyż rozmiar
korpusu mierzy się w liczbie słów. O jakich więc liczbach mowa? To zależy,
przede wszystkim od zastosowania korpusu. Najprostszym podziałem obowiązującym
w świecie korpusów jest ten na ogólne i specjalistyczne. Korpusy ogólne zostały
stworzone z myślą o reprezentowaniu danego języka po to, abyśmy mogli z nich
otrzymywać informacje na temat tego języka. Stąd rozmiary tych korpusów są
znaczne. Dla przykładu, liczba słów w Narodowym Korpusie Języka Polskiego
wynosi 430 milionów słów! Tak, rozmiary narodowych korpusów liczy się w setkach
milionów słów, a wszystko po to by uczynić je bardziej użytecznymi, tj.
reprezentatywnymi. Jeśli chcemy aby nasz korpus odzwierciedlał „kształt” i
charakter danego języka, musi on spełniać dwa podstawowe warunki. Po pierwsze:
rozmiar. W świecie korpusów obowiązuje zasada (w miażdżącej większości
przypadków): im więcej tym lepiej. Im więcej słów zawartych w danym korpusie,
tym bardziej wiarygodne dane możemy z niego pozyskać. Po drugie: reprezentatywność.
Chcąc otrzymać język w pigułce, czym w pewnym sensie jest korpus narodowy, musimy
uczynić go zróżnicowanym, na kształt zróżnicowania języka, na który jak wiadomo
składa się wiele elementów, takie jak język literacki, język prasowy, język
potoczny, teksty piosenek, język naukowy itd. Dlatego opracowując korpusy,
bierze się pod uwagę zróżnicowanie tekstów jakie mają one zawierać. Problem
tekstów mówionych (wywiady, debaty polityczne) jest wtedy rozwiązywany poprzez
transkrypcje, czyli przez zapis tychże zasobów mówionych. Wspomniany przeze
mnie NKJP ma komponent języka mówionego w postaci transkrypcji w rozmiarze aż
30 milionów słów. Ma to ogromne znaczenie w kwestii reprezentatywności, wiemy
bowiem wszyscy, że język mówiony różni się znacznie od języka pisanego. Co do
korpusów specjalistycznych, tworzone są one, jak sama nazwa wskazuje, na
specjalne potrzeby, najczęściej językoznawców. Mogą to być na przykład zbiory
tekstów prawniczych, medycznych, czy sportowych. Oczywiście każdy może stworzyć
swój własny korpus tekstów, np. piosenek, bajek, baśni, dosłownie wszelkich
typów tekstów pisanych. Owy blog również stanowi swoisty korpus artykułów w nim
publikowanych.
To tyle jeśli chodzi o wprowadzenie do świata korpusów. Czemu
zatem w ogóle zdecydowałem się o nich napisać? Dlaczego warto o nich pisać,
mówić i pamiętać? Korpusy są niezwykle użytecznym narzędziem w badaniach nad
językiem, przekładzie i nauce języka. W ramach niniejszego cyklu artykułów będę
chciał przybliżyć wam ich specyfikę i przydatność a także pokazać ciekawsze
rozwiązania w zabawie (z) językiem. Dziś ledwie kilka wzmianek o tym jak mogą
nam się przydać. Na początek jednak jeszcze jedno porównanie.
Zapewne wielu z was wpisywało wielokrotnie słówko o nieznanym do
tej pory znaczeniu w okienko wyszukiwarki internetowej, na przykład Google. Chcieliście
wtedy z pewnością trafić na jakiś trop: słówko w kontekście, definicję itp.
Niektórzy twierdzą, iż Google jest swoistym korpusem, gdyż gwarantuje dostęp do
ogromnej ilości danych cyfrowych. To prawda, lecz tylko w pewnym sensie. W
Google znajdziemy strony słowników, encyklopedii, czy leksykonów, które szukane
słówko nam natychmiast objaśnią. Korpusy nie są w żadnym wypadku słownikami.
One pomogą nam znaleźć szukane słowo w tekstach, które je zawierają, a my wtedy
zobaczymy w jakich kontekstach w i w ogóle jak takie słówko występuje.
Udajmy się więc pod adres http://www.nkjp.uni.lodz.pl/. Jest to
wyszukiwarka dla Narodowego Korpusu Języka Polskiego. W okienko wyszukiwarki
wpiszmy frazę: „że tak powiem”, wybór zatwierdźmy przyciskiem „SZUKAJ”.
Otrzymany wynik to wszystkie wystąpienia tej frazy w korpusie. W tym momencie
wyszukiwarka pokazuje mi 2.811 akapitów, a więc właśnie tyle wystąpień tej
frazy istnieje w korpusie. Widzimy fragmenty tekstów zawierające frazę „że tak
powiem” ułożone jeden pod drugim. Dodatkowo, fraza jest wyróżniona, a także
układa się w idealną pionową kolumnę. Taki sposób przedstawiania wyników
nazywamy KONKORDANCJĄ (concordance) i to słowo warto zapamiętać, gdyż będziemy
go często używać w naszych rozważaniach na temat korpusów. Często mówi się też
o liniach konkordancyjnych (concordance lines), które są po prostu
poszczególnymi wierszami, uszeregowanymi jeden pod drugim.
Jaką informację uzyskujemy na temat frazy „że tak powiem” z naszego
zapytania? Choćby potwierdzenie tego, iż jest ona typowa dla języka mówionego,
o czym świadczą fragmenty z których te frazy pochodzą. Widać, iż są to dialogi,
a zatem najpewniej pochodzą one z tekstów literackich. Jeśli klikniemy na
krzyżyk w zielonym kółku, znajdujący się po prawej stronie konkordancji,
uzyskamy dokładne dane tekstu z którego poszczególny element pochodzi. Inną
ciekawą obserwacją może być fakt, że „że tak powiem” jako wtrącenie zawsze
umieszczone będzie między przecinkami w tekście.
Polski polskim, nas jednak zawsze nieco bardziej będzie
interesował język angielski. Udajmy się zatem pod adres innej wyszukiwarki,
przeznaczonej do przeglądania innego korpusu. Jest to British National Corpus
(100 milionów słów), a więc korpus narodowy języka angielskiego. Skorzystajmy z
adresu: http://212.191.73.200/PPHome/corpora/bnc.jsp.
Wpisujemy dowolne słowo/frazę, którego istnieniu w korpuse (a więc i języku)
chcemy się przyjrzeć. Na rozgrzewkę proponuję „however”.
59586 trafień to bardzo dużo. Na tyle dużo, iż możemy śmiało
uznać, że to co przedstawiają konkordancje jest prawdziwe i w podobny sposób
możemy użyć tego słówka przez nas samych (a więc na początku zdania, dla
wprowadzenia przeciwstawnego argumentu, lub między przecinkami, jeśli chcemy
kontynuować zdanie). Oczywiście liczba trafień jest proporcjonalna do statusu
słowa, jakie ma ono w języku. Logiczne jest więc, iż najliczniejsze grupy słów
w korpusie to: articles, prepositions, linking words etc.
Zademonstrowałem prosty sposób korzystania z korpusów przy
szukaniu poszczególnych słów/fraz danego języka. Zachęcam do wpisywania swoich
własnych, które są dla was kłopotliwe, bądź szczególnie ciekawe. I przypominam,
co zresztą właśnie zobaczyliście, że korpusy
nie są słownikami, nie zawierają definicji słów. Pokazują natomiast występowanie słów w kontekście,
a więc coś, co jest również szalenie ważne przy nauce słownictwa, co zresztą
już wiecie, kiedy zapoznajecie się z nowym materiałem leksykalnymJ Tym
samym korpusy stanowią świetne uzupełnienie
danych słownikowych.
Przykłady „sytuacji”, w których polecam korzystanie z korpusu:
·
prepositions, którym poświęciłem
swój pierwszy wpis na blogu pleasure-of-english.blogspot.com. W razie problemów z jakimikolwiek wpisz wyrażenia
przyimkowe do wyszukiwarki korpusu i zobacz w jakich kontekstach występują (np.
anxious about vs. anxious for)
·
synonimy. Temat na osobny wpis.
Potrzebujesz synonimów przy pisaniu wypracowania? Zajrzyj do korpusu. Samo
wyszukiwanie synonimii wymaga nieco znajomości wyszukiwarki, więc więcej o tym
następnym razem.
·
komplementacja czasownika. Jeśli
zastanawiasz się, czy po danym czasowniku należy użyć bezokolicznika, formy
gerundialnej (-ing), czy może that-clause,
korpus może pomóc rozwiązać problem.
·
kolokacje. Istnieją oczywiście
słowniki kolokacji, jednakże bezcennym doświadczeniem jest sprawdzenie
kontekstu, tudzież „otoczenia” danej kolokacji. czy możemy napisać „large
difference”, czy może lepiej „big” albo „substantial difference” Sprawdź!
·
idiomy. Wpisz dany idiom w
wyszukiwarkę korpusową, a w otrzymanym wyniku zwróć uwagę na jego „otoczenie”,
jak został użyty, mniej więcej w jakiej sytuacji. Pomoże to zrozumieć jego
specyfikę i miejsce w języku.
Oczywiście to tylko kilka z wielu sytuacji, takie „pierwsze z
brzegu”.
Zachęcam do odwiedzenia poniższych adresów. Jeśli istnieje większe
grono osób odwiedzające tego bloga (a
zatem jest szansa, że przeczytają ten artykuł), to już za tydzień będziecie
zapewne drodzy czytelnicy po pierwszych kliknięciach waszych myszy w wyżej i
niżej zaprezentowanych wyszukiwarkach korpusowych. Ciekaw jestem czy wam się
spodoba i jak pójdzie. Za tydzień zaprezentuję, jak z korpusu otrzymać ciekawe
i przydatne informacje o języku, np. w badaniu synonimii.
http://nkjp.pl
– Narodowy Korpus Języka Polskiego
http://www.natcorp.ox.ac.uk/ - British National Corpus
Świetny post. Takie korpusy z pewnością będą nieodzowną pomocą dla tłumaczy, którzy muszą przecież sprawdzać każde słówko w kontekście.
OdpowiedzUsuńKorpusy w przekładzie to też sam w sobie temat-rzeka... Więc pewnie wrzucę jakiś post na ten temat. Na bloga wracam od września :)
Usuń