ŚNIADANIE Z KORPUSEM (1) – Wprowadzenie

Wpisem tym rozpoczynam tematykę korpusową na blogu. Będzie można znaleźć tu wskazówki jak korzystać z korpusów językowych, jak wykorzystywać je do nauki, oraz jak przeprowadzać na nich proste badanka/eksperymenty. Odpowiemy sobie też oczywiście na pytanie czym są korpusy, oraz zastanowimy się jakie mają plusy i minusy. Mam nadzieję, iż artykuły będą przydatne zarówno dla osób już zaznajomionych z tym tematem, jak i całkowitych nowicjuszy w świecie korpusów.


Niemalże za każdym razem, kiedy otwieramy dowolny podręcznik do nauki języka angielskiego, trafiamy na różnego rodzaju „zasoby żywego języka”, a więc pocztówki, artykuły, teksty piosenek, ogłoszenia, wywiady. Przydają się nam one nie tylko w treningu czytania; bardzo często uczniowie mają na przykład za zadanie wyszukać z tych źródeł słówka, próbować odgadywać ich znaczenie z kontekstu, podać synonimy, antonimy etc. Dlaczego jest to tak ważne? Z oczywistych przyczyn – wiedzę o języku zdobywamy z zasobów „wyprodukowanych” przez rodzimych użytkowników danego języka, przez co uczymy się go jak gdyby od nich samych, a nie z podręczników, czy od nauczycieli. Książki i pedagodzy mają w pewnym sensie za zadanie jedynie przekazać nam wiedzę zgromadzoną w oryginalnych materiałach językowych. Nie ma bowiem lepszego źródła wiedzy o języku, a także samego języka, niż jego rodzimi użytkownicy.

Zastanówmy się teraz, z ilu słów składałby się zbiór takich tekstów z jednego, dowolnego podręcznika do angielskiego (gdybyśmy mogli do niego „wrzucić” wszystkie listy, pocztówki, teksty piosenek, artykuły, zgromadzone w tym podręczniku). Dziesięć tysięcy? Nieźle, tym bardziej, że z owych tekstów na pewno bylibyśmy w stanie wypisać co najmniej kilkanaście nowych słówek (zależy jaki poziom podręcznika, a jaka nasza znajomość języka), zapewne kilka idiomów, parę niezwykle użytecznych fraz, które brzmią „angielsko”, a także poszukać synonimów. I właśnie zbiór takich tekstów nazwiemy tytułowym korpusem. Już! Odpowiedzieliśmy sobie właśnie na pytanie, czym jest korpus językowy. Jest to zbiór tekstów w danym języku. Po prostu. O tym dlaczego jest to takie ważne i jak dokładniej przekłada się to na życie osób zainteresowanych językiem kiedy indziej. Dzisiaj, tytułem wprowadzenia, zaprezentuję ogólny zarys korpusów językowych, ich przydatności w pracy, nauce, a także w zabawie (z) językiem angielskim J

Korpusem może być nazwany każdy obszerniejszy zbiór danych tekstowych. Częściowo prawdą jest więc, iż historia korpusów jest prawie tak stara, jak historia języka pisanego, ze szczególnym uwzględnieniem historii gromadzenia danych tekstowych, lub powstawania zbiorów dokumentów. To, co jednak szczególnie kryje się dziś pod hasłem „korpus” dotyczy danych tekstowych gromadzonych w formie elektronicznej, a zatem jest to ściśle związane z rewolucją komputerową, szczególnie w dziedzinie gromadzenia i przetwarzania informacji w ogóle. Dzięki temu, że dane korpusowe są tworzone i przetrzymywane w formie elektronicznej, korzystanie z nich jest o wiele prostsze i wygodniejsze. To tak jak z komputerowym katalogiem w bibliotekach – szybciej dotrzemy do interesującej nas pozycji wpisując jej dane w wyszukiwarkę, niż szukając jej na półkach, bądź w katalogu u bibliotekarki.

Pamiętacie jak zgadywałem jaki rozmiar może mieć korpus różnego rodzaju tekstów, z których korzysta podręcznik do języka angielskiego? Strzelałem że ok. 10 000 słów. Należy o tym wspomnieć, gdyż rozmiar korpusu mierzy się w liczbie słów. O jakich więc liczbach mowa? To zależy, przede wszystkim od zastosowania korpusu. Najprostszym podziałem obowiązującym w świecie korpusów jest ten na ogólne i specjalistyczne. Korpusy ogólne zostały stworzone z myślą o reprezentowaniu danego języka po to, abyśmy mogli z nich otrzymywać informacje na temat tego języka. Stąd rozmiary tych korpusów są znaczne. Dla przykładu, liczba słów w Narodowym Korpusie Języka Polskiego wynosi 430 milionów słów! Tak, rozmiary narodowych korpusów liczy się w setkach milionów słów, a wszystko po to by uczynić je bardziej użytecznymi, tj. reprezentatywnymi. Jeśli chcemy aby nasz korpus odzwierciedlał „kształt” i charakter danego języka, musi on spełniać dwa podstawowe warunki. Po pierwsze: rozmiar. W świecie korpusów obowiązuje zasada (w miażdżącej większości przypadków): im więcej tym lepiej. Im więcej słów zawartych w danym korpusie, tym bardziej wiarygodne dane możemy z niego pozyskać. Po drugie: reprezentatywność. Chcąc otrzymać język w pigułce, czym w pewnym sensie jest korpus narodowy, musimy uczynić go zróżnicowanym, na kształt zróżnicowania języka, na który jak wiadomo składa się wiele elementów, takie jak język literacki, język prasowy, język potoczny, teksty piosenek, język naukowy itd. Dlatego opracowując korpusy, bierze się pod uwagę zróżnicowanie tekstów jakie mają one zawierać. Problem tekstów mówionych (wywiady, debaty polityczne) jest wtedy rozwiązywany poprzez transkrypcje, czyli przez zapis tychże zasobów mówionych. Wspomniany przeze mnie NKJP ma komponent języka mówionego w postaci transkrypcji w rozmiarze aż 30 milionów słów. Ma to ogromne znaczenie w kwestii reprezentatywności, wiemy bowiem wszyscy, że język mówiony różni się znacznie od języka pisanego. Co do korpusów specjalistycznych, tworzone są one, jak sama nazwa wskazuje, na specjalne potrzeby, najczęściej językoznawców. Mogą to być na przykład zbiory tekstów prawniczych, medycznych, czy sportowych. Oczywiście każdy może stworzyć swój własny korpus tekstów, np. piosenek, bajek, baśni, dosłownie wszelkich typów tekstów pisanych. Owy blog również stanowi swoisty korpus artykułów w nim publikowanych.

To tyle jeśli chodzi o wprowadzenie do świata korpusów. Czemu zatem w ogóle zdecydowałem się o nich napisać? Dlaczego warto o nich pisać, mówić i pamiętać? Korpusy są niezwykle użytecznym narzędziem w badaniach nad językiem, przekładzie i nauce języka. W ramach niniejszego cyklu artykułów będę chciał przybliżyć wam ich specyfikę i przydatność a także pokazać ciekawsze rozwiązania w zabawie (z) językiem. Dziś ledwie kilka wzmianek o tym jak mogą nam się przydać. Na początek jednak jeszcze jedno porównanie.

Zapewne wielu z was wpisywało wielokrotnie słówko o nieznanym do tej pory znaczeniu w okienko wyszukiwarki internetowej, na przykład Google. Chcieliście wtedy z pewnością trafić na jakiś trop: słówko w kontekście, definicję itp. Niektórzy twierdzą, iż Google jest swoistym korpusem, gdyż gwarantuje dostęp do ogromnej ilości danych cyfrowych. To prawda, lecz tylko w pewnym sensie. W Google znajdziemy strony słowników, encyklopedii, czy leksykonów, które szukane słówko nam natychmiast objaśnią. Korpusy nie są w żadnym wypadku słownikami. One pomogą nam znaleźć szukane słowo w tekstach, które je zawierają, a my wtedy zobaczymy w jakich kontekstach w i w ogóle jak takie słówko występuje.

Udajmy się więc pod adres http://www.nkjp.uni.lodz.pl/. Jest to wyszukiwarka dla Narodowego Korpusu Języka Polskiego. W okienko wyszukiwarki wpiszmy frazę: „że tak powiem”, wybór zatwierdźmy przyciskiem „SZUKAJ”. Otrzymany wynik to wszystkie wystąpienia tej frazy w korpusie. W tym momencie wyszukiwarka pokazuje mi 2.811 akapitów, a więc właśnie tyle wystąpień tej frazy istnieje w korpusie. Widzimy fragmenty tekstów zawierające frazę „że tak powiem” ułożone jeden pod drugim. Dodatkowo, fraza jest wyróżniona, a także układa się w idealną pionową kolumnę. Taki sposób przedstawiania wyników nazywamy KONKORDANCJĄ (concordance) i to słowo warto zapamiętać, gdyż będziemy go często używać w naszych rozważaniach na temat korpusów. Często mówi się też o liniach konkordancyjnych (concordance lines), które są po prostu poszczególnymi wierszami, uszeregowanymi jeden pod drugim.

Jaką informację uzyskujemy na temat frazy „że tak powiem” z naszego zapytania? Choćby potwierdzenie tego, iż jest ona typowa dla języka mówionego, o czym świadczą fragmenty z których te frazy pochodzą. Widać, iż są to dialogi, a zatem najpewniej pochodzą one z tekstów literackich. Jeśli klikniemy na krzyżyk w zielonym kółku, znajdujący się po prawej stronie konkordancji, uzyskamy dokładne dane tekstu z którego poszczególny element pochodzi. Inną ciekawą obserwacją może być fakt, że „że tak powiem” jako wtrącenie zawsze umieszczone będzie między przecinkami w tekście.

Polski polskim, nas jednak zawsze nieco bardziej będzie interesował język angielski. Udajmy się zatem pod adres innej wyszukiwarki, przeznaczonej do przeglądania innego korpusu. Jest to British National Corpus (100 milionów słów), a więc korpus narodowy języka angielskiego. Skorzystajmy z adresu: http://212.191.73.200/PPHome/corpora/bnc.jsp. Wpisujemy dowolne słowo/frazę, którego istnieniu w korpuse (a więc i języku) chcemy się przyjrzeć. Na rozgrzewkę proponuję „however”.

59586 trafień to bardzo dużo. Na tyle dużo, iż możemy śmiało uznać, że to co przedstawiają konkordancje jest prawdziwe i w podobny sposób możemy użyć tego słówka przez nas samych (a więc na początku zdania, dla wprowadzenia przeciwstawnego argumentu, lub między przecinkami, jeśli chcemy kontynuować zdanie). Oczywiście liczba trafień jest proporcjonalna do statusu słowa, jakie ma ono w języku. Logiczne jest więc, iż najliczniejsze grupy słów w korpusie to: articles, prepositions, linking words etc.

Zademonstrowałem prosty sposób korzystania z korpusów przy szukaniu poszczególnych słów/fraz danego języka. Zachęcam do wpisywania swoich własnych, które są dla was kłopotliwe, bądź szczególnie ciekawe. I przypominam, co zresztą właśnie zobaczyliście, że korpusy nie są słownikami, nie zawierają definicji słów. Pokazują natomiast występowanie słów w kontekście, a więc coś, co jest również szalenie ważne przy nauce słownictwa, co zresztą już wiecie, kiedy zapoznajecie się z nowym materiałem leksykalnymJ Tym samym korpusy stanowią świetne uzupełnienie danych słownikowych.

Przykłady „sytuacji”, w których polecam korzystanie z korpusu:

·         prepositions, którym poświęciłem swój pierwszy wpis na blogu pleasure-of-english.blogspot.com. W razie problemów z jakimikolwiek wpisz wyrażenia przyimkowe do wyszukiwarki korpusu i zobacz w jakich kontekstach występują (np. anxious about vs. anxious for)
·         synonimy. Temat na osobny wpis. Potrzebujesz synonimów przy pisaniu wypracowania? Zajrzyj do korpusu. Samo wyszukiwanie synonimii wymaga nieco znajomości wyszukiwarki, więc więcej o tym następnym razem.
·         komplementacja czasownika. Jeśli zastanawiasz się, czy po danym czasowniku należy użyć bezokolicznika, formy gerundialnej (-ing), czy może that-clause, korpus może pomóc rozwiązać problem.
·         kolokacje. Istnieją oczywiście słowniki kolokacji, jednakże bezcennym doświadczeniem jest sprawdzenie kontekstu, tudzież „otoczenia” danej kolokacji. czy możemy napisać „large difference”, czy może lepiej „big” albo „substantial difference” Sprawdź!
·         idiomy. Wpisz dany idiom w wyszukiwarkę korpusową, a w otrzymanym wyniku zwróć uwagę na jego „otoczenie”, jak został użyty, mniej więcej w jakiej sytuacji. Pomoże to zrozumieć jego specyfikę i miejsce w języku.

Oczywiście to tylko kilka z wielu sytuacji, takie „pierwsze z brzegu”.

Zachęcam do odwiedzenia poniższych adresów. Jeśli istnieje większe grono osób odwiedzające tego bloga  (a zatem jest szansa, że przeczytają ten artykuł), to już za tydzień będziecie zapewne drodzy czytelnicy po pierwszych kliknięciach waszych myszy w wyżej i niżej zaprezentowanych wyszukiwarkach korpusowych. Ciekaw jestem czy wam się spodoba i jak pójdzie. Za tydzień zaprezentuję, jak z korpusu otrzymać ciekawe i przydatne informacje o języku, np. w badaniu synonimii.

http://nkjp.pl – Narodowy Korpus Języka Polskiego
http://www.natcorp.ox.ac.uk/ - British National Corpus
http://korpusy.net/ - ciekawa strona o tematyce korpusowejJ


Komentarze

  1. Świetny post. Takie korpusy z pewnością będą nieodzowną pomocą dla tłumaczy, którzy muszą przecież sprawdzać każde słówko w kontekście.

    OdpowiedzUsuń
    Odpowiedzi
    1. Korpusy w przekładzie to też sam w sobie temat-rzeka... Więc pewnie wrzucę jakiś post na ten temat. Na bloga wracam od września :)

      Usuń

Prześlij komentarz

Popularne posty