środa, 31 października 2012

wordandphrase.info jako przykład narzędzia do nauki języka

Oczywiście znów chodzi o angielski, jednakże wobec jego powszechności i użyteczności fakt ten nie powinien nikogo dziwić. Zatem, w niniejszym poście zaprezentuję dość ciekawe narzędzie do analizy tekstów pisanych. Może więc być to gratka dla osób zainteresowanych pracą nad pisaniem tekstów po angielsku, a także dla poszukujących urozmaiconych metod nauki języka. 

Obok Ngrams, Academic Vocabulary List, oraz Word Frequency, WordAndPhrase jest chyba najciekawszym podzespołem korpusu COCA z punktu widzenia osób uczących się języka. Udajmy się pod adres: http://wordandphrase.info/. Zobaczymy do wyboru dwie możliwości:

spośród których wybierzmy tę z prawej (Input/analyze texts). Następnym oknem jakie zobaczymy jest to:I tym momencie warto nadmienić czym jest opisywane właśnie narzędzie. WordAndPhrase służy do analizowania tekstów pisanych pod kilkoma względami. Przede wszystkim porównuje wklejony przez autora tekst z danymi korpusowymi. Analizuje każde użyte w tekście słowo. Dzięki połączeniu z zasobami COCA (czyli coś ok. 450 milionów słów), może nam udostępnić ciekawe informacje na temat naszego tekstu, takie jak synonimy słów przez nas użytych, ich definicje, konteksty w jakich się pojawiają itp. Popatrzmy zatem.

W okienko po lewej stronie należy wkleić dowolny tekst, który chcemy zbadać, a następnie klinkąć "SEARCH".  Spośród dwóch opcji na prawo od przycisku "SEARCH" wybierzmy najpierw "WORDS". Wybrana opcja "WORDS" pozwoli na przeprowadzenie analizy każdego słowa użytego w tekście. Ten wypbrany przeze mnie to post, który ostatnio zamieściłem tu: http://pleasure-of-english.blogspot.com/2012/10/64-three-different-stories.html. Kliknijmy więc "SEARCH".

Teraz obok okna z lewej pojawił nam się nasz tekst, z tym że już po analizie:


Jeśli klikniemy na dowolne słowo w ramce po prawej, zobaczymy jego szczególną analizę. Weźmy na przykład "immensely". Spójrzmy teraz na ramkę u dołu ekranu, która powinna wyglądać tak:Widzimy tutaj różne parametry słowa "immensely". Wykresy słupkowe prezentują jego występowanie w poszczególnych działach korpusu. Obok znajdziemy definicję słowa, a poniżej listę kolokatów, a więc słów z którymi dany wyraz chętnie i naturalnie współwystępuje. Jeszcze niżej znajdują się konkordancje, a więc przykłady wystąpienia danego słowa w tekście (jego miejsce, otoczenie, kontekst). Oczywiście te zdania nie pochodzą już z naszego tekstu, a z zasobu głównego korpusu, dzięki czemu możemy zobaczyć czy użycie słowa w naszym tekście jest tożsame, lub podobne, z jego użyciami w tekstach zebranych w korpusie. Jeśli klikniemy na dany kolokat, np. "enjoy", zostanie on wyróżniony poniżej, na liście konkordancyjnej. Po lewej stronie widzimy ramkę ze słowami o podobnym znaczeniu. Oczywiście po kliknięciu na dane słówko natychmiast otrzymujemy porcję konkordancji, z której odczytujemy położenie i otoczenie tego słowa. Wszystko opatrzone jest pewnymi statystykami, głównie liczbą wystąpień, co może nam się przydać w jakiejś bardziej szczegółowej analizie.

Wróćmy do momentu, w którym wklejaliśmy nasz tekst do okna i wybieraliśmy opcję "WORDS". W każdej chwili możemy zamienić ją na "PHRASE". Wybór zatwierdzamy "SEARCH". Tym razem przeglądarka analizuje nam nie poszczególne wyrazy, a frazy, które te wyrazy tworzą. Dzięki temu możemy sprawdzić, czy związek wyrazowy jaki utworzyliśmy rzeczywiście istnieje w danych korpusowych (a więc czy native speakerzy by tak powiedzieli). Kliknijmy kolejno na "average" oraz "user".

Jeśli dokonamy takiego wyboru i zatwierdzimy search, konkordator pokaże nam wystąpienia tej frazy w korpusie. Możemy w ten sposób wysukiwać dwu-, lub więcej elementowych fraz i sprawdzać ich istnienie w korpusie. Dzięki temu nasz język pisany może stać się bliższy temu wytwarzanemu przez native speakerów. Sprawdźmy w ten sposób np. "throughout centuries", "is believed to have", "from this moment on", "the first person to" itd.

Wygląda więc na to, iż WordAndPhrase może nam pomóc w tworzeniu tekstów w języku angielskim, poprzez sprawdzenie ich pod kątem poprawności użycia wyrazów, a nawet całych fraz.  

czwartek, 18 października 2012

Tytułem poinformowania...

Decydując się na pisanie tego bloga zdawałem (i wciąż zdaję sobie sprawę) z dwóch rzeczy. Mianowicie:

  1. Jego tematyka może nie być zbyt porywająca, bądź popularna, ale w porządku. To może akurat i lepiej.
  2. Będzie brakowało czasu na wpisy (bo z pomysłami aż tak źle nie jest).
Zatem jeśli blog zyskał jakieś najmniejsze choć grono odwiedzających przepraszam za niesumienność i uspokajam - coś zacznie się niebawem Dziać. Na potwierdzenie zapowiem kilka następnych wpisów:

  • w najbliższym przedstawię ciekawe narzędzie dla osób lubiących "dłubać", czy też "grzebać" tu i ówdzie podczas nauki języka (w tym wypadku znów angielskiego); coś co może okazać się przydatne dla wielu osób
  • zaprezentuje różne sposoby wprowadzania danych do korpusu COCA
  • podyskutuję o wadach i zaletach korpusów
  • zaprezentuję inne ciekawsze aspekty gramatyki kognitywnej z perspektywy nauki języka
  • dalej będę rozwodził się nad kwestiami metodologiczno-analityczynymi w badaniach nad językiem, omawiał problemy, ilustrował to wszystko przykładami. 
Do końca roku powinny powstać co najmniej te wpisy. 


niedziela, 2 września 2012

Przyimki (angielskie) z perspektywy kognitywnej

Pora na przewietrzenie Lingvo i porzucenie na moment tematyki korpusowej. W dzisiejszym wpisie skupię się na tym czego możemy dowiedzieć się o angielskich prepositions (lub też o przyimkach w ogóle) z punktu widzenia gramatyki kognitywnej. Postaram się pokazać, że owo dziecko lingwistyki kognitywnej może pomóc nam rozumieć przyimki, jak i ułatwić przekazywanie wiedzy na ich temat innym.

Zakładam, że jeśli już ktoś decyduje się na przeglądanie tego bloga mniej więcej zna zarys gramatyki kognitywnej. Jeśli jednak nie, nie szkodzi, i tak nie obejdzie się bez krótkiego wstępu.

Językoznawstwo kognitywne wiele czerpie z psychologii poznawczej (a także z kognitywistyki; słowo kognitywny pochodzi z łacińskiego cognosco - poznawać), a więc z tego co zajmuje się procesami poznawczymi a także reprezentacjami umysłowymi, czyli tym jak postrzegamy i odbieramy różne rzeczy, rzeczywiste i abstrakcyjne. Istotą gramatyki kognitywnej jest założenie, że struktury gramatyczne jakich używamy są produktem naszego mechanizmu poznawczego; tego w jaki sposób postrzegamy różne rzeczy. Postrzegamy w ogóle, nie przez pryzmat umiejętności językowych, czy wiedzy o nich. Za ojca gramatyki kognitywnej uważa się amerykańskiego lingwistę Ronalda Wayne`a Langackera. 

I tak na przykład pojęcia figury oraz tła, (tak te które znamy głównie z psychologii Gestalt) zostały udanie wprowadzone w kognitywny model opisu języka. Zadaniem kognitywistów, w ten sposób wizualnie postrzegamy otaczający nas świat - skupiamy uwagę na jednym punkcie/obiekcie, podczas gdy inne stają się tłem dla tego obiektu. Figurę i tło można zmieniać dowolnie, w zależności od punktu naszej koncentracji, jak  widać to na znanym pewnie wielu rysunku obok. Kiedy pucharek jest figurą, reszta pozostaje tłem. I na odwrót.

W gramatykach zjawisko figury i tła widzimy np. w składni. W prostych zdaniach z dopełnieniem bliższym, figurą jest podmiot, a tłem właśnie dopełnienie bliższe:

Detektyw prowadzi śledztwo.

Z kolei w zdaniach podrzędnie złożonych, zdanie podrzędne stanowi tło dla zdania nadrzędnego-figury. Taki sposób postrzegania jest też odpowiedzialny za to, iż mówimy: Nożyce są na stole, a nie: Stół jest pod nożycami.

I tak dalej.

Przejdźmy zatem do przyimków. W tych artykułach zajmę się charakterystyką z perspektywy gramatyki kognitywnej następującej grupy przyimków: lokatywne, kierunkowe, wymiarowe, orientacyjne. Dziś o przyimkach wymiaru (dimensional prepositions) oraz lokacyjnych (locative prepositions).

Z przyimkami angielskimi jest jeden zasadniczy problem, mianowicie: kiedy jaki. Tym bardziej gdy w grę wchodzą dimensional prepositions, czyli taki które lokują nam obiekt* (czyli figurę) w przestrzeni wielowymiarowej (czyli euklidesowej; jest to również tło ww. figury). Logicznie należy do tej grupy przypisać locative prepositions, które określają nam położenie obiektu na prostej, lub płaszczyźnie euklidesowej (np. The cat sits on the table). W przypadku dimensional prepositions w grę wchodzi więc jeszcze jeden wymiar.

W przestrzeni euklidesowej mamy ich trzy: długość, szerokość, wysokość. Aby poprawnie opisać dimensional prepositions w przestrzeni kognitywnej należy wprowadzić do niej jeszcze jeden: zerowy. A z kolei żeby zrozumieć istotę i sens dyskutowania o wymiarze zerowym możemy zastanowić się nad istotą punktu (a właśnie do określenia położenia o charakterze punktowym będziemy używać tego wymiaru) w rozumieniu matematycznym. A więc punkt jest bezwymiarowy, i, jak definiował go sam Euklides - punkt jest czymś co nie składa się z części.

Słuszność powołania do życia wymiaru "0" zilustrujmy przykładami. Spójrzmy na grupę przyimków: at, by, near, close to, with, from, away from, to, at, for, towards, by, past, via. Widzimy, że dotyczą one lokalizacji punktowych. Lub inaczej - lokalizacji które postrzegamy (tudzież konceptualizujemy) jako punktowe. W przykładach zobaczymy, iż te lokalizacje fizycznie punktami tak naprawdę nie są, lecz nie jest to istotne dla komunikatu tych zdań. Dla potrzeby informacji zeń płynących, wyróżnione lokalizacje są rzeczywiście punktowe:

(1) I waited at the bus stop

(2) He comes from Poland

(3) She travelled via London

Jeśli przykłady te (lub objaśnienia) budzą wątpliwość, spójrzmy na przestrzenie jedno i dwuwymiarowe, a więc linearną i powierzchniową: on, off, onto, against, along, about, around:

(4) I was walking along the street

(5) The ladder is standing against the wall. 

W przykładzie (4) widać liniowe tło po którym porusza się trajektor. W (5) tło jest powierzchnią. Jak łatwo się domyślić, po przestrzeni wielowymiarowej trajektory poruszają się za pomocą przyimków takich jak: in, inside, wihtin, between, among, out of, outside, into, through, throughout. Obecność tych elementów leksykalnych w zdaniu bezsprzesznie jest dowodem na istnienie przestrzeni myślowej, którą nasz mózg odbiera jako wielowymiarową. Popatrzmy: a soup in the bowl, among others,etc. Co prawda, niektóre z nich jakoś dziwnie zdają się pasować do modelu dwuwymiarowego: out of, within (np. within a week). Jednak weźmy pod uwagę fakt bycia "zawartym" w umownej przestrzeni. Relacją panującą w tym typie przyimków jest bowiem zawieranie (containment). Tła tu obecne są niejako zbiornikami w których pływają nasze figury, tak jak zupa w misce. Albo śledzik, który lubi pływać.

Uznajmy to za początek naszych rozważań o różnych elementach różnych gramatyk z dość ciekawej perspektywy kognitywnej. Reasumując: przestrzeń poznawcza (bynajmniej w językach o których tutaj myślimy) posiada cztery wymiary, w tym ten jeden zerowy, który odnosi się do położenia punktowego. Pozostałe trzy już jakoś łatwiej sobie wyobrazić, gdyż pokrywają się z tymi fizycznymi, z których doskonale zdajemy sobie sprawę.


*poprawny termin obowiązujący w gr. kognitywnej to trajektor. Używam uproszczonego pojęcia obiekt w celu wprowadzenia jak najmniejszej liczby nowych pojęć dla czytelników mniej zaznajomionych z tematyką.


środa, 29 sierpnia 2012

ŚNIADANIE Z KORPUSEM (2): Mark Davies

Sierpień był dla mnie dość pracowitym miesiącem, stąd znikoma liczba postów. Pod względem czasu na aktualizacje bloga lepsze perspektywy zdaję się mieć na wrzesień, zatem przyspieszam przegląd ciekawszych zagadnień korpusowych. Dziś wezmę pod lupę korpusy Marka Daviesa.


Davies jest profesorem na Brigham Young University, a także twórcą korpusów językowych które można znaleźć tutaj. Jak głosi informacja w nagłówku, mamy tu do dyspozycji siedem różnych korpusów. Dwa z nich poświęcone są językom innym niż angielski. Corpus of Contemporary American English (COCA) to zasób na którym zaprezentuję większość omawianych kwestii. Jest to korpus współczesnej amerykańskiej angielszczyzny, podzielonej na kilka kategorii (a więc pochodzącej z różnych źródeł): prasa, fikcja literacka itd. Ciekawym podkorpusem jest Corpus of American Soap Operas, który oferuje nam wgląd w transkrypcje amerykańskich oper mydlanych celem dostarczenia szukającym nieformalnego, kolokwialnego materiału językowego, o czym jeszcze słówko na koniec, kiedy zobaczymy, jak wysuwać pierwsze wnioski z obserwacji danych korpusowych. Rewelacyjne prezentuje się COHA, a więc Corpus of Historical American English, gdzie możemy śledzić zmiany w leksyce i gramatyce angielskiej, zebranych ze źródeł na przestrzeni lat 1810 - 2009! O tym jak to robić również w jednym z kolejnych wpisów. Dziś zapoznamy się z przeglądarką korpusową, sposobem wprowadzania informacji oraz zobaczymy, jak interpretować prostsze wyniki. Jak już wspomniałem, wykorzystamy do tego korpus COCA, a także w mniejszym stopniu COHA. Udajmy się więc pod adres: http://corpus.byu.edu/coca/.

Polecam założenie konta na portalu. Jest ono darmowe, a daje nam zdecydowanie więcej możliwości jako użytkownikom. Przede wszystkim mamy wtedy większą możliwość zapytań w przeglądarce, a więc 100* ( dla porównania: gdy użytkownikami nie jesteśmy mamy ich tylko pięć na dobę). Rejestracja nie jest skomplikowana, ale musimy w niej np. określić nasz status badawczy (czy jesteśmy zawodowymi językoznawcami, czy tylko poszukiwaczami ciekawostek). Po utworzeniu konta możemy rozpocząć pracę z korpusem.

Po wpisaniu powyższego adresu zobaczymy ten interfejs:

W swoim wpisie z oczywistych względów zajmę się wybranymi funkcjami, o wszystkich można bowiem znaleźć informację klikając na (1), gdzie znajdziemy m.in.  przewodnik po funkcjach, przykładowe zapytania etc. Niestety (choć chyba jednak stety:)), całość jest w języku angielskim.

Nasz pasek zadań znajduje się po lewej stronie. Szukane słówko/frazę wpisujemy w okienko WORD(S) a następnie klikamy SEARCH. Zaznaczona domyślnie opcja LIST (patrz: zielona ramka) wyświetla konkordancję jedną pod drugą (po kliknięciu na słówko, bądź wynik wyszukiwania w oknie głównym po prawej stronie, co pokazuję na obrazkach). Okno zostało tak zaprojektowane, iż poszczególne sekcje „chowają” się gdy najedziemy kursorem na inne. Najeżdżajmy więc na wszystko po kolei, aby wyczuć chowające się elementy, albo gdy coś zgubimy. Gdy zaznaczymy opcję CHART i klikniemy SEARCH, zobaczymy występowanie danego słowa (w tym przypadku attend) z wyróżnieniem na lata oraz kategorie:

 Jest to szczególnie interesujące, gdy ciekawi nas zachowanie jakiegoś słowa na przestrzeni lat, albo jego występowanie w gatunkach językowych. Najazd kursorem na poszczególną kolumnę powoduje wyświetlenie kilku danych statystycznych w małym okienku po prawej stronie (zielona ramka). Widzimy tam rozmiar sekcji (SIZE, w mln słów), liczbę znalezień (#TOKENS), oraz zależność statystyczną (liczba znalezień dzielona przez rozmiar, mnożona przez sto, lub tysiąc, w zależności od sposobu prezentacji danych, lub potrzeby ich porównania), dla osób zainteresowanych analizą ilościową. Opcja KWIC przydaje się, jak widać, kiedy chcemy zobaczyć jakie otoczenie występuje wokół interesującego nas słowa, co ma szerokie zastosowanie wobec różnych zainteresowań badaczy języka, bądź uczących się go (wpiszmy however, lub though, które zdaje się być kłopotliwe dla wielu osób uczących się angielskiego). Zaznaczenie ostatniej opcji powoduje rzecz jasna zapytanie porównawcze i jest oczywiście szalenie interesujące, zwłaszcza pod względem analizy ilościowej. Przeglądarka od razu zasypuje nas lawiną danych statystycznych, które mogą okazać się bardzo ciekawe, a nieraz i zaskakujące. Najlepiej od razu wspomnieć tu o opcji COLLOCATES widocznej zaraz pod okienkiem WORD(S). Zaznaczenie tej opcji (poprzez kliknięcie na nią) powoduje wyszukanie słów współwystępujących z tym(i) przez nas badanym(i). Z okienek obok wybieramy liczbę słów „graniczących” z naszym zapytaniem (odpowiednio po jednej i po drugiej stronie, czyli za nim i przed nim). Jeśli wpiszemy słowa stupid oraz silly oraz wybierzemy odpowiednio numerki 0 oraz 1 otrzymamy porównanie tych dwóch przymiotników pod względem ich występowania w korpusie wraz z bezpośrednio następującym po nim elementem leksykalnym. Wynik:


mówi nam na przykład iż:

·         w korpusie znajduje się więcej próbek stupid, niż silly (1.88 do 0.53; szczegółowe wyjaśnienie danych statystycznych znajduje się TUTAJ  http://corpus.byu.edu/coca/help/display_words_compare_e.asp?h=y
·         słówka takie jak horse, idiot, policy, albo decisions występują niemal wyłącznie z przymiotnikiem stupid. Metoda korpusowa pozwala więc określać kolokacje danych słów, a więc również ich stopień synonimiczności, a zatem i profil tej synonimiczności.

Wadą opcji COMPARE jest fakt, iż nie można porównać dwóch wyrażeń składających się z różnej liczby elementów (odpada więc porównywanie rzeczy typu cause z bring about etc.).

Kolejną wartą uwagi rzeczą jest opcja dostępna poniżej, w pasku CLICK TO SEE OPTIONS. W okienku GROUP BY głównym podziałem jest ten na słowa i lematy (words i lemmas). Words są w tym przypadku daną leksykalną formą tego słowa, czyli np.: write i tylko write. Jeśli interesują nas inne formy (tj. odmienione), wybieramy lemma. Wtedy nasz wynik będzie bogatszy o writes, writed itd. (klikamy na pierwszy wynik „od góry”).

Drobne znaczki zapytania obok każdej z funkcji odeślą nas do szczegółów korzystania z nich. Niniejszy post ma posłużyć jedynie pokazaniu podstawowych kroków jakie możemy poczynić w korpusach Daviesa. W następnym zaprezentuję ciekawe, usprawniające nasze poszukiwania lecz też bardziej skomplikowane metody wprowadzania danych do przeglądarki, co przydaje się, na przykład w poszukiwaniu synonimów.

cdn.

P.S. 
A, i zamieszczam próbkę danych z korpusów: COCA, BNC, oraz Corpus of American Soap Operas. Jakie są Wasze spostrzeżenia nt. danych liczbowych?:)

query
example
SOAP
COCA
. you [vv*] me ?
. You heard me?   (=subject ellipsis)
, ok|okay ?
we're leaving now, OK?
, right ?
you're pretty tired, right?
I'm good
I'm good
[be] so not [ADJ]
That is so not possible.
I told you
I told you to get out of here
[do] n't get it
don't get it -- why do you hate me so much?
how can you
How can you even say that?
I totally
I totally get it now!
[screw] [PRON]
I'm not gonna screw it up this time.
[freak] [PRON] out
Man, that totally freaked us out !
[creep] [PRON] out
He really creeps me out -- he's so gross!
my God
My God -- she's horrible!
. it 's [ADJ] .
. It's sad. She's totally forgotten him. (=short phrases)
Situational (shows that the soap opera scripts are very oriented to the "here and now")
hand me * [NOUN]
Hand me a towel.
. Get out
. Get out before I call the police!
Do n't leave
Don't leave! I need you!


środa, 8 sierpnia 2012

ŚNIADANIE Z KORPUSEM (1) – Wprowadzenie

Wpisem tym rozpoczynam tematykę korpusową na blogu. Będzie można znaleźć tu wskazówki jak korzystać z korpusów językowych, jak wykorzystywać je do nauki, oraz jak przeprowadzać na nich proste badanka/eksperymenty. Odpowiemy sobie też oczywiście na pytanie czym są korpusy, oraz zastanowimy się jakie mają plusy i minusy. Mam nadzieję, iż artykuły będą przydatne zarówno dla osób już zaznajomionych z tym tematem, jak i całkowitych nowicjuszy w świecie korpusów.


Niemalże za każdym razem, kiedy otwieramy dowolny podręcznik do nauki języka angielskiego, trafiamy na różnego rodzaju „zasoby żywego języka”, a więc pocztówki, artykuły, teksty piosenek, ogłoszenia, wywiady. Przydają się nam one nie tylko w treningu czytania; bardzo często uczniowie mają na przykład za zadanie wyszukać z tych źródeł słówka, próbować odgadywać ich znaczenie z kontekstu, podać synonimy, antonimy etc. Dlaczego jest to tak ważne? Z oczywistych przyczyn – wiedzę o języku zdobywamy z zasobów „wyprodukowanych” przez rodzimych użytkowników danego języka, przez co uczymy się go jak gdyby od nich samych, a nie z podręczników, czy od nauczycieli. Książki i pedagodzy mają w pewnym sensie za zadanie jedynie przekazać nam wiedzę zgromadzoną w oryginalnych materiałach językowych. Nie ma bowiem lepszego źródła wiedzy o języku, a także samego języka, niż jego rodzimi użytkownicy.

Zastanówmy się teraz, z ilu słów składałby się zbiór takich tekstów z jednego, dowolnego podręcznika do angielskiego (gdybyśmy mogli do niego „wrzucić” wszystkie listy, pocztówki, teksty piosenek, artykuły, zgromadzone w tym podręczniku). Dziesięć tysięcy? Nieźle, tym bardziej, że z owych tekstów na pewno bylibyśmy w stanie wypisać co najmniej kilkanaście nowych słówek (zależy jaki poziom podręcznika, a jaka nasza znajomość języka), zapewne kilka idiomów, parę niezwykle użytecznych fraz, które brzmią „angielsko”, a także poszukać synonimów. I właśnie zbiór takich tekstów nazwiemy tytułowym korpusem. Już! Odpowiedzieliśmy sobie właśnie na pytanie, czym jest korpus językowy. Jest to zbiór tekstów w danym języku. Po prostu. O tym dlaczego jest to takie ważne i jak dokładniej przekłada się to na życie osób zainteresowanych językiem kiedy indziej. Dzisiaj, tytułem wprowadzenia, zaprezentuję ogólny zarys korpusów językowych, ich przydatności w pracy, nauce, a także w zabawie (z) językiem angielskim J

Korpusem może być nazwany każdy obszerniejszy zbiór danych tekstowych. Częściowo prawdą jest więc, iż historia korpusów jest prawie tak stara, jak historia języka pisanego, ze szczególnym uwzględnieniem historii gromadzenia danych tekstowych, lub powstawania zbiorów dokumentów. To, co jednak szczególnie kryje się dziś pod hasłem „korpus” dotyczy danych tekstowych gromadzonych w formie elektronicznej, a zatem jest to ściśle związane z rewolucją komputerową, szczególnie w dziedzinie gromadzenia i przetwarzania informacji w ogóle. Dzięki temu, że dane korpusowe są tworzone i przetrzymywane w formie elektronicznej, korzystanie z nich jest o wiele prostsze i wygodniejsze. To tak jak z komputerowym katalogiem w bibliotekach – szybciej dotrzemy do interesującej nas pozycji wpisując jej dane w wyszukiwarkę, niż szukając jej na półkach, bądź w katalogu u bibliotekarki.

Pamiętacie jak zgadywałem jaki rozmiar może mieć korpus różnego rodzaju tekstów, z których korzysta podręcznik do języka angielskiego? Strzelałem że ok. 10 000 słów. Należy o tym wspomnieć, gdyż rozmiar korpusu mierzy się w liczbie słów. O jakich więc liczbach mowa? To zależy, przede wszystkim od zastosowania korpusu. Najprostszym podziałem obowiązującym w świecie korpusów jest ten na ogólne i specjalistyczne. Korpusy ogólne zostały stworzone z myślą o reprezentowaniu danego języka po to, abyśmy mogli z nich otrzymywać informacje na temat tego języka. Stąd rozmiary tych korpusów są znaczne. Dla przykładu, liczba słów w Narodowym Korpusie Języka Polskiego wynosi 430 milionów słów! Tak, rozmiary narodowych korpusów liczy się w setkach milionów słów, a wszystko po to by uczynić je bardziej użytecznymi, tj. reprezentatywnymi. Jeśli chcemy aby nasz korpus odzwierciedlał „kształt” i charakter danego języka, musi on spełniać dwa podstawowe warunki. Po pierwsze: rozmiar. W świecie korpusów obowiązuje zasada (w miażdżącej większości przypadków): im więcej tym lepiej. Im więcej słów zawartych w danym korpusie, tym bardziej wiarygodne dane możemy z niego pozyskać. Po drugie: reprezentatywność. Chcąc otrzymać język w pigułce, czym w pewnym sensie jest korpus narodowy, musimy uczynić go zróżnicowanym, na kształt zróżnicowania języka, na który jak wiadomo składa się wiele elementów, takie jak język literacki, język prasowy, język potoczny, teksty piosenek, język naukowy itd. Dlatego opracowując korpusy, bierze się pod uwagę zróżnicowanie tekstów jakie mają one zawierać. Problem tekstów mówionych (wywiady, debaty polityczne) jest wtedy rozwiązywany poprzez transkrypcje, czyli przez zapis tychże zasobów mówionych. Wspomniany przeze mnie NKJP ma komponent języka mówionego w postaci transkrypcji w rozmiarze aż 30 milionów słów. Ma to ogromne znaczenie w kwestii reprezentatywności, wiemy bowiem wszyscy, że język mówiony różni się znacznie od języka pisanego. Co do korpusów specjalistycznych, tworzone są one, jak sama nazwa wskazuje, na specjalne potrzeby, najczęściej językoznawców. Mogą to być na przykład zbiory tekstów prawniczych, medycznych, czy sportowych. Oczywiście każdy może stworzyć swój własny korpus tekstów, np. piosenek, bajek, baśni, dosłownie wszelkich typów tekstów pisanych. Owy blog również stanowi swoisty korpus artykułów w nim publikowanych.

To tyle jeśli chodzi o wprowadzenie do świata korpusów. Czemu zatem w ogóle zdecydowałem się o nich napisać? Dlaczego warto o nich pisać, mówić i pamiętać? Korpusy są niezwykle użytecznym narzędziem w badaniach nad językiem, przekładzie i nauce języka. W ramach niniejszego cyklu artykułów będę chciał przybliżyć wam ich specyfikę i przydatność a także pokazać ciekawsze rozwiązania w zabawie (z) językiem. Dziś ledwie kilka wzmianek o tym jak mogą nam się przydać. Na początek jednak jeszcze jedno porównanie.

Zapewne wielu z was wpisywało wielokrotnie słówko o nieznanym do tej pory znaczeniu w okienko wyszukiwarki internetowej, na przykład Google. Chcieliście wtedy z pewnością trafić na jakiś trop: słówko w kontekście, definicję itp. Niektórzy twierdzą, iż Google jest swoistym korpusem, gdyż gwarantuje dostęp do ogromnej ilości danych cyfrowych. To prawda, lecz tylko w pewnym sensie. W Google znajdziemy strony słowników, encyklopedii, czy leksykonów, które szukane słówko nam natychmiast objaśnią. Korpusy nie są w żadnym wypadku słownikami. One pomogą nam znaleźć szukane słowo w tekstach, które je zawierają, a my wtedy zobaczymy w jakich kontekstach w i w ogóle jak takie słówko występuje.

Udajmy się więc pod adres http://www.nkjp.uni.lodz.pl/. Jest to wyszukiwarka dla Narodowego Korpusu Języka Polskiego. W okienko wyszukiwarki wpiszmy frazę: „że tak powiem”, wybór zatwierdźmy przyciskiem „SZUKAJ”. Otrzymany wynik to wszystkie wystąpienia tej frazy w korpusie. W tym momencie wyszukiwarka pokazuje mi 2.811 akapitów, a więc właśnie tyle wystąpień tej frazy istnieje w korpusie. Widzimy fragmenty tekstów zawierające frazę „że tak powiem” ułożone jeden pod drugim. Dodatkowo, fraza jest wyróżniona, a także układa się w idealną pionową kolumnę. Taki sposób przedstawiania wyników nazywamy KONKORDANCJĄ (concordance) i to słowo warto zapamiętać, gdyż będziemy go często używać w naszych rozważaniach na temat korpusów. Często mówi się też o liniach konkordancyjnych (concordance lines), które są po prostu poszczególnymi wierszami, uszeregowanymi jeden pod drugim.

Jaką informację uzyskujemy na temat frazy „że tak powiem” z naszego zapytania? Choćby potwierdzenie tego, iż jest ona typowa dla języka mówionego, o czym świadczą fragmenty z których te frazy pochodzą. Widać, iż są to dialogi, a zatem najpewniej pochodzą one z tekstów literackich. Jeśli klikniemy na krzyżyk w zielonym kółku, znajdujący się po prawej stronie konkordancji, uzyskamy dokładne dane tekstu z którego poszczególny element pochodzi. Inną ciekawą obserwacją może być fakt, że „że tak powiem” jako wtrącenie zawsze umieszczone będzie między przecinkami w tekście.

Polski polskim, nas jednak zawsze nieco bardziej będzie interesował język angielski. Udajmy się zatem pod adres innej wyszukiwarki, przeznaczonej do przeglądania innego korpusu. Jest to British National Corpus (100 milionów słów), a więc korpus narodowy języka angielskiego. Skorzystajmy z adresu: http://212.191.73.200/PPHome/corpora/bnc.jsp. Wpisujemy dowolne słowo/frazę, którego istnieniu w korpuse (a więc i języku) chcemy się przyjrzeć. Na rozgrzewkę proponuję „however”.

59586 trafień to bardzo dużo. Na tyle dużo, iż możemy śmiało uznać, że to co przedstawiają konkordancje jest prawdziwe i w podobny sposób możemy użyć tego słówka przez nas samych (a więc na początku zdania, dla wprowadzenia przeciwstawnego argumentu, lub między przecinkami, jeśli chcemy kontynuować zdanie). Oczywiście liczba trafień jest proporcjonalna do statusu słowa, jakie ma ono w języku. Logiczne jest więc, iż najliczniejsze grupy słów w korpusie to: articles, prepositions, linking words etc.

Zademonstrowałem prosty sposób korzystania z korpusów przy szukaniu poszczególnych słów/fraz danego języka. Zachęcam do wpisywania swoich własnych, które są dla was kłopotliwe, bądź szczególnie ciekawe. I przypominam, co zresztą właśnie zobaczyliście, że korpusy nie są słownikami, nie zawierają definicji słów. Pokazują natomiast występowanie słów w kontekście, a więc coś, co jest również szalenie ważne przy nauce słownictwa, co zresztą już wiecie, kiedy zapoznajecie się z nowym materiałem leksykalnymJ Tym samym korpusy stanowią świetne uzupełnienie danych słownikowych.

Przykłady „sytuacji”, w których polecam korzystanie z korpusu:

·         prepositions, którym poświęciłem swój pierwszy wpis na blogu pleasure-of-english.blogspot.com. W razie problemów z jakimikolwiek wpisz wyrażenia przyimkowe do wyszukiwarki korpusu i zobacz w jakich kontekstach występują (np. anxious about vs. anxious for)
·         synonimy. Temat na osobny wpis. Potrzebujesz synonimów przy pisaniu wypracowania? Zajrzyj do korpusu. Samo wyszukiwanie synonimii wymaga nieco znajomości wyszukiwarki, więc więcej o tym następnym razem.
·         komplementacja czasownika. Jeśli zastanawiasz się, czy po danym czasowniku należy użyć bezokolicznika, formy gerundialnej (-ing), czy może that-clause, korpus może pomóc rozwiązać problem.
·         kolokacje. Istnieją oczywiście słowniki kolokacji, jednakże bezcennym doświadczeniem jest sprawdzenie kontekstu, tudzież „otoczenia” danej kolokacji. czy możemy napisać „large difference”, czy może lepiej „big” albo „substantial difference” Sprawdź!
·         idiomy. Wpisz dany idiom w wyszukiwarkę korpusową, a w otrzymanym wyniku zwróć uwagę na jego „otoczenie”, jak został użyty, mniej więcej w jakiej sytuacji. Pomoże to zrozumieć jego specyfikę i miejsce w języku.

Oczywiście to tylko kilka z wielu sytuacji, takie „pierwsze z brzegu”.

Zachęcam do odwiedzenia poniższych adresów. Jeśli istnieje większe grono osób odwiedzające tego bloga  (a zatem jest szansa, że przeczytają ten artykuł), to już za tydzień będziecie zapewne drodzy czytelnicy po pierwszych kliknięciach waszych myszy w wyżej i niżej zaprezentowanych wyszukiwarkach korpusowych. Ciekaw jestem czy wam się spodoba i jak pójdzie. Za tydzień zaprezentuję, jak z korpusu otrzymać ciekawe i przydatne informacje o języku, np. w badaniu synonimii.

http://nkjp.pl – Narodowy Korpus Języka Polskiego
http://www.natcorp.ox.ac.uk/ - British National Corpus
http://korpusy.net/ - ciekawa strona o tematyce korpusowejJ