ŚNIADANIE Z KORPUSEM (2): Mark Davies

Sierpień był dla mnie dość pracowitym miesiącem, stąd znikoma liczba postów. Pod względem czasu na aktualizacje bloga lepsze perspektywy zdaję się mieć na wrzesień, zatem przyspieszam przegląd ciekawszych zagadnień korpusowych. Dziś wezmę pod lupę korpusy Marka Daviesa.


Davies jest profesorem na Brigham Young University, a także twórcą korpusów językowych które można znaleźć tutaj. Jak głosi informacja w nagłówku, mamy tu do dyspozycji siedem różnych korpusów. Dwa z nich poświęcone są językom innym niż angielski. Corpus of Contemporary American English (COCA) to zasób na którym zaprezentuję większość omawianych kwestii. Jest to korpus współczesnej amerykańskiej angielszczyzny, podzielonej na kilka kategorii (a więc pochodzącej z różnych źródeł): prasa, fikcja literacka itd. Ciekawym podkorpusem jest Corpus of American Soap Operas, który oferuje nam wgląd w transkrypcje amerykańskich oper mydlanych celem dostarczenia szukającym nieformalnego, kolokwialnego materiału językowego, o czym jeszcze słówko na koniec, kiedy zobaczymy, jak wysuwać pierwsze wnioski z obserwacji danych korpusowych. Rewelacyjne prezentuje się COHA, a więc Corpus of Historical American English, gdzie możemy śledzić zmiany w leksyce i gramatyce angielskiej, zebranych ze źródeł na przestrzeni lat 1810 - 2009! O tym jak to robić również w jednym z kolejnych wpisów. Dziś zapoznamy się z przeglądarką korpusową, sposobem wprowadzania informacji oraz zobaczymy, jak interpretować prostsze wyniki. Jak już wspomniałem, wykorzystamy do tego korpus COCA, a także w mniejszym stopniu COHA. Udajmy się więc pod adres: http://corpus.byu.edu/coca/.

Polecam założenie konta na portalu. Jest ono darmowe, a daje nam zdecydowanie więcej możliwości jako użytkownikom. Przede wszystkim mamy wtedy większą możliwość zapytań w przeglądarce, a więc 100* ( dla porównania: gdy użytkownikami nie jesteśmy mamy ich tylko pięć na dobę). Rejestracja nie jest skomplikowana, ale musimy w niej np. określić nasz status badawczy (czy jesteśmy zawodowymi językoznawcami, czy tylko poszukiwaczami ciekawostek). Po utworzeniu konta możemy rozpocząć pracę z korpusem.

Po wpisaniu powyższego adresu zobaczymy ten interfejs:

W swoim wpisie z oczywistych względów zajmę się wybranymi funkcjami, o wszystkich można bowiem znaleźć informację klikając na (1), gdzie znajdziemy m.in.  przewodnik po funkcjach, przykładowe zapytania etc. Niestety (choć chyba jednak stety:)), całość jest w języku angielskim.

Nasz pasek zadań znajduje się po lewej stronie. Szukane słówko/frazę wpisujemy w okienko WORD(S) a następnie klikamy SEARCH. Zaznaczona domyślnie opcja LIST (patrz: zielona ramka) wyświetla konkordancję jedną pod drugą (po kliknięciu na słówko, bądź wynik wyszukiwania w oknie głównym po prawej stronie, co pokazuję na obrazkach). Okno zostało tak zaprojektowane, iż poszczególne sekcje „chowają” się gdy najedziemy kursorem na inne. Najeżdżajmy więc na wszystko po kolei, aby wyczuć chowające się elementy, albo gdy coś zgubimy. Gdy zaznaczymy opcję CHART i klikniemy SEARCH, zobaczymy występowanie danego słowa (w tym przypadku attend) z wyróżnieniem na lata oraz kategorie:

 Jest to szczególnie interesujące, gdy ciekawi nas zachowanie jakiegoś słowa na przestrzeni lat, albo jego występowanie w gatunkach językowych. Najazd kursorem na poszczególną kolumnę powoduje wyświetlenie kilku danych statystycznych w małym okienku po prawej stronie (zielona ramka). Widzimy tam rozmiar sekcji (SIZE, w mln słów), liczbę znalezień (#TOKENS), oraz zależność statystyczną (liczba znalezień dzielona przez rozmiar, mnożona przez sto, lub tysiąc, w zależności od sposobu prezentacji danych, lub potrzeby ich porównania), dla osób zainteresowanych analizą ilościową. Opcja KWIC przydaje się, jak widać, kiedy chcemy zobaczyć jakie otoczenie występuje wokół interesującego nas słowa, co ma szerokie zastosowanie wobec różnych zainteresowań badaczy języka, bądź uczących się go (wpiszmy however, lub though, które zdaje się być kłopotliwe dla wielu osób uczących się angielskiego). Zaznaczenie ostatniej opcji powoduje rzecz jasna zapytanie porównawcze i jest oczywiście szalenie interesujące, zwłaszcza pod względem analizy ilościowej. Przeglądarka od razu zasypuje nas lawiną danych statystycznych, które mogą okazać się bardzo ciekawe, a nieraz i zaskakujące. Najlepiej od razu wspomnieć tu o opcji COLLOCATES widocznej zaraz pod okienkiem WORD(S). Zaznaczenie tej opcji (poprzez kliknięcie na nią) powoduje wyszukanie słów współwystępujących z tym(i) przez nas badanym(i). Z okienek obok wybieramy liczbę słów „graniczących” z naszym zapytaniem (odpowiednio po jednej i po drugiej stronie, czyli za nim i przed nim). Jeśli wpiszemy słowa stupid oraz silly oraz wybierzemy odpowiednio numerki 0 oraz 1 otrzymamy porównanie tych dwóch przymiotników pod względem ich występowania w korpusie wraz z bezpośrednio następującym po nim elementem leksykalnym. Wynik:


mówi nam na przykład iż:

·         w korpusie znajduje się więcej próbek stupid, niż silly (1.88 do 0.53; szczegółowe wyjaśnienie danych statystycznych znajduje się TUTAJ  http://corpus.byu.edu/coca/help/display_words_compare_e.asp?h=y
·         słówka takie jak horse, idiot, policy, albo decisions występują niemal wyłącznie z przymiotnikiem stupid. Metoda korpusowa pozwala więc określać kolokacje danych słów, a więc również ich stopień synonimiczności, a zatem i profil tej synonimiczności.

Wadą opcji COMPARE jest fakt, iż nie można porównać dwóch wyrażeń składających się z różnej liczby elementów (odpada więc porównywanie rzeczy typu cause z bring about etc.).

Kolejną wartą uwagi rzeczą jest opcja dostępna poniżej, w pasku CLICK TO SEE OPTIONS. W okienku GROUP BY głównym podziałem jest ten na słowa i lematy (words i lemmas). Words są w tym przypadku daną leksykalną formą tego słowa, czyli np.: write i tylko write. Jeśli interesują nas inne formy (tj. odmienione), wybieramy lemma. Wtedy nasz wynik będzie bogatszy o writes, writed itd. (klikamy na pierwszy wynik „od góry”).

Drobne znaczki zapytania obok każdej z funkcji odeślą nas do szczegółów korzystania z nich. Niniejszy post ma posłużyć jedynie pokazaniu podstawowych kroków jakie możemy poczynić w korpusach Daviesa. W następnym zaprezentuję ciekawe, usprawniające nasze poszukiwania lecz też bardziej skomplikowane metody wprowadzania danych do przeglądarki, co przydaje się, na przykład w poszukiwaniu synonimów.

cdn.

P.S. 
A, i zamieszczam próbkę danych z korpusów: COCA, BNC, oraz Corpus of American Soap Operas. Jakie są Wasze spostrzeżenia nt. danych liczbowych?:)

query
example
SOAP
COCA
. you [vv*] me ?
. You heard me?   (=subject ellipsis)
, ok|okay ?
we're leaving now, OK?
, right ?
you're pretty tired, right?
I'm good
I'm good
[be] so not [ADJ]
That is so not possible.
I told you
I told you to get out of here
[do] n't get it
don't get it -- why do you hate me so much?
how can you
How can you even say that?
I totally
I totally get it now!
[screw] [PRON]
I'm not gonna screw it up this time.
[freak] [PRON] out
Man, that totally freaked us out !
[creep] [PRON] out
He really creeps me out -- he's so gross!
my God
My God -- she's horrible!
. it 's [ADJ] .
. It's sad. She's totally forgotten him. (=short phrases)
Situational (shows that the soap opera scripts are very oriented to the "here and now")
hand me * [NOUN]
Hand me a towel.
. Get out
. Get out before I call the police!
Do n't leave
Don't leave! I need you!


Komentarze

Popularne posty