Ile za literę?
domeny 08.04.2008Co jakiś czas pojawia się pytanie o wartość poszczególnych liter jako części składowych akronimu w nazwie domeny. Ostatnio problem wydaje się być bardzo aktualny, ze względu na wciąż rosnący obrót wtórny polskimi domenami trzyliterowymi. Próbuje się do domen polskich przykładać miarkę ukutą dla domen .com, na podstawie częstotliwości występowania liter. Tutaj panuje zgoda co do niskiej wartości domen V, X, czy Q, jednak dalsza część podziału, która stawia „pod kreską” litery takie jak W czy K, nosi wyraźne piętno języka angielskiego i nie bardzo przekłada się na naszą rzeczywistość. Dlatego postanowiłem stworzyć listę częstotliwości występowania poszczególnych liter w języku polskim. Początkowo chciałem skorzystać z Korpusu języka polskiego udostępnianego przez IPI PAN, niestety format pliku (zawierającego 250 000 000 słów) nie pozwolił na łatwe wykorzystanie go do tego celu. Postanowiłem więc nieco uprościć metodologię i wykorzystać słownik języka polskiego tworzonego pod kierownictwem Marka Futregi. Nie obliczyłem jednak częstotliwości występowania liter w ogóle, a jedynie występowanie liter na początku słów, bo to przecież jest najważniejsze dla akronimów.
Pierwsza lista powstała na bazie aktualnej wersji słownika do gier słownych, który zawiera 2 734 804 słów w różnych odmianach. Słownik ten wykorzystywany jest do gry Literaki, dlatego brak w nim słów zawierających V, Q, X – po prostu w tej grze nie występują żetony z takimi literami. Druga lista powstała na podstawie słownika do sprawdzania pisowni, który zawiera 280 560 słów, wyłącznie w formach podstawowych (wykorzystałem plik pl_PL.dic, przeznaczony do użytku w programie OpenOffice). Poniżej obie listy:
Tabela 1. Procentowe występowanie poszczególnych liter na początku słowa w języku polskim (po lewej – lista pierwsza, po prawej – lista druga); sortowanie alfabetyczne.

Tabela 2. Procentowe występowanie poszczególnych liter na początku słowa w języku polskim (po lewej – lista pierwsza, po prawej – lista druga); sortowanie wg procentów.

Wyraźnie widać, że dominują litery N oraz P (ta druga na liście „angielskiej” jest raczej nisko). Wysoko, szczególnie w porównaniu z jeżykiem angielskim, widzimy litery W oraz K. Wśród samogłosek dominuje O, podczas gdy w języku angielskim niekwestionowanym liderem jest E. Trzeba oczywiście pamiętać, że porównuję listę liter występujących na początku wyrazów (polskich) do listy liter występujących w ogóle w języku angielskim. Dla porównania w zasadzie trzeba by stworzyć podobną listę dla słów angielskich (i być może to zrobię, po czym zaktualizuję artykuł). Wg mnie taka lista (uwzględniająca występowanie liter na początku słów) ma dużo większy sens i znaczenie przy budowaniu akronimów.
To chyba tyle tytułem komentarza. Każdy zapewne wyciągnie z tego własne wnioski. :-)
[aktualizacja] Jednak skusiłem się i zrobiłem listę częstotliwości występowania poszczególnych liter na początku słów w języku angielskim. Wykorzystałem słownik en_GB (British English, 38 800 słów) oraz en_US (American English 45 423 słów) rozprowadzane w komplecie z pakietem OpenOffice.org 2.4. Być może nie jest to optymalne źródło (mała próbka), ale dla prostej analizy statystycznej powinno wystarczyć. Tabela poniżej.
Tabela 3. Procentowe występowanie poszczególnych liter na początku słowa w języku angielskim (po lewej – British English, po prawej – American English); sortowanie wg procentów.

A więc najpopularniejszymi literami są: S, C oraz P, a najczęściej występującą samogłoską jest A. Obraz zgoła odmienny niż ten tworzony przez statystyki częstotliwości dla występowania liter bez względu na ich pozycję w słowie. W takim razie czy aby inwestorzy domenowi nie powinni używać raczej tych statystyk, przynajmniej w ocenie domen-akronimów?
[aktualizacja2] To jeszcze wykres na okrasę. :-) Niebieskie kolumny – język polski; czerwone kolumny – język angielski (American English).
Przemysław Bojczuk



11.04.2008 o godzinie 21:52:16
Witaj Przemku,
ciekawa analiza :-)
Dziękuję i pozdrawiam
Michał
11.04.2008 o godzinie 22:00:12
Dziękuję. :-)
W sumie dziwię się, że nikt wcześniej takiej nie zrobił. Albo że mnie wcześniej nie przyszło to do głowy, w końcu z plikami słownikowymi mam do czynienia cały czas… no ale luka już zapełniona. :-)
13.04.2008 o godzinie 04:16:19
Ciekawa analiza, tylko o czyms zapomniales ;)
Powinno sie uwzglednic ogonki i dodac odpowiednie wyniki do ich odpowiednikow - przy ą czy ę wyniki moga byc malo istotne, ale juz np ś czy ż robi roznice…
13.04.2008 o godzinie 06:29:36
Masz rację, zapomniałem o „ogonkach”, choć uświadomiłem to sobie niedługo po napisaniu artykułu. Miałem cichą nadzieję, że nikt nie zauważy. ;-)
No ale skoro już wypłynęło, to chyba czeka mnie większa aktualizacja, przy okazji uwzględnię też ilość wyrazów z przedrostkami (np. nie-), więc muszę nad tym jeszcze trochę popracować.
16.04.2008 o godzinie 18:28:07
Gratuluję! Kawał dobrej roboty!
Ja również jestem zaskoczony, że dopiero teraz (dzięki Tobie) odnalazłem taką analizę :)
Trzymam kciuki za kolejne projekty i życzę wytrwałości!
19.04.2008 o godzinie 11:41:30
Ten blog ma sens :)
22.04.2008 o godzinie 21:31:07
Dokładnie Andro, ten blog ma sens. W końcu PB zajął się domenami, a nie mżawką postową na forum di.pl.
Zlapane.pl to kolejny przykład.
anglik
04.05.2008 o godzinie 10:38:39
W sumie szkoda, że N i P są najpopularniejsze :).
Nie są to zbyt wygodne litery w j. polskim ze względu na literowanie.
Nie ma to właściwie znaczenia w zrozumiałych i powszechnych słowach, jednak dyktowanie/literowanie domeny/słowa ze znakami N/M, P/B jest często kłopotliwe.
BTW. Artykuł bardzo ciekawy :). W celu rozpowszechniania i zwiększania popularności bloga (o ile jest Ci to na rękę) proponuję dodać go do serwisów z artukułami do przedruku.
06.05.2008 o godzinie 06:57:40
@savan: w jakim sensie P/B jest kłopotliwe? ;-) P/B jest częściej mylone w angielskim (plosive vs non-plosive) niż w polskim, chociaż może i rzeczywiście przy literowaniu trochę podobnie brzmią. Ale przecież przy literowaniu zawsze można powiedzieć „P jak Patrycja, B jak Barbara” itp. :-)
À propos N, to dopiszę jeszcze (miałem dopisać do artykułu, ale ile można robić aktualizacji…), że ponad 80% z wyrazów na N to słowa zaczynające się na „nie-”, z których większość zapewne stanowią słowa z doklejoną partykułą, dlatego ta liczba jest tak duża i tak wyraźnie odstająca od innych. Ale przecież nie można zignorować faktu, że takie wyrazy istnieją, bo i w skrótach jest ich niemało.
W kwestii przedruku, licencja (po prawej na każdej podstronie) jak najbardziej na to zezwala. Nie wiem jednak jakie serwisy masz na myśli. No i jeśli miałbym to „puścić” gdzieś dalej, musiałbym najpierw pięć razy przeedytować i doprowadzić do porządku, bo teraz to jest (było) pisane na gorąco. :-)
19.11.2008 o godzinie 20:04:23
Ta analiza nie jest pionierska - niestety. Gdzieś było już o tym pisane, wyleciał mi jednak adres z głowy. Choć nie do końca chyba te dane są prawdziwe?
02.04.2012 o godzinie 13:58:12
Ciekawe zestawienie