Co jakiś czas pojawia się pytanie o wartość poszczególnych liter jako części składowych akronimu w nazwie domeny. Ostatnio problem wydaje się być bardzo aktualny, ze względu na wciąż rosnący obrót wtórny polskimi domenami trzyliterowymi. Próbuje się do domen polskich przykładać miarkę ukutą dla domen .com, na podstawie częstotliwości występowania liter. Tutaj panuje zgoda co do niskiej wartości domen V, X, czy Q, jednak dalsza część podziału, która stawia „pod kreską” litery takie jak W czy K, nosi wyraźne piętno języka angielskiego i nie bardzo przekłada się na naszą rzeczywistość. Dlatego postanowiłem stworzyć listę częstotliwości występowania poszczególnych liter w języku polskim. Początkowo chciałem skorzystać z Korpusu języka polskiego udostępnianego przez IPI PAN, niestety format pliku (zawierającego 250 000 000 słów) nie pozwolił na łatwe wykorzystanie go do tego celu. Postanowiłem więc nieco uprościć metodologię i wykorzystać słownik języka polskiego tworzonego pod kierownictwem Marka Futregi. Nie obliczyłem jednak częstotliwości występowania liter w ogóle, a jedynie występowanie liter na początku słów, bo to przecież jest najważniejsze dla akronimów.

Pierwsza lista powstała na bazie aktualnej wersji słownika do gier słownych, który zawiera 2 734 804 słów w różnych odmianach. Słownik ten wykorzystywany jest do gry Literaki, dlatego brak w nim słów zawierających V, Q, X – po prostu w tej grze nie występują żetony z takimi literami. Druga lista powstała na podstawie słownika do sprawdzania pisowni, który zawiera 280 560 słów, wyłącznie w formach podstawowych (wykorzystałem plik pl_PL.dic, przeznaczony do użytku w programie OpenOffice). Poniżej obie listy:

Tabela 1. Procentowe występowanie poszczególnych liter na początku słowa w języku polskim (po lewej – lista pierwsza, po prawej – lista druga); sortowanie alfabetyczne.

Tabela 1

Tabela 2. Procentowe występowanie poszczególnych liter na początku słowa w języku polskim (po lewej – lista pierwsza, po prawej – lista druga); sortowanie wg procentów.

Tabela 2

Wyraźnie widać, że dominują litery N oraz P (ta druga na liście „angielskiej” jest raczej nisko). Wysoko, szczególnie w porównaniu z jeżykiem angielskim, widzimy litery W oraz K. Wśród samogłosek dominuje O, podczas gdy w języku angielskim niekwestionowanym liderem jest E. Trzeba oczywiście pamiętać, że porównuję listę liter występujących na początku wyrazów (polskich) do listy liter występujących w ogóle w języku angielskim. Dla porównania w zasadzie trzeba by stworzyć podobną listę dla słów angielskich (i być może to zrobię, po czym zaktualizuję artykuł). Wg mnie taka lista (uwzględniająca występowanie liter na początku słów) ma dużo większy sens i znaczenie przy budowaniu akronimów.

To chyba tyle tytułem komentarza. Każdy zapewne wyciągnie z tego własne wnioski. :-)

[aktualizacja] Jednak skusiłem się i zrobiłem listę częstotliwości występowania poszczególnych liter na początku słów w języku angielskim. Wykorzystałem słownik en_GB (British English, 38 800 słów) oraz en_US (American English 45 423 słów) rozprowadzane w komplecie z pakietem OpenOffice.org 2.4. Być może nie jest to optymalne źródło (mała próbka), ale dla prostej analizy statystycznej powinno wystarczyć. Tabela poniżej.

Tabela 3. Procentowe występowanie poszczególnych liter na początku słowa w języku angielskim (po lewej – British English, po prawej – American English); sortowanie wg procentów.

Tabela 3

A więc najpopularniejszymi literami są: S, C oraz P, a najczęściej występującą samogłoską jest A. Obraz zgoła odmienny niż ten tworzony przez statystyki częstotliwości dla występowania liter bez względu na ich pozycję w słowie. W takim razie czy aby inwestorzy domenowi nie powinni używać raczej tych statystyk, przynajmniej w ocenie domen-akronimów?

[aktualizacja2] To jeszcze wykres na okrasę. :-) Niebieskie kolumny – język polski; czerwone kolumny – język angielski (American English).

Wykres

Przemysław Bojczuk