Dwójka informatyków z Gdańska stworzyła najlepszy na świecie syntezator mowy. To on czyta nazwy przystanków w warszawskim metrze i treści SMS-ów w amerykańskich komórkach.
Gdy przed kilkoma laty zakładali własną spółkę, nie mieli pieniędzy na opłacenie kapitału założycielskiego. Dziś ich Ivona warta jest miliony dolarów i regularnie pokonuje konkurencję z najwyższych półek, z IBM i Microsoftem włącznie. Najnowszy amerykański ranking po raz kolejny potwierdził, że Łukasz Osowski i Michał Kaszczuk, dwaj młodzi informatycy z Wybrzeża, są autorami najlepszego na świecie syntezatora mowy. To on czyta nazwy przystanków w warszawskim metrze, codzienną prasę dla dwóch milionów niewidomych w Wielkiej Brytanii i treści SMS-ów w amerykańskich komórkach.
Poznali się jeszcze na studiach. Łukasz, student piątego roku informatyki Politechniki Gdańskiej, zajmuje się sztuczną inteligencją. Najbardziej fascynująca wydaje mu się praca nad doskonaleniem komputerowej mowy, czyli syntezatorem, który przeczyta słowa, rozpozna je, zamieni w litery i odda w postaci dźwięku. Łukasz chce stworzyć własny model i wejść z nim na rynek, ale szuka wspólnika, bo od początku zakłada, że nie jest to przedsięwzięcie dla jednej osoby. W akademiku poznaje studenta z trzeciego roku, który podziela ten zapał. To Michał Kaszczuk.
Jest rok 2001. Łukasz rejestruje w urzędzie miasta działalność gospodarczą (po kilku latach założą spółkę, dzieląc się udziałami po równo, ale na razie musi wystarczać dżentelmeńska umowa) i po dwóch miesiącach wypuszczają na rynek pierwszy produkt. Tak powstaje syntezator mowy Spiker. Na rynku nie ma wielkiej konkurencji, więc rozchodzi się szybko, ale głównie wśród niewidomych (przekształca znaki w komputerze w głos, co pozwala przeczytać strony dokumentów, książek, treść e-maili). Gdańscy informatycy są zadowoleni, ale ich ambicje sięgają dużo dalej – chcą stworzyć syntezator mowy, który będzie cieszył nie tylko ludzi na niego skazanych, ale też dobrze widzących.

Biznesowa intuicja

Jak w przyszłości będzie wyglądał rynek, nikt wtedy nie wiedział, ale Polacy mają intuicję. Przeczuwają, że potencjał jest ogromny. W ciągu kilku lat ich przewidywania się potwierdzą – komputery czytające dokumenty, e-maile czy książki właśnie podbijają świat. Ale wtedy, w 2001 r., nie jest to jeszcze takie oczywiste. Gdańscy informatycy postanawiają więc wybiec daleko w przyszłość i stworzyć komputerową mowę na najwyższym poziomie, niemal idealną, co oznacza, że nie tylko do złudzenia będzie przypominała głos człowieka, ale też w inteligentny sposób zareaguje na rozmaite językowe pułapki napotkane w tekście, czyli skróty, akronimy, nazwy własne. To już dużo poważniejsze zadanie – prace trwają nie dwa miesiące, ale dwa lata, ale udaje się. W 2003 r. gdańscy informatycy wypuszczają na rynek nowy syntezator mowy Ivona (skrót od Intelligent Voice) i od tej chwili rozpoczyna się jego kariera na światowych rynkach.
Na czym polega wyjątkowość ich produktu? Najpierw udało im się wyodrębnić w polskim języku 10 tysięcy zdań o największym potencjale, czyli takich, które zawierają największą paletę różnych głosek, sylab, wyrazów, a nawet całych fraz. Trafiają one potem do studia, gdzie są nagrywane przez lektora i tworzą coś w rodzaju bazy danych. To kolejna składowa sukcesu – zdania trzeba bowiem nagrać tak, by potem łatwo można je było dzielić na głoski, aby te – zestawione w rozmaitych konfiguracjach – brzmiały jak oryginalne słowa. Może lektor sylabizuje w szczególny sposób, a może czyta bez intonacji? Nie wiadomo, to pilnie strzeżona tajemnica, dzięki której Ivona od lat pokonuje konkurencję. Bazę przeszukuje potem program, dopasowując litery, które składają się na tekst, do nagranych głosek, zestawia je i śle w eter. – A to już banalnie proste – podsumowuje ostatni etap Łukasz Osowski.
Produkt od razu wskakuje na najwyższą półkę. Jednym z pierwszych klientów jest polska armia, za pośrednictwem firmy produkującej sprzęt dla wojska (jaki dokładnie ma pożytek z syntezatora, to tajemnica). Sztuczny głos z Gdańska okazuje się niezastąpiony na przystankach autobusowych, tramwajowych, nawet na stacjach metra – czyta rozkład jazdy, informuje, kiedy odjedzie najbliższy pociąg. Pacjenci prywatnych przychodni umawiają się dzięki Ivonie na wizyty. Telekomunikacja Polska wykorzystuje program w centrum obsługi klienta – komputer czyta klientom, jaki mają stan konta, ile wynosi ich zadłużenie itd. Z tych samych powodów syntezator okazuje się też niezastąpiony w bankowości. Nie tylko czyta przez telefon np. dane klienta, ale umożliwia udźwiękowienie bankomatów. To z kolei wykorzystuje firma NCR, największy na świecie producent tego sprzętu, oferując w bankomatach Citibanku usługi dla niewidomych (maszyna mówi klientowi, jakie czynności powinien dokonać, i podaje potrzebne informacje, stan konta, poziom zadłużenia itd.).
Wielką radość z syntezatora mowy mają też nastoletni internauci. Ściągają na swoje komputery bezpłatne wersje demo Ivony, by stworzyć własne edycje popularnych reklam lub scen filmowych, których pełno na YouTube. Autorskie edycje roją się od wulgaryzmów, więc cała akcja niezbyt cieszy twórców syntezatora.



Jak za studenckich czasów

Fala sukcesów w kraju skłania gdańskich informatyków do decyzji o wejściu na światowy rynek. Na początek wydają dwie zagraniczne wersje językowe Ivony: angielsko-amerykańską i rumuńską (wybór tego języka związany był z planami dystrybutora, który chciał wejść na tamtejszy rynek). Poprzedza to ten sam, trwający około roku żmudny proces wybierania 10 tysięcy zdań z setek milionów i ich nagrywania. U konkurencji głowią się nad tym setki programistów i wydają miliony dolarów. Polaków na to nie stać, nie chcą też tracić tyle czasu. Ale mają zamiar oferować kolejne wersje językowe, więc by przegonić największych, w 2009 r. wymyślają kolejną rewolucyjną rzecz – technologię, która sama opracowuje model dla danego języka (zestaw fonemów, reguł akcentowania, intonacji). Dzięki temu oferta Ivony z dwóch zagranicznych języków wzrasta do ośmiu, a na ten rok zapowiadane jest drugie tyle. Można wybierać spośród 26 głosów, męskich i żeńskich. Na takie przedsięwzięcia mogą sobie pozwolić dzięki unijnym dotacjom: pierwszą dostali na stworzenie nowej technologii, drugą na jej wykorzystanie. Trzecia, najnowsza, idzie właśnie na dostosowanie Ivony do urządzeń o małej pojemności, czyli m.in. komórek i czytników audiobooków.
Największy konkurent, amerykańska firma giełdowa Nuance, oferuje już 30 języków, zanim więc gdańscy informatycy dobiją do tego pułapu, muszą im wystarczać zwycięstwa w kolejnych rankingach. Trzy tygodnie temu świętowali najnowszy sukces – Ivona okazała się najdokładniejszym ze wszystkich światowych produktów według raportu amerykańskiej organizacji Voice Information Associates. Testowano syntezatory w siedmiu kategoriach (m.in. interpretacja liczebników, skrótów, czytanie nazw własnych i adresów), w pięciu z nich Ivona dostała najwyższe noty. – Sam nie wiem, dlaczego innym gorzej wychodzi. Trochę mnie to dziwi, bo konkurencja ma i większe zespoły, i dużo większe pieniądze – mówi skromnie Osowski.
Sukcesy w rankingach przekładają się na zamówienia – po Ivonę sięgnął już Samsung i korzysta z niej w swych komórkach i przenośnych urządzeniach. Dwóm milionom Brytyjczyków Ivona czyta codziennie gazety (co rozpowszechnia Royal National Institut for Blind People). Polski syntezator wykorzystuje też amerykański producent Vling – wirtualnego asystenta w telefonie komórkowym, który czyta SMS-y i pomaga w nawigacji. Amerykański rynek ma największy potencjał, dlatego za miesiąc w USA ruszy spółka córka Ivony. To trudne wyzwanie, przyznają gdańscy informatycy, choćby dlatego że nie jest łatwo przekonać Amerykanów, że polski produkt może być lepszy od ich własnego.
Światowe podboje przynoszą wymierne zyski, ale w zasadzie wszystkie idą na nowe inwestycje. Kiedy rejestrowali spółkę, jako kapitał założycielski wnieśli prawa autorskie do programów komputerowych (wycenione w 2004 r. na pół miliona złotych). – Nie wyłożyliśmy pieniędzy, bo ich nie mieliśmy – wspomina Osowski. Dziś, jak mówi, nadal nie są bogatymi ludźmi, ale to już na własne życzenie – ani razu nie zdecydowali się na pobieranie dywidendy. Zatrudniają już trzydzieści osób, co rok podwajają przychody (70 proc. pochodzi z eksportu). Choć wartość firmy nieporównanie wzrosła (główny konkurent, amerykański Nuance, wyceniany jest na giełdzie na 5 – 6 mld dol.), żyją trochę jak za studenckich czasów. Jeżdżą służbowymi fordami, mieszkania kupili na kredyt, do pracy przychodzą w krótkich spodenkach i sandałach. Akademickie klimaty przypomina siedziba firmy, która mieści się w Parku Naukowo-Technologicznym w Gdyni („Super miejsce. Fantastyczna atmosfera. Za ścianą znajomi, z którymi wymieniamy się pomysłami albo zastanawiamy się, jak rozwiązać problem” – mówi Łukasz). Powodów do narzekań nie mają, wręcz przeciwnie: – W Polsce żyje nam się bardzo dobrze. Nigdzie się nie wybieramy.
Ich życie zbytnio się nie zmieniło, może z jednym wyjątkiem – kiedyś, jak mówi Osowski, poświęcali firmie 200 procent wolnego czasu. Dziś to niemożliwe, bo obaj mają rodziny. – Pieniądze to nie wszystko. Chciałbym zawsze mieć czas, by spędzać go z bliskimi i znajomymi – zastrzega założyciel Ivony, który pojechał właśnie z żoną i dziećmi na urlop do Białowieży.