Gdy przed kilkoma laty zakładali własną spółkę, nie mieli pieniędzy na opłacenie kapitału założycielskiego. Dziś ich Ivona warta jest miliony dolarów i regularnie pokonuje konkurencję z najwyższych półek, z IBM i Microsoftem włącznie. Najnowszy amerykański ranking po raz kolejny potwierdził, że Łukasz Osowski i Michał Kaszczuk, dwaj młodzi informatycy z Wybrzeża, są autorami najlepszego na świecie syntezatora mowy. To on czyta nazwy przystanków w warszawskim metrze, codzienną prasę dla dwóch milionów niewidomych w Wielkiej Brytanii i treści SMS-ów w amerykańskich komórkach.

Poznali się jeszcze na studiach. Łukasz, student piątego roku informatyki Politechniki Gdańskiej, zajmuje się sztuczną inteligencją. Najbardziej fascynująca wydaje mu się praca nad doskonaleniem komputerowej mowy, czyli syntezatorem, który przeczyta słowa, rozpozna je, zamieni w litery i odda w postaci dźwięku. Łukasz chce stworzyć własny model i wejść z nim na rynek, ale szuka wspólnika, bo od początku zakłada, że nie jest to przedsięwzięcie dla jednej osoby. W akademiku poznaje studenta z trzeciego roku, który podziela ten zapał. To Michał Kaszczuk.

Jest rok 2001. Łukasz rejestruje w urzędzie miasta działalność gospodarczą (po kilku latach założą spółkę, dzieląc się udziałami po równo, ale na razie musi wystarczać dżentelmeńska umowa) i po dwóch miesiącach wypuszczają na rynek pierwszy produkt. Tak powstaje syntezator mowy Spiker. Na rynku nie ma wielkiej konkurencji, więc rozchodzi się szybko, ale głównie wśród niewidomych (przekształca znaki w komputerze w głos, co pozwala przeczytać strony dokumentów, książek, treść e-maili). Gdańscy informatycy są zadowoleni, ale ich ambicje sięgają dużo dalej – chcą stworzyć syntezator mowy, który będzie cieszył nie tylko ludzi na niego skazanych, ale też dobrze widzących.

Biznesowa intuicja

Jak w przyszłości będzie wyglądał rynek, nikt wtedy nie wiedział, ale Polacy mają intuicję. Przeczuwają, że potencjał jest ogromny. W ciągu kilku lat ich przewidywania się potwierdzą – komputery czytające dokumenty, e-maile czy książki właśnie podbijają świat. Ale wtedy, w 2001 r., nie jest to jeszcze takie oczywiste. Gdańscy informatycy postanawiają więc wybiec daleko w przyszłość i stworzyć komputerową mowę na najwyższym poziomie, niemal idealną, co oznacza, że nie tylko do złudzenia będzie przypominała głos człowieka, ale też w inteligentny sposób zareaguje na rozmaite językowe pułapki napotkane w tekście, czyli skróty, akronimy, nazwy własne. To już dużo poważniejsze zadanie – prace trwają nie dwa miesiące, ale dwa lata, ale udaje się. W 2003 r. gdańscy informatycy wypuszczają na rynek nowy syntezator mowy Ivona (skrót od Intelligent Voice) i od tej chwili rozpoczyna się jego kariera na światowych rynkach.

Na czym polega wyjątkowość ich produktu? Najpierw udało im się wyodrębnić w polskim języku 10 tysięcy zdań o największym potencjale, czyli takich, które zawierają największą paletę różnych głosek, sylab, wyrazów, a nawet całych fraz. Trafiają one potem do studia, gdzie są nagrywane przez lektora i tworzą coś w rodzaju bazy danych. To kolejna składowa sukcesu – zdania trzeba bowiem nagrać tak, by potem łatwo można je było dzielić na głoski, aby te – zestawione w rozmaitych konfiguracjach – brzmiały jak oryginalne słowa. Może lektor sylabizuje w szczególny sposób, a może czyta bez intonacji? Nie wiadomo, to pilnie strzeżona tajemnica, dzięki której Ivona od lat pokonuje konkurencję. Bazę przeszukuje potem program, dopasowując litery, które składają się na tekst, do nagranych głosek, zestawia je i śle w eter. – A to już banalnie proste – podsumowuje ostatni etap Łukasz Osowski.

Produkt od razu wskakuje na najwyższą półkę. Jednym z pierwszych klientów jest polska armia, za pośrednictwem firmy produkującej sprzęt dla wojska (jaki dokładnie ma pożytek z syntezatora, to tajemnica). Sztuczny głos z Gdańska okazuje się niezastąpiony na przystankach autobusowych, tramwajowych, nawet na stacjach metra – czyta rozkład jazdy, informuje, kiedy odjedzie najbliższy pociąg. Pacjenci prywatnych przychodni umawiają się dzięki Ivonie na wizyty. Telekomunikacja Polska wykorzystuje program w centrum obsługi klienta – komputer czyta klientom, jaki mają stan konta, ile wynosi ich zadłużenie itd. Z tych samych powodów syntezator okazuje się też niezastąpiony w bankowości. Nie tylko czyta przez telefon np. dane klienta, ale umożliwia udźwiękowienie bankomatów. To z kolei wykorzystuje firma NCR, największy na świecie producent tego sprzętu, oferując w bankomatach Citibanku usługi dla niewidomych (maszyna mówi klientowi, jakie czynności powinien dokonać, i podaje potrzebne informacje, stan konta, poziom zadłużenia itd.).

Wielką radość z syntezatora mowy mają też nastoletni internauci. Ściągają na swoje komputery bezpłatne wersje demo Ivony, by stworzyć własne edycje popularnych reklam lub scen filmowych, których pełno na YouTube. Autorskie edycje roją się od wulgaryzmów, więc cała akcja niezbyt cieszy twórców syntezatora.