zaloguj się do e-DGP
FAKTORING - serwis GazetaPrawna.pl
statystyki

Dwójka informatyków z Polski stworzyła najlepszy na świecie syntezator mowy

skomentuj

Dwójka informatyków z Gdańska stworzyła najlepszy na świecie syntezator mowy. To on czyta nazwy przystanków w warszawskim metrze i treści SMS-ów w amerykańskich komórkach.

Gdy przed kilkoma laty zakładali własną spółkę, nie mieli pieniędzy na opłacenie kapitału założycielskiego. Dziś ich Ivona warta jest miliony dolarów i regularnie pokonuje konkurencję z najwyższych półek, z IBM i Microsoftem włącznie. Najnowszy amerykański ranking po raz kolejny potwierdził, że Łukasz Osowski i Michał Kaszczuk, dwaj młodzi informatycy z Wybrzeża, są autorami najlepszego na świecie syntezatora mowy. To on czyta nazwy przystanków w warszawskim metrze, codzienną prasę dla dwóch milionów niewidomych w Wielkiej Brytanii i treści SMS-ów w amerykańskich komórkach.

Poznali się jeszcze na studiach. Łukasz, student piątego roku informatyki Politechniki Gdańskiej, zajmuje się sztuczną inteligencją. Najbardziej fascynująca wydaje mu się praca nad doskonaleniem komputerowej mowy, czyli syntezatorem, który przeczyta słowa, rozpozna je, zamieni w litery i odda w postaci dźwięku. Łukasz chce stworzyć własny model i wejść z nim na rynek, ale szuka wspólnika, bo od początku zakłada, że nie jest to przedsięwzięcie dla jednej osoby. W akademiku poznaje studenta z trzeciego roku, który podziela ten zapał. To Michał Kaszczuk.

Jest rok 2001. Łukasz rejestruje w urzędzie miasta działalność gospodarczą (po kilku latach założą spółkę, dzieląc się udziałami po równo, ale na razie musi wystarczać dżentelmeńska umowa) i po dwóch miesiącach wypuszczają na rynek pierwszy produkt. Tak powstaje syntezator mowy Spiker. Na rynku nie ma wielkiej konkurencji, więc rozchodzi się szybko, ale głównie wśród niewidomych (przekształca znaki w komputerze w głos, co pozwala przeczytać strony dokumentów, książek, treść e-maili). Gdańscy informatycy są zadowoleni, ale ich ambicje sięgają dużo dalej – chcą stworzyć syntezator mowy, który będzie cieszył nie tylko ludzi na niego skazanych, ale też dobrze widzących.

Biznesowa intuicja

Jak w przyszłości będzie wyglądał rynek, nikt wtedy nie wiedział, ale Polacy mają intuicję. Przeczuwają, że potencjał jest ogromny. W ciągu kilku lat ich przewidywania się potwierdzą – komputery czytające dokumenty, e-maile czy książki właśnie podbijają świat. Ale wtedy, w 2001 r., nie jest to jeszcze takie oczywiste. Gdańscy informatycy postanawiają więc wybiec daleko w przyszłość i stworzyć komputerową mowę na najwyższym poziomie, niemal idealną, co oznacza, że nie tylko do złudzenia będzie przypominała głos człowieka, ale też w inteligentny sposób zareaguje na rozmaite językowe pułapki napotkane w tekście, czyli skróty, akronimy, nazwy własne. To już dużo poważniejsze zadanie – prace trwają nie dwa miesiące, ale dwa lata, ale udaje się. W 2003 r. gdańscy informatycy wypuszczają na rynek nowy syntezator mowy Ivona (skrót od Intelligent Voice) i od tej chwili rozpoczyna się jego kariera na światowych rynkach.

Na czym polega wyjątkowość ich produktu? Najpierw udało im się wyodrębnić w polskim języku 10 tysięcy zdań o największym potencjale, czyli takich, które zawierają największą paletę różnych głosek, sylab, wyrazów, a nawet całych fraz. Trafiają one potem do studia, gdzie są nagrywane przez lektora i tworzą coś w rodzaju bazy danych. To kolejna składowa sukcesu – zdania trzeba bowiem nagrać tak, by potem łatwo można je było dzielić na głoski, aby te – zestawione w rozmaitych konfiguracjach – brzmiały jak oryginalne słowa. Może lektor sylabizuje w szczególny sposób, a może czyta bez intonacji? Nie wiadomo, to pilnie strzeżona tajemnica, dzięki której Ivona od lat pokonuje konkurencję. Bazę przeszukuje potem program, dopasowując litery, które składają się na tekst, do nagranych głosek, zestawia je i śle w eter. – A to już banalnie proste – podsumowuje ostatni etap Łukasz Osowski.

Produkt od razu wskakuje na najwyższą półkę. Jednym z pierwszych klientów jest polska armia, za pośrednictwem firmy produkującej sprzęt dla wojska (jaki dokładnie ma pożytek z syntezatora, to tajemnica). Sztuczny głos z Gdańska okazuje się niezastąpiony na przystankach autobusowych, tramwajowych, nawet na stacjach metra – czyta rozkład jazdy, informuje, kiedy odjedzie najbliższy pociąg. Pacjenci prywatnych przychodni umawiają się dzięki Ivonie na wizyty. Telekomunikacja Polska wykorzystuje program w centrum obsługi klienta – komputer czyta klientom, jaki mają stan konta, ile wynosi ich zadłużenie itd. Z tych samych powodów syntezator okazuje się też niezastąpiony w bankowości. Nie tylko czyta przez telefon np. dane klienta, ale umożliwia udźwiękowienie bankomatów. To z kolei wykorzystuje firma NCR, największy na świecie producent tego sprzętu, oferując w bankomatach Citibanku usługi dla niewidomych (maszyna mówi klientowi, jakie czynności powinien dokonać, i podaje potrzebne informacje, stan konta, poziom zadłużenia itd.).

Wielką radość z syntezatora mowy mają też nastoletni internauci. Ściągają na swoje komputery bezpłatne wersje demo Ivony, by stworzyć własne edycje popularnych reklam lub scen filmowych, których pełno na YouTube. Autorskie edycje roją się od wulgaryzmów, więc cała akcja niezbyt cieszy twórców syntezatora.

Komentarze: 4

  • 1: nie rozplywajmy sie w zachwycie z IP: 69.119.49.* (2011-06-25 04:14)

    W warszawskim metrze nazwy przystanków "czyta" Ksawery Jasienski. Ciekawe jak bedzie z druga linia... A Ivona moze i jest wykorzystywana, ale nie w wagonach metra.

  • 2: rewizor z IP: 109.110.223.* (2011-06-25 05:54)

    Naprawdę dobra polska robota-czapki z głów bo być pierwszym przed doliną krzemową to szczyty marzeń bardzo wielu ludzi i pokazuje kierunki gdzie leżą pieniądze

  • 3: wrógludu z IP: 77.237.20.* (2011-06-25 13:40)

    Nasze pieniądze "leżą" w kieszeniach polityków i różnej maści hohsztaplerów, a chłopaki maja niezwykły talent i sa bardzo ambitni i pracowici więc powinni zmykać z tego dziadowstwa, bo nie będą wiedzieli kiedy ich też okradną ze wszystkiego!!!

  • 4: A pięciu Estończyków stworzyło Skype z IP: 46.112.228.* (2011-06-25 20:16)

    Tyle że Skype kupił Microsoft za ... 8 Miliardów Dolarów.

    Tyle to my z całej prywatyzacji nie wyciągneliśmy.

Twój komentarz
Uwaga, Twój komentarz może pojawić się z opóźnieniem do 10 minut.

Zanim dodasz komentarz - zapoznaj się z zasadami komentowania artykułów.

Widzisz naruszenie regulaminu? Zgłoś je!
Tankowanie

Ropa jest coraz tańsza, ale ceny paliw na stacjach pozostaną wysokie

Od początku maja baryłka ropy potaniała o 15 proc. Nie oznacza to jednak, że możemy się spodziewać spadku cen na stacjach w Polsce, bo przeszkadza w tym umacniający się dolar.

zobacz więcej artykułów

Najnowsze wiadomości z Forsal.pl

Zapisz się na bezpłatny newsletter Gazety Prawnej
Wyszukiwarka Nieruchomości
Wyszukaj w Encyklopedii

Galerie zdjęć

Twarze Biznesu

Zapisz się na bezpłatny newsletter

porównywarka finansowa TotalMoney.pl: kredyty gotówkowekredyty hipotecznekredyty samochodowelokatyenergiakonta osobiste