Zna to każdy miłośnik seriali kryminalnych: policjanci prowadzą śledztwo w sprawie zabójstwa, ale brakuje im poszlak. Nagle okazuje się, że w pobliżu miejsca zbrodni była zamontowana uliczna kamera, która zarejestrowała zdarzenie, lecz obraz jest nieostry. Z pomocą rusza technologia: pochyleni nad komputerowym monitorem śledczy mówią do technika kilka razy „powiększ, wyostrz” i – voila! – naszym oczom ukazuje się wyraźna twarz zabójcy.
Ten powtarzany do znudzenia motyw jest niemożliwy z przyczyn technicznych. Nie zmienia to faktu, że naukowcy na całym świecie starają się udoskonalać istniejące technologie wideo. Do tego grona dołączyli też inżynierowie z Politechniki Łódzkiej z kamerą GekonCam – to urządzenie o polu widzenia 180 stopni, do tego bez zniekształceń geometrycznych i z możliwością natychmiastowego cyfrowego zoomu.
– Kilka lat temu na rynku pojawiła się kamera do wideokonferencji, która sama obracała się w kierunku mówiącej w osoby. Niestety, obracanie obiektywu było powolne, więc często odbiorca słyszał głos, ale nie widział twarzy. Zaczęliśmy zastanawiać się nad zbudowaniem kamery, która nie będzie potrzebowała ruchomych elementów do obracania – wspomina genezę wynalazku dr inż. Przemysław Sękalski z Politechniki Łódzkiej, który kierował pracami nad GekonCamem.
W praktyce oznaczało to, że kamera musiała spełniać kilka warunków, w tym mieć jak najszersze pole widzenia – tak, żeby obejmować jednocześnie kilka osób siedzących przy stole konferencyjnym. Dodatkowo odbiorca musiałby mieć możliwość wycinania i powiększania z całego, rejestrowanego przez kamerę obrazu dowolnego fragmentu, np. twarzy rozmówcy. Przewagą nad kamerkami obracanymi mechanicznie dawałoby to, że przechodzenie pomiędzy poszczególnymi fragmentami obrazu miało być natychmiastowe. To oznaczało kilka problemów do rozwiązania.
Problem numer jeden to znalezienie sensora, która byłby w stanie zarejestrować tak szeroki kąt widzenia w dobrej jakości. Sensor to element czuły na światło, który jest oczami każdej kamery i każdego aparatu cyfrowego. – Równie ważna jest optyka. Wraz ze zmianą obiektywu rośnie ilość
informacji, ale liczba pikseli w kamerze jest stała. Tracimy zatem dokładność – tłumaczy mgr inż. Marcin Chojnacki, który także pracował nad wynalazkiem.
Ten ostatni aspekt jest ważny z punktu widzenia kluczowego aspektu GekonCama, czyli wykonywania dobrych jakościowo zbliżeń. Powiększyć można obraz z każdego sensora, jeśli jednak ma on niewielką rozdzielczość, to nie zarejestruje wielu detali, a na ekranie zamiast czyjejś postaci zobaczymy po prostu wielkie kwadraty.
Kluczowa więc jest rozdzielczość sensora. Na szczęście kiedy inżynierowie zabierali się do wynalazku, belgijska firma CMOSIS wprowadziła na rynek sensor o rozdzielczości 70 megapikseli, czyli 70 mln pikseli (rozdzielczość Full HD – najpopularniejsza obecnie w monitorach komputerowych – to 2 mln pikseli, a zdobywająca obecnie popularność 4k – 4 mln pikseli, zaś najlepsze telefony mają dzisiaj kamerę zdolną rejestrować 25 mln pikseli). – Ich sensor był wtedy tak nowoczesny, że musieliśmy podpisać tonę papierów potwierdzających, że nie kupujemy go do celów militarnych – śmieje się Sękalski.
Problem numer dwa: każda kamera rejestrująca tak szeroki kąt w efekcie da obraz, który po bokach będzie zniekształcony w charakterystyczny sposób – linie proste staną się wypukłe. To tzw. zniekształcenie beczkowe. W praktyce – np. gdyby kamera została zastosowana do telekonferencji – postaci siedzące na wprost od kamery wyglądałyby naturalnie, ale już te znajdujące się po bokach byłyby wykrzywione w nienaturalny sposób. Dlatego inżynierowie musieli znaleźć metodę wyprostowania boków dla lepszego efektu.
– Na szczęście od 500 lat odwzorowujemy kulę ziemską na prostokątnych mapach, więc matematyka stojąca za tym zadaniem jest dobrze znana. Jej podstawy właściwie zna każdy, bo chodzi o trygonometrię – mówi Sękalski. Zaznacza jednak, że nawet jeśli same równania są proste do napisania, to wymagają dużej liczby obliczeń – bo przy ich rozwiązaniu każdy piksel należy policzyć oddzielnie.
Stąd bierze się problem numer trzy – jak wyprostować obraz, zwłaszcza w czasie rzeczywistym, tak, żeby odbiorca widział już niepowykrzywiane twarze i żeby przekaz był płynny. – Oznacza to, że należy wykonać w ciągu 1 sekundy 25 razy obliczenia dla każdego z milionów pikseli. 25 razy, bo tyle klatek na sekundę ma film – dodaje Marcin Chojnacki, doktorant realizujący prace badawcze w zakresie przetwarzania obrazu.
Inżynierowie zdecydowali się sięgnąć po układ FPGA, co po polsku tłumaczy się jako bezpośrednio programowalną macierz bramek. To procesor, który może mieć różną budowę wewnętrzną zależną od naszych wymagań. O ile zwyczajne scalaki – np. takie, jakie znajdziemy w
komputerach osobistych – wykonują zadania w z góry zaprojektowanych krokach i blokach, o tyle układy FPGA można dostosować do naszych potrzeb i zaprogramować ich wewnętrzny kształt prawie tak, jak się chce (a potem przeprogramować, jeśli zajdzie taka potrzeba).
Inżynierowie przyznają: nie jest to ani rozwiązanie najtańsze, ani najbardziej wydajne, ale bardzo elastyczne i umożliwiające szybkie prototypowanie. – Dodatkowo z punktu widzenia europejskiego, a w związku z tym i polskiego
prawa patentowego, ochroną może być objęte tylko coś, co ma fizyczną reprezentację. Nie można w związku z tym opatentować samego kodu – traktowane jest bowiem jak utwór literacki, czyli można je kopiować i poddawać modyfikacjom. Ale można zdobyć patent na oprogramowanie zaimplementowane w układzie scalonym. Dlatego zdecydowaliśmy się na układ FPGA – tłumaczy Sękalski.
Od momentu, kiedy łódzcy inżynierowie zabrali się do pracy nad GekonCamem, minęło już ponad 5 lat, co w realiach branży elektronicznej oznacza wieki. W związku z tym technologia poszła do przodu, a na rynku są już dostępne kamery o polu widzenia 180, a nawet 360 stopni, za relatywnie niewielkie pieniądze. Te niewielkie
pieniądze są jednak efektem kompromisów, na jakie poszli ich konstruktorzy jeszcze na etapie deski kreślarskiej – a więc np. zastosowania znacznie słabszego sensora, wykorzystania wielu sensorów, rezygnacji z usuwania zniekształceń online itd. itp. To sprawia, że inżynierowie są przekonani, że ich kamera – bądź jej elementy – wciąż mają rynkową szansę.
– Korekcja zniekształceń w locie to cały czas rozwojowa gałąź elektroniki, bo
konsumenci żądają kamer działających w coraz wyższej rozdzielczości, z coraz lepszą jakością obrazu, za czym nie nadąża moc obliczeniowa naszych komputerów, a przynajmniej nie tych tanich – tłumaczy Sękalski. Nie jest więc wykluczone, że GekonCam pod jakąś postacią trafi jeszcze na rynek. Inżynierowie wskazują jednak, że de facto już się na nim znalazł, bo jest zapotrzebowanie na know-how, z którego korzystali przy pracy nad GekonKamem.
Dla jednej z łódzkich firm pracownicy politechniki opracowali więc rozwiązanie, które łączy obraz rejestrowany z dwóch kamer jednocześnie celem otrzymania obrazu 3D, znanego z kin. A ponieważ łączenie obrazów to nic innego jak przekształcenia matematyczne, inżynierowie byli w stanie przyczynić się do powstania polskiego produktu tańszego od zagranicznych odpowiedników.
Z kolei współpracując z inną, wykorzystali dokładnie te same algorytmy, które wymyślili przy pracy nad GekonCamem. Ten podmiot z kolei potrzebował rozwiązania, dzięki któremu kamera obserwowałaby półkę sklepową celem wychwycenia, czy towar jest odpowiednio wyłożony na półkach. – To oczywiście oznacza maszynowe rozpoznawanie obrazu, czyli technologię z zakresu sztucznej inteligencji, ale komputerowi znacznie łatwiej rozpoznać obraz, który nie jest zniekształcony, więc nasze rozwiązania były jak znalazł – mówi Sękalski. Dodaje, że sam patent nadal czeka na licencjonowanie lub sprzedaż, a opracowana technika modyfikacji obrazu umożliwia korekcję nie tylko zniekształceń baryłkowych.
Eureka! DGP
Trwa piąta edycja konkursu „Eureka! DGP – odkrywamy polskie wynalazki”, do którego zaprosiliśmy polskie uczelnie, instytuty badawcze i jednostki naukowe PAN. Do 15 czerwca w Magazynie DGP będziemy opisywać wynalazki nominowane przez naszą redakcję do nagrody głównej, wybrane spośród 78 nadesłanych przez uczelnie i instytuty.
Rozstrzygnięcie konkursu nastąpi pod koniec czerwca. Nagrodą jest 30 tys. zł dla zespołu, który pracował nad zwycięskim wynalazkiem, ufundowane przez Mecenasa Polskiej Nauki – firmę Polpharma, oraz kampania promocyjna dla uczelni lub instytutu o wartości 50 tys. zł w mediach INFOR Biznes (wydawcy Dziennika Gazety Prawnej) ufundowana przez organizatora.