Porady biznesowe

Człowiek w Google'ach na głowie

Jak rozpoznaje nas komputer? - rozmowa z Hartmutem Nevenem - profesorem informatyki, inżynierem w firmie GOOGLE


VADIM MAKARENKO: Jadąc na spotkanie z panem, zobaczyłem na skrzyżowaniu dziewczynę. Stała na chodniku przed przejściem dla pieszych, czekała na światło. Piękna nieznajoma. Może ją pan dla mnie odnaleźć?

HARTMUT NEVEN: Ha! Nie pan pierwszy o to pyta. Technicznie jesteśmy prawie gotowi. Nasz system rozpoznawania twarzy, prawdopodobnie najbardziej dokładny na świecie, już działa. Gdyby tylko miał pan zdjęcie tej nieznajomej...

VM: Mam, zrobiłem telefonem.

HN: Zatem odnalezienie dziewczyny byłoby jak najbardziej możliwe, ale... wkraczamy na śliski grunt naruszenia jej prywatności. I dlatego dziś ani ja, ani wyszukiwarka wizualna Google Goggles, nad którą pracuję, nie możemy panu pomóc.

VM: A jutro?

HN: Nasza wyszukiwarka rozpozna twarz i odpowie na pytanie, kim jest dana osoba, jeśli jej zdjęcie znajdzie się w bazie danych wraz z imieniem i nazwiskiem. Jeśli takich danych nie będziemy mieli, nic nie poradzimy. Jednak już dziś w internecie ludzie publikują swoje fotografie z dość szczegółowymi opisami - np. w albumach zdjęć w naszym serwisie Picasa, blogach czy na domowych stronach internetowych, w serwisach społecznościowych. A to ułatwi nam zadanie.

VM: Ale czy buszując po albumie fotograficznym na Facebooku, nie naruszycie mojej prywatności?

HN: Nie, jeśli zrobimy to za pana zgodą. Mogę sobie wyobrazić, że chciałby pan być rozpoznawany przez każdego i podpisał pan zgodę w rodzaju: "Mogę być wygooglowany". Wówczas umieścilibyśmy pańskie zdjęcie w bazie danych wraz z imieniem i nazwiskiem. Pod takim samym warunkiem mógłby pan odnaleźć dziewczynę, która wpadła panu w oko. Ale to ekstremalny przykład zastosowania technologii, nad którą pracuję. W zeszły weekend wybrałem się do Muzeum Sztuki Współczesnej w San Francisco. Byłem tam pierwszy raz, namiętnie fotografowałem obrazy komórką. Goggles wszystkie rozpoznały. Nic dziwnego - w bazie mamy już kilkaset tysięcy dzieł sztuki, co miesiąc uzupełniamy ją o zbiory kolejnych muzeów.

VM: W Polsce też?

HN: W pierwszej kolejności fotografujemy najsłynniejsze dzieła najważniejszych galerii świata, dlatego muzea gdzieś na polskiej prowincji mogą nie figurować w naszej wyszukiwarce. Jeszcze nie.

VM: Jedno spojrzenie i wiesz, kim ona jest. Co komputery rozpoznają lepiej, a co gorzej?

HN: Przedmioty o różnorodnej barwie i budowie są rozpoznawane dużo lepiej niż te, które mają prostą budowę oraz jednorodną barwę. Na przykład... (Neven szuka czegoś na stole) pilot do rzutnika! Komputer go świetnie rozpozna. Ale... (Neven znika w rogu pokoju, wraca z wielką beżową piłką do ćwiczeń pilates) z tym czymś jest dużo gorzej. Kształt i kolor piłki to jedyne cechy, które ją określają. Jak odróżnić ją od balonika? Natomiast samochód jest gdzieś pośrodku skali trudności.

VM: OK, ale jeśli komputer rozpozna, że widzi samochód, to skąd wie, że to popularna w Dolinie Krzemowej Toyota Prius?

HN: Tu właśnie z pomocą przychodzą użytkownicy internetu. Wrzucają setki tysięcy zdjęć tego samego obiektu, np. Toyoty czy Tadż Mahal, i podpisują je w różnych językach. Niektórzy mają aparaty z GPS, więc dodają jeszcze dokładne współrzędne miejsca, w którym zrobiono zdjęcie. Wtedy komputery analizują te wszystkie dane. Każde nowe zdjęcie pogłębia wiedzę maszyny lub uczy czegoś nowego. My w Google?u nie tworzymy opisów sami, po prostu analizujemy te, które w internecie zamieścili ludzie.

Nasza technologia pomaga np. użytkownikom albumów zdjęć Picasa rozpoznawać automatycznie twarze członków rodziny czy znajomych. W przeglądarce zdjęć ulic StreetView pozwala nam wykryć i zamazać twarze przechodniów oraz tablice rejestracyjne samochodów, dzięki czemu Google może działać zgodnie z prawem chroniącym prywatność. A w serwisie YouTube wspiera walkę z pornografią - żeby usunąć takie filmiki, najpierw trzeba je rozpoznać. Prawie każdy obraz, na który patrzy Google, jest analizowany przez jeden z naszych algorytmów.

VM: Internet staje się chyba coraz bardziej obrazkowy, nie sądzi pan?

HN: Tekst jest trudny i pan jako dziennikarz doskonale o tym wie. Nie tak łatwo połączyć ze sobą zgrabnie kilka zdań, natomiast każdy może narobić zdjęć na imprezie i wrzucić je do sieci z komentarzem w rodzaju: "Ej, fajna impreza była wczoraj! Patrzcie wszyscy". Zdjęcia są nie tylko łatwe w produkcji, ale i coraz łatwiejsze w publikacji - niech pan popatrzy, jak życie ułatwili nam producenci telefonów komórkowych. Zdjęcia wrzucamy do sieci poprzez naciśnięcie guzika. Stąd bierze się gwałtowny przyrost grafiki w internecie.

Oceniam, że zdjęcia i filmy dziś stanowią już ponad połowę zawartości sieci. W niektórych dziedzinach wiedzy - np. medycynie - dominuje już grafika: 75-80 proc. informacji medycznych dostępnych w internecie zawiera obrazy w tej czy innej formie. Do niedawna grafika była praktycznie niewidoczna dla wyszukiwarek, była jakby białą plamą na mapie sieci.

VM: Jakich obrazów ludzie poszukują w sieci?

HN: Z grubsza można podzielić je na dwie kategorie. Pierwsza wynika - że tak powiem - z potrzeby serca. Np. wraca pan do hotelu i ocenia, że dzień był udany: "Miałem kilka ciekawych spotkań, zebrałem dużo materiału, odwaliłem kawał dobrej roboty, więc muszę pomyśleć o wakacjach na Hawajach". Włącza pan wyszukiwarkę i wpisuje: "Hawaje, hotele, lato". Otoczenie - miejsce, w którym pan się znajduje, ludzie, przedmioty, które pan widzi - nie ma bezpośredniego wpływu na to, o co pan pyta Google'a.

Tymczasem druga kategoria obrazów, których szukają w internecie ludzie, ma źródło właśnie w ich otoczeniu. Widzi pan kobietę z ładną torebką i myśli sobie: "Moja żona byłaby szczęśliwa, gdybym dał jej taką samą w prezencie". Robi pan zdjęcie, wrzuca w Goggles i oczekuje, że podpowiemy panu, co to za torebka i gdzie ją kupić. Tym właśnie zajmuje się mój zespół. Dlatego ludzie korzystają z naszych technologii w ruchu - w miejscach, których nie znają zbyt dobrze, w krajach, których języka nie rozumieją. Za kilka lat nasza baza danych będzie o wiele bogatsza, co oznacza, że jakość wyszukiwania się znacząco poprawi. Na cokolwiek pan spojrzy - na butelkę wina, na kwiat czy samochód - będzie pan w stanie uzyskać szczegółowe informacje na ich temat. Za jakieś dziesięć lat komputery często będą wiedziały o naszym otoczeniu więcej niż my sami.

Zresztą wyobraźmy sobie, że mamy malutką kamerę, która jest zamontowana w naszych okularach, patrzy na świat naszymi oczami i pomaga nam analizować to, co widzimy.

VM: Czyli pana zdaniem postęp w analizie obrazów zmieni sposób naszej interakcji z komputerami, tak jak np. dotyk wypiera klawiaturę i myszkę w telefonach i tabletach?

HN: Nie przypadkiem nasza usługa nazywa się Goggles [ang. gogle]. Oczywiście trudno jest przewidzieć przyszłość i to, jak będzie zmieniał się sprzęt. Na początku lat 90. rozmawiałem z ludźmi z Microsoftu, którzy już wtedy pracowali nad czymś, co nazywali "komputerem bez klawiatury". Zakładali, że będziemy komunikować się z maszyną za pomocą głosu.

Ostatnio na rynek trafia coraz więcej urządzeń, które umożliwiają wejście w kontakt z maszyną za pomocą gestów - technologie Kinect firmy Microsoft czy Wii Remote firmy Nintendo obserwują i analizują ruchy naszego ciała, co pozwala np. zagrać w tenisa z komputerem i naprawdę się przy tym zmęczyć.

Dlaczego więc nie okulary z kamerą? Już to sobie wyobrażam: jadę na konferencję naukową, mijam na korytarzu światowe sławy, z którymi zawsze chciałem porozmawiać, ale nie znam ich twarzy. Jednak moje okulary podpowiadają: "Właśnie minąłeś autora pracy, którą czytałeś wczoraj!".

VM: Czego komputery nie wymyślą. Ma pan problem z zapamiętywaniem twarzy? Bo ja mam.

HN: Kiedyś nie miałem, ale z wiekiem coraz częściej mam trudności. Natomiast Eric Schmidt, prezes Google?a, jest pod tym względem niezwykły - ma fotograficzną pamięć, spotka się z inżynierem raz, a zapamięta nie tylko twarz, ale też imię.

VM: Gdy komputery staną się takie biegłe w zapamiętywaniu twarzy, to czy ktokolwiek z nas będzie musiał jeszcze je pamiętać? Czy nie będzie tak jak z kalkulatorami - dzieci są coraz słabsze z arytmetyki, bo kalkulatory są wszędzie, choćby w komórce, i samodzielnie nie trzeba niczego liczyć.

HN: Często się nad tym zastanawiam. Mam dwie odpowiedzi - pesymistyczną i optymistyczną. Niedawno byłem z rodziną w Nowym Jorku, wybraliśmy się do muzeum. Zatrzymaliśmy się w sklepiku, były tam książki, pocztówki i inne pamiątki. Na okładce jednej z książek zobaczyłem bardzo popularny obraz - nie pamiętałem czyj, ale widziałem go setki razy. Zapytałem Goggles, od razu dowiedziałem się, co to za obraz, kto jest jego autorem, jaką ma historię. Spojrzałem wtedy na mojego synka i zadałem sobie pytanie: czy gdy dorośnie, będzie w stanie bez pomocy internetu odróżnić Pabla Picassa od Edgara Degasa?

VM: Skoro mała komórka wie tak wiele, po co zaprzątać sobie głowę wiedzą o Picassie?

HN: Właśnie, kiedyś wszyscy uczyliśmy się tego w szkołach, a dziś mamy tę wiedzę na wyciągnięcie ręki.

Pamiętam, że gdy chodziłem do szkoły, nagle pojawiły się tanie kalkulatory. Pytaliśmy naszą nauczycielkę, po co się uczyć mnożenia i dzielenia, skoro szybciej policzymy wszystko na kalkulatorze. Odpowiadała, że lepiej umieć - kalkulator może się przecież zepsuć, bo mogą być problemy z prądem.

VM: I to ma być optymistyczna wizja? Uczmy się w szkole na wypadek problemów z prądem?

HN: Pesymistyczna. Nowe technologie i narzędzia mogą wesprzeć edukację; trzeba tylko wiedzieć, jak ich używać. To wielkie zadanie współczesnej szkoły - uczyć, jak się lepiej uczyć. Dzięki nowym technologiom nauka będzie łatwiejsza i zarazem nauczycielom łatwiej będzie śledzić moje postępy.

VM: Ja jestem pesymistą. Widzę, że dzieci coraz gorzej radzą sobie np. z mapami i słownikami, bo wszystko sprawdzają w sieci.

HN: Trochę tak jest. Jako dziecko dorastałem na przedmieściach, biegałem po lesie i musiałem umieć orientować się w terenie, choćby po położeniu słońca. Dziś spotykam coraz więcej ludzi, którzy nie są w stanie powiedzieć, gdzie jest północ. Dlaczego? Bo prawie wszyscy mają nawigację GPS.

VM: Czyli ludzi doskonalą trudności, a nie rozwój techniki?

HN: Opowiem panu historię. Rosjanie przez lata mieli słaby dostęp do komputerów, w efekcie ich matematycy wyspecjalizowali się w metodach analitycznych, a nie obliczeniowych. Są krzywe, które opisują jakieś zjawiska czy sytuacje, ale dużo bardziej przydatne są wzory, na których można zbudować jakąś prognozę. Na przykład: gdy mówimy o zmianie klimatu, można pokazać, jak temperatura rosła przez lata, ale dużo bardziej przydatna jest formuła, która pomoże ocenić, jak temperatura będzie zmieniała się w przyszłości. Ale to dużo trudniejsze!

Otóż dzięki temu, że komputery szybciej rozwinęły się na Zachodzie, ludzie tutaj są słabiej wykształceni w analizie matematycznej. Widzę to, gdy szukam ludzi do pracy w Google?u. Czasem ktoś jest bardzo dobry w tradycyjnej matematyce obliczeniowej, ale bardzo trudno mi znaleźć kogoś dobrego w analizie.

VM: A więc ludzkie umiejętności wciąż się liczą w świecie zdominowanym przez maszyny?

HN: Jest coś takiego w ludzkim mózgu, co czyni nas kreatywnymi. Pozwala spojrzeć szerzej na jakiś problem. Na przykład: jak obniżyć zużycie paliwa samochodów? Może problem nie tkwi w samej konstrukcji silnika, lecz w dużej mierze zależy od sposobu, w jaki korzystamy z samochodów. Może zachęcając ludzi do zostawiania aut w domu i jazdy komunikacją miejską, zaoszczędzimy więcej, niż grzebiąc w silniku?

VM: Nie ma dziś komputera, który potrafiłby wymyślić takie rozwiązanie.

HN: Kryptonim "Terminator"

VM: Skąd pan czerpie inspirację do pomysłów typu okulary z kamerą? Lubi pan literaturę czy filmy science fiction?

HN: Bardzo lubię książki Stanisława Lema. Np. "Solaris" czytałem kilka razy. Interesują mnie problemy technologiczne, które niosą ze sobą jakieś pytanie filozoficzne, ale z moją pracą literatura i film mają niewiele wspólnego.

VM: A oglądał pan "Jutro nie umiera nigdy"?

HN: Nie lubię Jamesa Bonda.

VM: To pewnie pan nie zna tej sceny: Bond udaje handlarza bronią, jedzie na negocjacje z Koreańczykami z Północy. Jeden z nich robi mu zdjęcie komórką i po kilku sekundach już wie, że Bond jest agentem Jej Królewskiej Mości z licencją na zabijanie. Z naszej rozmowy wnioskuję, że dziś taka sytuacja jest już całkowicie możliwa.

HN: Nie zdradzę żadnych szczegółów, powiem tylko, że jeden z projektów, nad którym pracuje mój zespół, ma nazwę kodową "Terminator".

ROZMAWIAŁ VADIM MAKARENKO w MOUNTAIN VIEW

Gazeta na Święta nr 300, wydanie z dnia 24/12/2010 wyborcza.biz, str. 24 Jak rozpoznaje nas komputer

Pamiętaj:
Wpisz nasz KRS 0000318482 w Deklaracji Podatkowej Twój e-PIT
Dziękujemy!

Czy wiesz, że aż 96% mikro firm zapewnia 75% wszystkich wpływów z podatków i wytwarza 51% zysku gospodarki kraju?

A tylko niewielkiej liczbie udaje się utrzymać na rynku dłużej niż rok bez dostatecznej wiedzy i znajomości przepisów.

A czy wiesz, że...

Ty też możesz coś zrobić, abyśmy mogli dalej działać i skutecznie Cię wspierać?

KRS 0000318482

Przejdź do Twój e-PIT