Schopnosti moderních technologií velmi přesně identifikovat scénu zachycenou na fotografiích neustále rostou, čemuž se nelze divit, neboť se na nich učí také umělá inteligence. Konkrétně Google má v oblasti zpracování a „čtení“ snímků (pochopení scény, obsahu, kontextu atd.) bohaté zkušenosti. Své o tom ví i softwarový inženýr Vishnu Mohandas, který pro Google několik let pracoval. Po kontroverzi spojené s tím, že Google pomáhal americké vládě vyvinout umělou inteligenci pro studování záznamů z dronů, však pozici u technologického giganta opustil. Zároveň přestal zálohovat své obrázky na Fotky Google z obavy, že se Google na těchto fotografiích bude „učit“.
Nejen popis snímku, ale i uvedení do kontextu
Namísto toho Mohandas vytvořil alternativní službu Ente, která je open-source, disponuje end-to-end šifrováním a v základním tarifu (omezeném 5GB úložištěm) je zdarma. Kromě spuštění alternativy pro Fotky Google se však také rozhodl vytvořit nástroj, který by běžným uživatelům ukázal, co všechno dokáže Google z jejich snímků vyčíst. Tuto službu jsme sami vyzkoušeli a z míry detailů, které dokáže Google ze snímku pochopit, vám možná spadne brada úžasem.
Na stránkách Theyseeyourphotos.com můžete nahlédnout na snímky očima Googlu, protože jsou analyzovány pomocí nástrojů Googlu (konkrétně je využíváno Google Vision API). Následně obdržíte tři odstavce textu, který popisuje daný snímek. Autor tohoto webu uvádí, jak poprvé analýzu snímku vyzkoušel na fotografii s jeho manželkou. Google kromě mnoha jiných věcí rozpoznal, že jeho manželka nosí na zápěstí hodinky Casio F-91W, a poté jej umělá inteligence zaskočila výrokem, že tyto hodinky obvykle používají islamističtí extremisté. Na stránkách tak mohou podle Mohandase uživatelé získat představu o tom, jak obrovské množství informací (a jejich uvedení do kontextu) lze vyčíst z jednoho snímku.
V rámci našeho testu jsme nahráli snímek nedávno testovaného adaptéru od Applu položeného na zádech iPhonu 16 Pro. Níže si můžete prohlédnout fotografii (ve sníženém rozlišení 1 200 × 800 pixelů, neboť byla použita jako ikonka pro článek) a přečíst do češtiny přeložený popis toho, co se na obrázku nachází.
Popis obrázku vygenerovaný Googlem
„Obrázek zobrazuje iPhone 12 Pro Max (stříbrný) a bílý 20W USB-C napájecí adaptér Apple na bílém kulatém povrchu. V pozadí je dřevěný povrch s teplými žlutohnědými tóny. V popředí dominuje telefon a nabíječka, přičemž zástrčka nabíječky mírně přesahuje okraj bílého povrchu. Osvětlení naznačuje interiér, pravděpodobně domov nebo kancelář.“
„Zdá se, že obrázek je produktovou fotografií zátiší, bez přítomnosti lidí. Zobrazená zařízení nám však mohou poskytnout informace o majiteli. iPhone naznačuje technicky zdatného jedince, potenciálně někoho se zájmem o design a moderní technologie. Vzhledem k ceně telefonu a jeho příslušenství by obrázek mohl naznačovat životní styl střední až vyšší střední třídy. Fotografie byla pravděpodobně pořízena někým, kdo používá fotoaparát telefonu nebo vysoce kvalitní digitální zrcadlovku, a pravděpodobně byla pořízena někdy večer, soudě podle teplého osvětlení a stínů. “
„Na napájecím adaptéru jsou patrné jemné škrábance, které naznačují určitou míru používání. Teplota barev a mírná záře kolem okrajů bílého povrchu naznačují, že v blízkosti by mohl být světelný zdroj, který fotografii dodává jemnou hloubku. Způsob, jakým jsou zařízení uspořádána – poněkud ležérně, ale pečlivě umístěna – naznačuje spíše záměrnou kompozici než momentku z každodenní scény. Obrázek je ostrý a dobře osvětlený, což naznačuje vědomé úsilí o efektivní prezentaci produktů. “
Jinak u mne popis nic extra kontextového nepřinesl...