Proč a jak (ne)věřit benchmarkům

31

Kdykoli se někde v článku objeví zmínka o benchmarcích, je to zaručený recept na ostrou diskusi. Proč ale jednoduchá čísla vyvolávají tolik vášní? Je to zejména proto, že jsou špatně interpretována. Jak je tedy správně chápat, nakládat s nimi a vyvozovat patřičné závěry? Pojďte s námi vyvrátit pár mýtů.

Všichni se srovnáváme

Nejprve začněme s definicí slova benchmark v nejširším vědeckém slova smyslu. V tom případě se jedná o porovnání simulací s empirickými daty anebo porovnání dvou simulací navzájem. Zní to jako suchá definice, ale když se nad ní zamyslíme, odkryjeme jeden často přetřásaný omyl, a to bohužel i v médiích.

Benchmark má smysl vždy jen jako porovnání dvou stavů a více. Docela často se objeví zpráva o tom, že nějaký nový telefon „udělal AnTuTu za tolik a tolik bodů“, podobné „poměřování přirození“ v počtu bodů můžeme vídat na mnoha diskusních fórech. Bez konkrétních poznatků o testovacích programech a nějakém srovnání s jinými přístroji však jde jen o výkřiky do tmy.

Jak se rozhodnout, který telefon má lepší vnitřnosti, když jejich fungování rozumímem jen velmi zběžně?

Jak tedy vypadá seriózní použití benchmarků v tomto smyslu? Typickým příkladem, kdy má použití podobných programů opravdu smysl je například instalace nových verzí operačního systému. Když například uděláte testy před a po upgradu a zjistíte výrazný pokles, pak to to může znamenat nejenom špatnou optimalizaci benchmarku pro nové prostředí, ale také empirický důkaz špatné práce programátorů. Rozhodně je to lepší než konstatování, že „telefon je nějak zasekaný“.

Všichni se předvádějí

Historie počítačových benchmarků sahá někam do osmdesátých let dvacátého století, kdy začala být konkurence na trhu s výpočetní technikou natolik silná, že vyvstala potřeba porovnávat mezi sebou jednotlivá řešení. Bylo totiž potřeba zjistit, který systém se více vyplatí. Začaly tak vznikat různé standardy pro porovnávání.

Nesmíme však zapomenout na to, že se bavíme o době, kdy byl domácí počítač spíše raritou. První uživatele benchmarků tak byly firmy, které výkon skutečně využily, například při předpovídání počasí. Z toho vychází i další, spíše filozofická, otázka: „skutečně takový výkon potřebujeme, zvláště pak u mobilního zařízení?“

Benchmark
Co ve skutečnosti znamená, že jeden telefon získal více bodů než ten druhý? Odpověď není tak jednoduchá...

Představa, že hrubá síla pomůže automaticky vyřešit všechny programátorské poklesky se špatnou optimalizací, je zcela mylná. A stejně tak u mobilu, který přináší svému majiteli jen příjemné zážitky, toho potřebujeme daleko více.

Zkusme si představit metaforickou situaci z reálného života. Při pohovoru na pracovní místo prokážete lepší vzdělání, delší praxi a nižší platové nároky než člověk, kterého nakonec přijmou místo vás. Proč? Získal třeba pár bodů navíc v testech inteligence.

Všichni podvádějí

Situace popsaná v předchozím odstavci může znít absurdně, ale je celkem pochopitelná. Situace, kdy srovnáváte dva velmi složité systémy (ať už lidi, nebo mobily), je pro mnohé nad jejich síly, a tak není divu, že se uchylují k jednoduchým řešením.

Něco takového nemohou výrobci hardwaru nechat bez povšimnutí. Přiznejme si, že každý z nás se alespoň jednou pokusil podvádět u nějakého školního testu, aby získal lepší výsledky. Stejně tak to funguje i v praxi.

Pro příklady nemusíme chodit daleko. Asi nejznámější aférou tohoto druhu je případ Samsungu Galaxy S4 a AnTuTu. O co šlo? Maximální takt grafického procesoru tohoto telefonu je 533 MHz. Na ten si však sáhnou jen aplikace předinstalované Samsungem, jako je browser nebo fotoaparát. U dalších aplikací, typicky u her, je maximální takt omezen na 480 MHz, aby nedošlo k poškození procesoru nadměrným zahříváním. Je zde ale jedna malá výjimka a tou je právě zmíněný benchmark, který tak využije výkon, kterého v praxi nepůjde nikdy dosáhnout.

Samsung Galaxy S4. První odhalený "podvodník". Bude jich však zcela určitě více.

Drobná lest, nebo promyšlený podvod? Obojí znamená, že výsledkům nemůžeme plně věřit, a to z mnoha důvodů. Mluví se například o tom, že tvůrci benchmarků je mohou cíleně ladit pro určité procesory nebo architektury. Jisté ponaučení nám může dát oblast osobních počítačů, kde se podobné problémy řeší už delší dobu.

Když například čtete test nějaké grafické karty, dostanete sice obligátní výsledky benchmarků. Ty jsou však následovány dalšími testy, tentokráte však ve skutečných hrách. Až jejich porovnání s výsledky jiných karet pak umožňuje recenzentovi vyřknout konečný verdikt.

Všichni testují

Z výše uvedeného to vypadá, že benchmarky jako takové nemají u mobilních zařízení moc smysl. To je částečně pravda: kdyby byl svět tak jednoduchý, nemuseli bychom například na mobilenetu psát tak podrobné recenze, stačilo by pár papírových parametrů ve spojení s výsledky benchmarků – sami však určitě víte, že tak jednoduché to není. Nicméně i přesto mohou výsledky testů dotvořit obrázek o daném přístroji, ovšem pouze v případě, že víte, jak je správně pochopit. Shrňme si proto důležité zásady:

  • Benchmarky mají smysl jen jako srovnání.
  • Při srovnání je důležité, aby se testovalo programem v téže verzi, stejně tak by měl být stejný stav testovaných zařízení.
  • Pokud jste benchmark sami neprogramovali nebo pečlivě nestudovali jeho zdrojový kód, berte jeho výsledky vždy s rezervou.
  • S ještě větší rezervou pak berte zprostředkované výsledky benchmarků.

Co se smartphonů s Androidem týče, při jejich recenzování na mobilenetu používáme následující benchmarky: AnTuTu, Vellamo Benchmark a 3D Mark. Jak interpretovat jejich výsledky?

AnTuTu

Když se řekne mobilní benchmark, každého první napadne AnTuTu. Tento benchmark do hloubky prověří různé vlastnosti telefonu. Kromě často omílaného celkového skóre pak můžete zjistit i to, jak si telefon vede v jednotlivých segmentech. Pro uživatele je asi nejdůležitější hned první položka nazvaná UX, tedy User eXperience. Ta by asi nejlépe měla odrážet to, jakým dojmem působí telefon na svého uživatele – jestli bude tzv. lagovat anebo poběží svižně. Zkoumá se zde hlavně to, jak si telefon povede při běhu více aplikací najednou a jak dobře zvládne běh aplikací.

Další položky pak zkoumají jednotlivé části telefonu mající vliv na jeho výkon: jde o procesor, grafickou jednotku, RAM a rychlost čtení z pamětí. Zvláště u levnějších telefonů může být některá z těchto částí poddimenzovaná, přičemž se pak stane úzkým hrdlem pro celý přístroj.

I přesto, že je AnTuTu jedním z nejpoužívanějších benchmarků a mnohdy se považuje za synonymum pro mobilní benchmark, naše zkušenosti jsou takové, že právě u něj dochází velmi často k největším rozporům mezi syntetickými výsledky a skutečným dojmem z telefonu. Je to dáno zejména tím, že spousta výrobců se snaží právě tento benchmark různými způsoby ošidit. Je to samozřejmě na dlouhou (snad i nekonečnou diskuzi), ale rozhodně zde více než kde jinde platí naše rada, abyste brali případné výsledky s rezervou.

AnTuTu je synonymem pro mobilní benchmarky. To s sebou ale přináší i jisté potíže.

Vellamo Mobile Benchmark

Pokud nehrajete na svém mobilu hry, pak je surfování po internetu jedním z nejnáročnějších úkolů, jaký váš smartphone čeká. Jedna zdánlivě obyčejná webová stránka může obsahovat stovky elementů, které je potřeba spočítat, vykreslit a to všechno ještě před tím, než začne být uživatel netrpělivý. Jak se při této činnosti povede telefonu, sleduje část nazvaná Browser Chapter. Dále pak Vellamo zkoumá, jak dobře je systém telefonu připraven na práci s více jádry procesoru (Multicore Chapter) a také, jak velký výkon poskytne jedno jádro (Metal Chapter).

Naše zkušenosti při testování telefonů jsou takové, že Vellamo je jedním z benchmarků, jehož výsledky asi nejpřesněji odpovídají uživatelské zkušenosti z telefonu. Jeho testy totiž nezohledňují jen hrubý výpočetní výkon, ale i odladěnost systému. Když totiž výrobci nevěnují patřičnou snahu optimalizaci a snaží se to vyřešit silným hardware, nemusí být výsledky vždy přesvědčivé.

Vellamo se zaměřuje na skutečnou použitelnost, nejenom sílu hardware.

3D Mark

Ve světě osobních počítačů je 3D Mark synonymem pro test grafických dovedností počítače a nejinak tomu je i u mobilních telefonů. Jeho výsledky jsou tak směrodatné hlavně pro hráče, ale vysoké zatížení docela dokáže vypovídat i o telefonu samotném. Po nainstalování základní aplikace dostanete na výběr ze tří druhů testů:

  • 3D Mark Ice Storm je určený pro telefony střední třídy. Využívá rozlišení 720p.
  • 3D Mark Ice Strom Extreme – určený pro telefony nejvyšší třídy. Používá rozlišení 1080p.
  • 3D Mark Ice Storm Unlimited pro přímé srovnání různých čipů; tento test minimalizuje vliv operačního systému na výsledek testu.
3D mark je důležitý hlavně pro hráče. Testuje grafické schopnosti.

Pojďme se podívat na výsledky těchto benchmarků u vlajkových lodí jednotlivých výrobců.

AnTuTu Vellamo Browser 3D Mark
HTC One M9 51 315 2 841 21 902
Huawei Ascend Mate 7 41 984 3 430 13 732
LG G3 31 579 2 723 10 027
OnePlus One 36 704 2 817 18 510
Samsung Galaxy S5 35 495 3 497 18 230
Sony Xperia Z3 41 871 2 872 17 490

Lze z těchto výsledků něco vyvozovat? Snad jen to, že výkon telefonů neustále roste a dřívější datum uvedení je na škodu, tedy pokud od telefonu potřebujete hlavně výkon. Ovšem ani výkonný hardware, o kterém se zmiňuje AnTuTu nemusí být zárukou plynulého běhu, o kterém zase něco vypovídá Vellamo. Než se pustíte do nějakých soudů, které bezpochyby vyjádříte v diskusi pod článkem, berte na vědomí, že jsem výše zmíněná čísla získal z recenzí oněch telefonů, zde na mobilenetu – to znamená, že odpovídají tehdejší verzi benchmarku a operačního systému.

A že dnes mohou být výsledky úplně jiné? Pak přesně chápete vyznění tohoto článku: pokud ke srovnávání a interpretaci výsledků benchmarků nepřistoupíte s vědeckou přesností a pečlivostí, pak je jakýkoli soud jen plácnutím do vody.

A co vy? Jsou pro vás benchmarky důležitým vodítkem při porovnávání telefonů? A pokud ano, kterému a proč dáváte přednost?

Zdroje: extremetech.com

Diskuze ke článku
Maroš
Prečo ste postupne upustili od Quadrantu?
Hany
Ja bych doplnil u ty S4 takt grafickeho procesoru. Neni procesor jako procesor...
Wyman
S5 má v AnTuTu 35k? Tak to určitě ne a když, tak na staré verzi jak systému, tak AnTuTu...
Maros
Dekuji za osvetleni. Jsou to dulezite informace. Nicmene pro bezne ovce bude stale predhanecka na urovni Antutu vysledku. Tak jako se lidi predbihaji kdo ma ve fotaku vic mpix, kdo ma kolik jader v CPU atd atd...

Načíst všechny komentáře

Přidat názor

Nejživější diskuze