Všichni se srovnáváme
Nejprve začněme s definicí slova benchmark v nejširším vědeckém slova smyslu. V tom případě se jedná o porovnání simulací s empirickými daty anebo porovnání dvou simulací navzájem. Zní to jako suchá definice, ale když se nad ní zamyslíme, odkryjeme jeden často přetřásaný omyl, a to bohužel i v médiích.
Benchmark má smysl vždy jen jako porovnání dvou stavů a více. Docela často se objeví zpráva o tom, že nějaký nový telefon „udělal AnTuTu za tolik a tolik bodů“, podobné „poměřování přirození“ v počtu bodů můžeme vídat na mnoha diskusních fórech. Bez konkrétních poznatků o testovacích programech a nějakém srovnání s jinými přístroji však jde jen o výkřiky do tmy.
Jak tedy vypadá seriózní použití benchmarků v tomto smyslu? Typickým příkladem, kdy má použití podobných programů opravdu smysl je například instalace nových verzí operačního systému. Když například uděláte testy před a po upgradu a zjistíte výrazný pokles, pak to to může znamenat nejenom špatnou optimalizaci benchmarku pro nové prostředí, ale také empirický důkaz špatné práce programátorů. Rozhodně je to lepší než konstatování, že „telefon je nějak zasekaný“.
Všichni se předvádějí
Historie počítačových benchmarků sahá někam do osmdesátých let dvacátého století, kdy začala být konkurence na trhu s výpočetní technikou natolik silná, že vyvstala potřeba porovnávat mezi sebou jednotlivá řešení. Bylo totiž potřeba zjistit, který systém se více vyplatí. Začaly tak vznikat různé standardy pro porovnávání.
Nesmíme však zapomenout na to, že se bavíme o době, kdy byl domácí počítač spíše raritou. První uživatele benchmarků tak byly firmy, které výkon skutečně využily, například při předpovídání počasí. Z toho vychází i další, spíše filozofická, otázka: „skutečně takový výkon potřebujeme, zvláště pak u mobilního zařízení?“
Představa, že hrubá síla pomůže automaticky vyřešit všechny programátorské poklesky se špatnou optimalizací, je zcela mylná. A stejně tak u mobilu, který přináší svému majiteli jen příjemné zážitky, toho potřebujeme daleko více.
Zkusme si představit metaforickou situaci z reálného života. Při pohovoru na pracovní místo prokážete lepší vzdělání, delší praxi a nižší platové nároky než člověk, kterého nakonec přijmou místo vás. Proč? Získal třeba pár bodů navíc v testech inteligence.
Všichni podvádějí
Situace popsaná v předchozím odstavci může znít absurdně, ale je celkem pochopitelná. Situace, kdy srovnáváte dva velmi složité systémy (ať už lidi, nebo mobily), je pro mnohé nad jejich síly, a tak není divu, že se uchylují k jednoduchým řešením.
Něco takového nemohou výrobci hardwaru nechat bez povšimnutí. Přiznejme si, že každý z nás se alespoň jednou pokusil podvádět u nějakého školního testu, aby získal lepší výsledky. Stejně tak to funguje i v praxi.
Pro příklady nemusíme chodit daleko. Asi nejznámější aférou tohoto druhu je případ Samsungu Galaxy S4 a AnTuTu. O co šlo? Maximální takt grafického procesoru tohoto telefonu je 533 MHz. Na ten si však sáhnou jen aplikace předinstalované Samsungem, jako je browser nebo fotoaparát. U dalších aplikací, typicky u her, je maximální takt omezen na 480 MHz, aby nedošlo k poškození procesoru nadměrným zahříváním. Je zde ale jedna malá výjimka a tou je právě zmíněný benchmark, který tak využije výkon, kterého v praxi nepůjde nikdy dosáhnout.
Drobná lest, nebo promyšlený podvod? Obojí znamená, že výsledkům nemůžeme plně věřit, a to z mnoha důvodů. Mluví se například o tom, že tvůrci benchmarků je mohou cíleně ladit pro určité procesory nebo architektury. Jisté ponaučení nám může dát oblast osobních počítačů, kde se podobné problémy řeší už delší dobu.
Když například čtete test nějaké grafické karty, dostanete sice obligátní výsledky benchmarků. Ty jsou však následovány dalšími testy, tentokráte však ve skutečných hrách. Až jejich porovnání s výsledky jiných karet pak umožňuje recenzentovi vyřknout konečný verdikt.
Všichni testují
Z výše uvedeného to vypadá, že benchmarky jako takové nemají u mobilních zařízení moc smysl. To je částečně pravda: kdyby byl svět tak jednoduchý, nemuseli bychom například na mobilenetu psát tak podrobné recenze, stačilo by pár papírových parametrů ve spojení s výsledky benchmarků – sami však určitě víte, že tak jednoduché to není. Nicméně i přesto mohou výsledky testů dotvořit obrázek o daném přístroji, ovšem pouze v případě, že víte, jak je správně pochopit. Shrňme si proto důležité zásady:
- Benchmarky mají smysl jen jako srovnání.
- Při srovnání je důležité, aby se testovalo programem v téže verzi, stejně tak by měl být stejný stav testovaných zařízení.
- Pokud jste benchmark sami neprogramovali nebo pečlivě nestudovali jeho zdrojový kód, berte jeho výsledky vždy s rezervou.
- S ještě větší rezervou pak berte zprostředkované výsledky benchmarků.
Co se smartphonů s Androidem týče, při jejich recenzování na mobilenetu používáme následující benchmarky: AnTuTu, Vellamo Benchmark a 3D Mark. Jak interpretovat jejich výsledky?
AnTuTu
Když se řekne mobilní benchmark, každého první napadne AnTuTu. Tento benchmark do hloubky prověří různé vlastnosti telefonu. Kromě často omílaného celkového skóre pak můžete zjistit i to, jak si telefon vede v jednotlivých segmentech. Pro uživatele je asi nejdůležitější hned první položka nazvaná UX, tedy User eXperience. Ta by asi nejlépe měla odrážet to, jakým dojmem působí telefon na svého uživatele – jestli bude tzv. lagovat anebo poběží svižně. Zkoumá se zde hlavně to, jak si telefon povede při běhu více aplikací najednou a jak dobře zvládne běh aplikací.
Další položky pak zkoumají jednotlivé části telefonu mající vliv na jeho výkon: jde o procesor, grafickou jednotku, RAM a rychlost čtení z pamětí. Zvláště u levnějších telefonů může být některá z těchto částí poddimenzovaná, přičemž se pak stane úzkým hrdlem pro celý přístroj.
I přesto, že je AnTuTu jedním z nejpoužívanějších benchmarků a mnohdy se považuje za synonymum pro mobilní benchmark, naše zkušenosti jsou takové, že právě u něj dochází velmi často k největším rozporům mezi syntetickými výsledky a skutečným dojmem z telefonu. Je to dáno zejména tím, že spousta výrobců se snaží právě tento benchmark různými způsoby ošidit. Je to samozřejmě na dlouhou (snad i nekonečnou diskuzi), ale rozhodně zde více než kde jinde platí naše rada, abyste brali případné výsledky s rezervou.
Vellamo Mobile Benchmark
Pokud nehrajete na svém mobilu hry, pak je surfování po internetu jedním z nejnáročnějších úkolů, jaký váš smartphone čeká. Jedna zdánlivě obyčejná webová stránka může obsahovat stovky elementů, které je potřeba spočítat, vykreslit a to všechno ještě před tím, než začne být uživatel netrpělivý. Jak se při této činnosti povede telefonu, sleduje část nazvaná Browser Chapter. Dále pak Vellamo zkoumá, jak dobře je systém telefonu připraven na práci s více jádry procesoru (Multicore Chapter) a také, jak velký výkon poskytne jedno jádro (Metal Chapter).
Naše zkušenosti při testování telefonů jsou takové, že Vellamo je jedním z benchmarků, jehož výsledky asi nejpřesněji odpovídají uživatelské zkušenosti z telefonu. Jeho testy totiž nezohledňují jen hrubý výpočetní výkon, ale i odladěnost systému. Když totiž výrobci nevěnují patřičnou snahu optimalizaci a snaží se to vyřešit silným hardware, nemusí být výsledky vždy přesvědčivé.
3D Mark
Ve světě osobních počítačů je 3D Mark synonymem pro test grafických dovedností počítače a nejinak tomu je i u mobilních telefonů. Jeho výsledky jsou tak směrodatné hlavně pro hráče, ale vysoké zatížení docela dokáže vypovídat i o telefonu samotném. Po nainstalování základní aplikace dostanete na výběr ze tří druhů testů:
- 3D Mark Ice Storm je určený pro telefony střední třídy. Využívá rozlišení 720p.
- 3D Mark Ice Strom Extreme – určený pro telefony nejvyšší třídy. Používá rozlišení 1080p.
- 3D Mark Ice Storm Unlimited pro přímé srovnání různých čipů; tento test minimalizuje vliv operačního systému na výsledek testu.
Pojďme se podívat na výsledky těchto benchmarků u vlajkových lodí jednotlivých výrobců.
AnTuTu | Vellamo Browser | 3D Mark | |
---|---|---|---|
HTC One M9 | 51 315 | 2 841 | 21 902 |
Huawei Ascend Mate 7 | 41 984 | 3 430 | 13 732 |
LG G3 | 31 579 | 2 723 | 10 027 |
OnePlus One | 36 704 | 2 817 | 18 510 |
Samsung Galaxy S5 | 35 495 | 3 497 | 18 230 |
Sony Xperia Z3 | 41 871 | 2 872 | 17 490 |
Lze z těchto výsledků něco vyvozovat? Snad jen to, že výkon telefonů neustále roste a dřívější datum uvedení je na škodu, tedy pokud od telefonu potřebujete hlavně výkon. Ovšem ani výkonný hardware, o kterém se zmiňuje AnTuTu nemusí být zárukou plynulého běhu, o kterém zase něco vypovídá Vellamo. Než se pustíte do nějakých soudů, které bezpochyby vyjádříte v diskusi pod článkem, berte na vědomí, že jsem výše zmíněná čísla získal z recenzí oněch telefonů, zde na mobilenetu – to znamená, že odpovídají tehdejší verzi benchmarku a operačního systému.
A že dnes mohou být výsledky úplně jiné? Pak přesně chápete vyznění tohoto článku: pokud ke srovnávání a interpretaci výsledků benchmarků nepřistoupíte s vědeckou přesností a pečlivostí, pak je jakýkoli soud jen plácnutím do vody.
A co vy? Jsou pro vás benchmarky důležitým vodítkem při porovnávání telefonů? A pokud ano, kterému a proč dáváte přednost?
Zdroje: extremetech.com