výsledky: Namísto navigace do kategorie „Free Demos“ agent Atlas začal hledáním „dema“. Poté, co nakonec našel filtr macOS, promarnil minuty a minuty hledáním filtru „má demo“, i když hledání slova „demo“ jej již zužovalo.
Tato stránka s výsledky vyhledávání byla asi tak daleko, jak se agent Atlasu mohl dostat, když jsem ji požádal o ukázky her.
Kredit: Kyle Orland
Po dlouhé chvíli agent konečně klikl na nejlepší výsledek na stránce, což se stalo vizuální román Projekt II: Tiché údolí. Ale i když byl na této stránce výrazný odkaz „Stáhnout demo“, agent se obával, že je na stránce Steam pro plnou hru a ne demo. Zálohoval se na stránku s výsledky vyhledávání a zkusil to znovu.
Poté, co jsem téměř deset minut sledoval nějakou variaci této smyčky, zastavil jsem agenta a vzdal jsem to.
Hodnocení: 1/10. Technicky našel několik ukázek her pro macOS, ale naprosto selhal ani při pokusu o jejich stažení.
Konečné výsledky
V šesti různých webových úlohách (vynechal jsem vandalismus na Wiki ze svých shrnutí) dosáhl agent Atlasu medián 7,5 bodu (a průměr 6,83 bodu) na mé poněkud subjektivní 10bodové škále. To je upřímně lepší, než jsem očekával u funkce „režimu náhledu“, kterou OpenAI zjevně stále intenzivně testuje.
V mých testech byl Atlas obecně schopen správně interpretovat, co se od něj požadovalo, a byl schopen procházet a zpracovávat informace na webových stránkách opatrně (i když pomalu). Agent se většinu času dokázal pohybovat v jednoduchých webových nabídkách a relativně snadno obejít neočekávané překážky, i když se jindy dostal do nekonečných smyček.
Hlavním omezujícím faktorem v mnoha mých testech jsou i nadále „technická omezení délky relace“, která, jak se zdá, omezují většinu úkolů na několik minut. Vzhledem k tomu, jak dlouho agentovi Atlasu trvá, než zjistí, kam má kliknout dále – a vzhledem k opakujícímu se druhu úkolů, které bych chtěl, aby webový agent automatizoval – to značně omezuje jeho užitečnost. Verze agenta Atlas, která by mohla pracovat neomezeně na pozadí, by v mých metrikách zaznamenala o pár bodů lepší skóre.
Celkově vzato, Atlasův „Agent Mode“ ještě není dostatečně spolehlivý, aby jej bylo možné použít jako nástroj pro automatizaci pozadí „nastav a zapomeň na to“. Ale u jednoduchých, opakujících se úkolů, které si člověk může následně na místě zkontrolovat, už to vypadá jako druh nástroje, který bych mohl použít, abych se vyhnul nějaké dřině v mém online životě.
