Nový test FrontierMath AI nezvládá
Datum publikování: 15. 11. 2024
V červenci jsme informovali, že umělá inteligence Google si celkem dobře vedla v Mezinárodní matematické olympiádě. Například v testu GSM-8k dosahují LLM běžně 96% úspěšnosti. Společnost EpochAI vyvinula nový matematický test pro AI s názvem FrontierMath na který jsou současné LLM krátké. Claude a Gemini vyřešily jen 2 % úkolů, o1 a GPT jen 1 %.