Poetiq ogłosił, że jego system osiągnął aż 75% skuteczności na pełnym publicznym zestawie ARC‑AGI‑2, przy koszcie poniżej 8$ za zadanie, wykorzystując nową konfigurację GPT‑5.2 X‑High i swoją autorską warstwę uruchomieniową.
ARC‑AGI‑2 to najnowsza, trudniejsza odsłona benchmarku ARC Prize, mającego mierzyć "ogólną inteligencję" AI - czyli zdolność do rozumienia, uogólniania i rozwiązywania nowych problemów, które są łatwe dla ludzi, ale trudne dla maszyn.
Typowy człowiek osiąga w tym benchmarku wynik 60%, a Poetiq jest pierwszym systemem AI który pokonał tę barierę. Najbliżej do tego wyniku wcześniej zbliżył się czysty GPT-5.2 X-High, ale jej nie pokonał.
Poetiq to startup i projekt badawczy, który nie trenuje modeli od zera, ale orkiestruje i integruje istniejące modele (np. GPT), by poprawić ich zdolność do rozumowania.
Tak dobry wynik w benchmarku świadczy o tym, że dobry LLM to tylko połowa sukcesu. Duże znaczenie też ma jego środowisko uruchomieniowe i organizacja jego pracy.
Nie jest to pierwszy sukces Poetiq, 5 grudnia system osiągnął na tym samym benchmarku wynik 54% przy koszcie 30.57$ za zadanie.
Więcej o działaniu i osiągnięciach Poetiq można poczytać na stronie projektu.
Źródła:
https://poetiq.ai/posts/arcagi_announcement/
https://www.linkedin.com/posts/shumeetbaluja_...-our-system-activity-7409324615379943424-nU-O
https://arcprize.org/arc-agi
ARC‑AGI‑2 to najnowsza, trudniejsza odsłona benchmarku ARC Prize, mającego mierzyć "ogólną inteligencję" AI - czyli zdolność do rozumienia, uogólniania i rozwiązywania nowych problemów, które są łatwe dla ludzi, ale trudne dla maszyn.
Typowy człowiek osiąga w tym benchmarku wynik 60%, a Poetiq jest pierwszym systemem AI który pokonał tę barierę. Najbliżej do tego wyniku wcześniej zbliżył się czysty GPT-5.2 X-High, ale jej nie pokonał.
Poetiq to startup i projekt badawczy, który nie trenuje modeli od zera, ale orkiestruje i integruje istniejące modele (np. GPT), by poprawić ich zdolność do rozumowania.
Tak dobry wynik w benchmarku świadczy o tym, że dobry LLM to tylko połowa sukcesu. Duże znaczenie też ma jego środowisko uruchomieniowe i organizacja jego pracy.
Nie jest to pierwszy sukces Poetiq, 5 grudnia system osiągnął na tym samym benchmarku wynik 54% przy koszcie 30.57$ za zadanie.
Więcej o działaniu i osiągnięciach Poetiq można poczytać na stronie projektu.
Źródła:
https://poetiq.ai/posts/arcagi_announcement/
https://www.linkedin.com/posts/shumeetbaluja_...-our-system-activity-7409324615379943424-nU-O
https://arcprize.org/arc-agi
Fajne? Ranking DIY Pomogłem? Kup mi kawę.