REKLAMA

Adblock/uBlockOrigin/AdGuard mogą powodować znikanie niektórych postów z powodu nowej reguły.

Poetiq zaskoczył świat AI - rekordowy wynik w ARC‑AGI‑2

p.kaczmarek2 26 Gru 2025 12:56 282 0

TL;DR

Poetiq osiągnął rekordowy wynik na pełnym publicznym zestawie ARC‑AGI‑2, pokazując system oparty na GPT‑5.2 X‑High.
System wykorzystuje nową konfigurację GPT‑5.2 X‑High oraz autorską warstwę uruchomieniową, która integruje istniejące modele zamiast trenować je od zera.
Na ARC‑AGI‑2 typowy człowiek uzyskuje 60%, a Poetiq jako pierwszy system AI przekroczył tę barierę.
Poetiq podał 75% skuteczności przy koszcie poniżej 8$ za zadanie; 5 grudnia miał jeszcze 54% przy 30.57$ za zadanie.

Wygenerowane przez model językowy.

REKLAMA

Zgłoś naruszenie prawa

Odpowiedz Fajne? Ranking DIY | Nowy temat

Powiadamiaj o nowych artykułach

Obserwuj nas

📢 Słuchaj (AI):

Autor tematu Pomocny post? (+1)

Post #1
21790318 26 Gru 2025 12:56

Poetiq ogłosił, że jego system osiągnął aż 75% skuteczności na pełnym publicznym zestawie ARC‑AGI‑2, przy koszcie poniżej 8$ za zadanie, wykorzystując nową konfigurację GPT‑5.2 X‑High i swoją autorską warstwę uruchomieniową.
ARC‑AGI‑2 to najnowsza, trudniejsza odsłona benchmarku ARC Prize, mającego mierzyć "ogólną inteligencję" AI - czyli zdolność do rozumienia, uogólniania i rozwiązywania nowych problemów, które są łatwe dla ludzi, ale trudne dla maszyn.
Typowy człowiek osiąga w tym benchmarku wynik 60%, a Poetiq jest pierwszym systemem AI który pokonał tę barierę. Najbliżej do tego wyniku wcześniej zbliżył się czysty GPT-5.2 X-High, ale jej nie pokonał.
Poetiq to startup i projekt badawczy, który nie trenuje modeli od zera, ale orkiestruje i integruje istniejące modele (np. GPT), by poprawić ich zdolność do rozumowania.
Tak dobry wynik w benchmarku świadczy o tym, że dobry LLM to tylko połowa sukcesu. Duże znaczenie też ma jego środowisko uruchomieniowe i organizacja jego pracy.
Nie jest to pierwszy sukces Poetiq, 5 grudnia system osiągnął na tym samym benchmarku wynik 54% przy koszcie 30.57$ za zadanie.

Więcej o działaniu i osiągnięciach Poetiq można poczytać na stronie projektu.

Źródła:
https://poetiq.ai/posts/arcagi_announcement/
https://www.linkedin.com/posts/shumeetbaluja_...-our-system-activity-7409324615379943424-nU-O
https://arcprize.org/arc-agi

Fajne? Ranking DIY
Pomogłem? Kup mi kawę.
O autorze
p.kaczmarek2 p.kaczmarek2

Moderator Smart Home
Offline

Dołączył: 26 Gru 2014

Posty: 14637

Pomógł: 655

Ocena postów: 12649

Punkty: 144560
Inżynier programista z wieloletnim doświadczeniem embedded i full stack developer.
Specjalizuje się w: embedded, Full-Stack Developer
p.kaczmarek2 napisał 14637 postów o ocenie 12649, pomógł 655 razy. Jest z nami od 2014 roku.

Promuję tematy:
23.06.2026 Co robi moduł Tuya Wi-Fi w środku komputera? Zmiana firmware PC Power Switch Remote
21.06.2026 Wnętrze ośmioportowego gigabitowego switcha SG1008, pomiary mocy, porównanie ze starym routerem
20.06.2026 Rosnące ceny a gwarancja. Czy producent powinien zwrócić wartość z dnia zakupu, czy bieżącą rynkową?
19.06.2026 Płytka ESP32 z Wi-Fi oraz przewodowym Ethernet i zasilaniem PoE - ESP32-PoE2 Olimex
18.06.2026 W dzisiejszych czasach nawet żarówki można programować? Zmiana firmware TY-A60-18W-220V
REKLAMA
Zarejestruj konto, Zaloguj się i bądź aktywny na forum, a wtedy reklamy nie będą się pojawiać. Dołącz do dyskusji i otrzymaj punkty za rejestrację oraz odpowiedzi.

Zainstaluj aplikację Elektroda

Odpowiedz Fajne? Ranking DIY | Nowy temat

Powiadamiaj o nowych artykułach

Obserwuj nas

📢 Słuchaj (AI):

Zgłoś naruszenie prawa

AI w obsłudze klienta - czy to dobry pomysł? Setki kont przejętych na Instagramie
10 Cze 2026 08:19 (6)
Kolejne firmy prześcigają się we wdrażaniu AI, gdzie tylko się da. Również sztuczna inteligencja zastępuje ludzi na helpdesku. W teorii ma to przyspieszać procesy i obniżać koszty. Problem pojawia się wtedy, gdy chatbot dostaje uprawnienia do wykonywania operacji związanych z bezpieczeństwem kont użytkowników. Właśnie taki przypadek miał miejsce na Instagramie. Jak opisuje Niebezpiecznik, asystent... [Czytaj dalej]
Anthropic przedstawia Claude Opus 4.8 - ewolucja w stronę bardziej złożonych zadań
30 Maj 2026 09:09 (0)
Firma Anthropic zaprezentowała nową wersję swojego flagowego modelu AI - Claude Opus 4.8. Aktualizacja przynosi ulepszenia w zakresie programowania, zadań agentowych oraz pracy z długimi procesami, a model dostępny jest w tej samej cenie co jego poprzednik. Wraz z premierą debiutują nowe funkcje, z których najciekawszą jest funkcja "effort control" na platformie claude.ai. Użytkownicy mogą teraz decydować,... [Czytaj dalej]
Zawieszona współpraca Blendera z Anthropic, czyli o społecznym sprzeciwie wobec technologii AI
10 Maj 2026 12:32 (7)
Fundacja stojąca za projektem Blender ogłosiła zmianę zasad współpracy z firmą Anthropic po gwałtownej reakcji społeczności użytkowników. Jeszcze niedawno ogłoszono, że twórca systemu Claude dołączy do Blender Development Fund jako Corporate Patron i będzie przekazywać około 240 tys. euro rocznie na rozwój projektu. Decyzja szybko wywołała dyskusję wśród artystów i deweloperów korzystających z programu... [Czytaj dalej]
Jakie AI do SVG w 2026: oktogram w okręgu i 50% mniejsze oktogramy?
05 Maj 2026 18:42 (1)
Dzień dobry, chcę tworzyć somplikowane i złożone geometrie matematyczne, na przykład oktogram w oktogramie wpisany w okrąg w SVG, ale gdy to wpisuję w Chat-gbt, on się crashuje. Czy są w 2026 jakieś programy czy ai do tworzenia kombinacji geometrycznych na bazie słów, np. stwórz oktogram, a do każdego zewnętrznego wierzchołka oktogramu dodaj 50% mniejszy oktogram. Nic takiego nie znalazłem, co działałoby... [Czytaj dalej]
Praktyczne testy Gemma 4 i porównanie z Gemini 2.5 - tagowanie obrazków i OCR
01 Maj 2026 09:19 (0)
Czy współczesne modele LLM uruchamiane lokalnie, na starym laptopie gamingowym, są w stanie sensownie otagować zdjęcia? Czy współczesne modele nadają się do OCR i poprawnie rozpoznają układy elektroniczne? Zapraszam na Elektrodowy test sztucznej inteligencji, tym razem wzbogacony o uruchamiany lokalnie model Gemma 4 oraz o płatne modele gemini-2.5-pro i gemini-2.5-flash uruchamiane przez API. Sprawdzę... [Czytaj dalej]

REKLAMA