W ramach inicjatywy FrontierMath naukowcy opracowali narzędzie do oceny matematycznej, służące do testowania systemów sztucznej inteligencji (AI), projektując problemy zbyt złożone, aby jakikolwiek matematyk mógł je samodzielnie rozwiązać. Dr Bartosz Naskręcki, zaangażowany w projekt, skondensował 15 lat pracy naukowej w jedno pytanie. Obecnie systemy AI skutecznie rozwiązują jedynie kilka z tych problemów.
W ostatnich miesiącach czołowe laboratoria, takie jak Google DeepMind i OpenAI, wprowadziły systemy sztucznej inteligencji (AI), które z łatwością radzą sobie z zadaniami matematycznymi porównywalnymi z egzaminami maturalnymi. Tradycyjne wskaźniki oceny kompetencji matematycznych w dziedzinie AI stały się przestarzałe, co wymusiło znacznie bardziej rygorystyczne testy dla dużych modeli językowych. Ta luka doprowadziła do powstania FrontierMath, którego współzałożycielem był dr Naskręcki z Uniwersytetu Adama Mickiewicza.
Inicjatywa, zorganizowana przez Epoch AI, oferuje wiele poziomów trudności. Dr Naskręcki pomógł opracować poziom 4, najbardziej zaawansowany. Najnowocześniejsze modele sztucznej inteligencji rozwiązują obecnie zaledwie cztery z 50 problemów w pięciu dyscyplinach matematycznych.
„Miałem za zadanie zaprojektować zadanie wymagające wyjątkowo dużej liczby odpowiedzi, aby zapobiec przypadkowemu zgadywaniu. Włożyłem w to całe moje doświadczenie zawodowe, doskonalone przez lata studiów i badań” – poinformował PAP dr Naskręcki.
Opisał swoje zadanie jako stworzenie nowatorskiego pytania, na które nie ma gotowych rozwiązań online. „To moja nieopublikowana praca naukowa. Udokumentowane rozwiązanie zajęło 13 stron z gęstą notacją matematyczną” – zauważył.
Każdy z 50 problemów charakteryzuje się porównywalną złożonością. Dr Naskręcki szacuje, że nawet specjaliści z tytułem doktora w określonych dziedzinach matematyki potrzebowaliby miesiąca, aby sformułować skuteczne podejście.
„Wątpię, żeby jakikolwiek matematyk na świecie był w stanie rozwiązać wszystkie 50 zadań z tej kolekcji” – dodał.
„Egzamin geniusza” powstał na podstawie dwudniowego szczytu w Berkeley, w którym wzięło udział 30 międzynarodowych ekspertów. Podzieleni na wyspecjalizowane grupy zajmujące się teorią liczb, topologią, kombinatoryką, rachunkiem różniczkowym i całkowym oraz geometrią algebraiczną, testowali oni fragmenty zadań, wykorzystując zaawansowane modele sztucznej inteligencji w trybie anonimowym, aby zapobiec zapamiętywaniu . Uczestnicy dopracowywali pytania, aby zwiększyć poziom trudności, eliminując liczne propozycje rozwiązane zbyt szybko przez sztuczną inteligencję. Ostateczna kompilacja zawierała 50 wyjątkowo trudnych zadań.
Twórcy sztucznej inteligencji, którzy chcą ocenić swoje systemy, mogą teraz uzyskać dostęp do infrastruktury Epoch AI, przestrzegając ścisłych protokołów. Każdy testowany model działa w ramach określonych ograniczeń, takich jak trzygodzinny limit czasowy na rozwiązanie problemu i limit zużycia miliona tokenów – komponentów tekstowych, których sztuczna inteligencja używa do formułowania odpowiedzi.
Do tej pory najwydajniejsze modele rozwiązały zaledwie ułamek tych zadań. Dr Naskręcki przewiduje, że sztuczna inteligencja opanuje większość pytań w ciągu dwóch do trzech lat: „Gdy modele będą konsekwentnie udzielać poprawnych odpowiedzi, będziemy mogli potwierdzić, że stały się one kompetentnymi matematykami”.
Podkreśla on krytyczne ograniczenie: chociaż sztuczna inteligencja wykazuje niezwykłe umiejętności w innowacyjnym łączeniu istniejącej wiedzy, nie jest w stanie stworzyć nowych ram teoretycznych. „Żaden istniejący model nie mógłby dostarczyć dowodu na hipotezę Riemanna. Po pokonaniu naszych wyzwań, ostatecznym celem matematyków będzie generowanie radykalnych koncepcji matematycznych” – podsumował.
Badacz uważa, że postęp sztucznej inteligencji to „sygnał ostrzegawczy, który wymusza rewolucyjne zmiany w sposobie, w jaki postrzegamy pracę i uczenie się”.
„Musimy odejść od pruskiego modelu edukacji, który kształcił posłusznych pracowników, i zacząć kształcić ludzi myślących niezależnie, zdolnych do innowacji i podejmowania ryzyka” – podkreślił.
Dr Naskręcki kładzie nacisk na rozwijanie „płynnej inteligencji” – umiejętności kreatywnego rozwiązywania problemów – oraz myślenia przemyślanego, a nie reaktywnego. Obecnie maszynom brakuje tych możliwości.
Choć kariery naukowe pozostają opłacalne, ich natura ewoluuje. „Matematyka ponownie skupi się na śmiałych badaniach i niekonwencjonalnych rozwiązaniach, a nie na stopniowym uzupełnianiu ugruntowanych teorii” – przewiduje.
Ludzka przewaga utrzymuje się dzięki wyjątkowym doświadczeniom – czytaniu, podziwianiu sztuki, spacerom pośród natury. Interdyscyplinarne powiązania rodzą idee niedostępne dla sztucznej inteligencji. Zatem nasza największa wartość tkwi nie w rutynowym wykonywaniu zadań, lecz w kwestionowaniu norm i generowaniu nowych koncepcji.
Ludwik Tomal (PAP)
lt/ zan/ kosić/