Która AI halucynuje i popełnia najwięcej błędów? Zaskakujące wyniki badania

Chińskie modele mają szczególny problem z halucynowaniem AI

Chińskie modele borykają się z poważnym problemem halucynacji AI

Foto: Andrea Verdelli/Bloomberg

Michał Duszczyk

Wszystkie znaczące modele językowe (LLM) popełniają błędy lub wprowadzają w błąd. Zjawisko tzw. halucynacji dotyka nawet najnowsze oraz najbardziej zaawansowane systemy sztucznej inteligencji, które potrafią bardzo szybko analizować, wnioskować oraz rozwiązywać skomplikowane zadania matematyczne.

Która AI halucynuje? A która ma najmniej błędów?

Okazuje się, że niektóre narzędzia generatywnej sztucznej inteligencji kłamią częściej niż inne. Naukowcy przeanalizowali, w jakich przypadkach błędy występują sporadycznie, a gdzie ryzyko ich wystąpienia jest szczególnie wysokie. W zestawieniu nazwanym Tabelą Liderów Halucynacji, stworzonym przez firmę Vectara, uwzględniono 25 najpopularniejszych modeli, w tym te od Open AI, Google i Amazon.

Zgodnie z najnowszymi badaniami (stan na I połowę lutego), w tym niechlubnym zestawieniu na czołowej pozycji znalazły się LLM-y z Chin. Na prowadzeniu znajdują się m.in. Qwen oraz DeepSeek. Ten ostatni, mimo że swoją premierę miał zaledwie pod koniec stycznia, szybko został ogłoszony „punktem zwrotnym w historii AI”. Model open source osiągnął poziom najlepszych modeli AI produkowanych w USA, jednak przy „minimalnym” zapotrzebowaniu na procesory graficzne. Aby trenować swoje modele AI, firma High-Flyer Quant (fundusz stojący za DeepSeek) zabezpieczyła ponad 10 tysięcy procesorów graficznych Nvidia.

Chińczycy obniżyli koszty, ale nie liczbę błędów

Chiński projekt zdołał obniżyć koszt trenowania modeli z ponad 100 mln dol. (jak to ma miejsce w przypadku narzędzi LLM tworzonych przez wielkie korporacje) do 5 mln dol. Mimo późniejszych wątpliwości co do prawdziwości tych danych, DeepSeek stał się popularny. Należy jednak pamiętać, że model ten (V 2.5) wciąż figuruje w czołówce halucynacji. Naukowcy pod

Źródło

No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *