Chińskie modele borykają się z poważnym problemem halucynacji AI
Michał Duszczyk
Wszystkie znaczące modele językowe (LLM) popełniają błędy lub wprowadzają w błąd. Zjawisko tzw. halucynacji dotyka nawet najnowsze oraz najbardziej zaawansowane systemy sztucznej inteligencji, które potrafią bardzo szybko analizować, wnioskować oraz rozwiązywać skomplikowane zadania matematyczne.
Która AI halucynuje? A która ma najmniej błędów?
Okazuje się, że niektóre narzędzia generatywnej sztucznej inteligencji kłamią częściej niż inne. Naukowcy przeanalizowali, w jakich przypadkach błędy występują sporadycznie, a gdzie ryzyko ich wystąpienia jest szczególnie wysokie. W zestawieniu nazwanym Tabelą Liderów Halucynacji, stworzonym przez firmę Vectara, uwzględniono 25 najpopularniejszych modeli, w tym te od Open AI, Google i Amazon.
Zgodnie z najnowszymi badaniami (stan na I połowę lutego), w tym niechlubnym zestawieniu na czołowej pozycji znalazły się LLM-y z Chin. Na prowadzeniu znajdują się m.in. Qwen oraz DeepSeek. Ten ostatni, mimo że swoją premierę miał zaledwie pod koniec stycznia, szybko został ogłoszony „punktem zwrotnym w historii AI”. Model open source osiągnął poziom najlepszych modeli AI produkowanych w USA, jednak przy „minimalnym” zapotrzebowaniu na procesory graficzne. Aby trenować swoje modele AI, firma High-Flyer Quant (fundusz stojący za DeepSeek) zabezpieczyła ponad 10 tysięcy procesorów graficznych Nvidia.
Chińczycy obniżyli koszty, ale nie liczbę błędów
Chiński projekt zdołał obniżyć koszt trenowania modeli z ponad 100 mln dol. (jak to ma miejsce w przypadku narzędzi LLM tworzonych przez wielkie korporacje) do 5 mln dol. Mimo późniejszych wątpliwości co do prawdziwości tych danych, DeepSeek stał się popularny. Należy jednak pamiętać, że model ten (V 2.5) wciąż figuruje w czołówce halucynacji. Naukowcy pod