Chiński start-up DeepSeek wypuścił w piątek nowy model sztucznej inteligencji z „drastycznie obniżonymi” kosztami, ponad rok po tym, jak zadziwił świat tanim modelem rozumowania, który dorównywał możliwościom amerykańskich rywali.
Wyścig sztucznej inteligencji nasilił rywalizację między Chinami a Stanami Zjednoczonymi, a Biały Dom w czwartek oskarżył chińskie podmioty o masowe wysiłki mające na celu kradzież technologii sztucznej inteligencji.
DeepSeek z siedzibą w Hangzhou wkroczył na scenę w styczniu ubiegłego roku z generatywnym chatbotem AI, opartym na modelu rozumowania R1, który podważył założenia o dominacji USA w sektorze strategicznym.
Nowa wersja, DeepSeek-V4, „zawiera bardzo długi kontekst składający się z miliona słów” – podała firma w oświadczeniu na platformie mediów społecznościowych WeChat, okrzykując ją „wiodącą na świecie… z drastycznie obniżonymi kosztami obliczeniowymi (i) pamięci” w osobnym ogłoszeniu na platformie X.
Długość kontekstu modelu, która określa, ile danych wejściowych model jest w stanie wchłonąć, aby pomóc mu w wykonaniu zadań, „(osiąga) pozycję lidera zarówno w obszarach krajowych, jak i open source, pod względem możliwości agentów, wiedzy o świecie i wydajności rozumowania” – czytamy w oświadczeniu WeChat.
Jak podała firma, dostępna jest już „wersja poglądowa” modelu open source.
Eksperci twierdzą, że premiera V4 stanowi „punkt zwrotny” pod względem sprzętu i kosztów.
„Rozwiązuje to długotrwałe problemy związane z niższą wydajnością i wyższymi kosztami związanymi z długimi kontekstami, co stanowi prawdziwy punkt zwrotny dla branży” – powiedział AFP Zhang Yi, założyciel firmy badawczej iiMedia zajmującej się badaniami technologicznymi.
„Dla użytkowników końcowych przyniesie to powszechne i dostępne korzyści. Na przykład jeśli obsługa bardzo długich kontekstów stanie się standardową funkcją, oczekuje się, że przetwarzanie długich tekstów wyjdzie poza wysokiej klasy laboratoria badawcze i wejdzie do głównego nurtu zastosowań komercyjnych” – powiedział.
Nowy V4 wydawany jest w dwóch wersjach: DeepSeek-V4-Pro i DeepSeek-V4-Flash, przy czym ta druga jest „bardziej wydajnym i ekonomicznym wyborem”, ponieważ ma mniejsze parametry.
„Moment Sputnika”
V4-Pro ma 1,6 biliona parametrów, podczas gdy V4-Flash ma 284 miliardy parametrów, które udoskonalają zdolność modeli do podejmowania decyzji.
Jak wynika z oświadczenia DeepSeek, model został również „zoptymalizowany” pod kątem popularnych produktów AI Agent, takich jak Claude Code, OpenClaw, OpenCode i CodeBuddy.
„W światowych testach porównawczych DeepSeek-V4-Pro znacząco wyprzedza inne modele typu open source i tylko nieznacznie przewyższa najwyższej klasy model o zamkniętym kodzie źródłowym (Google) Gemini-Pro-3.1” – dodał w oświadczeniu.
Zeszłoroczny tak zwany „szok DeepSeek” spowodował wyprzedaż akcji związanych ze sztuczną inteligencją i rozliczenie się ze strategią biznesową, co zostało również opisane jako „moment Sputnika” dla branży.
Chatbot działał na podobnym poziomie co ChatGPT i inne czołowe amerykańskie produkty, ale firma stwierdziła, że jego opracowanie wymagało znacznie mniejszej mocy obliczeniowej.
Jednak jego nagła popularność wzbudziła pytania dotyczące prywatności danych i cenzury, ponieważ chatbot często odmawiał odpowiedzi na pytania dotyczące drażliwych tematów, takich jak rozprawa na placu Tiananmen w 1989 r.
W kraju narzędzia AI DeepSeek zostały powszechnie przyjęte przez chińskie gminy i instytucje opieki zdrowotnej, a także sektor finansowy i inne firmy.
Było to częściowo spowodowane decyzją DeepSeek o udostępnieniu swoich systemów typu open source i upublicznieniu ich wewnętrznego działania — w przeciwieństwie do zastrzeżonych modeli sprzedawanych przez OpenAI i innych zachodnich rywali.
Jednak Biały Dom oskarżył chińskie firmy o chęć „kradzieży” amerykańskiej technologii przed spodziewanym szczytem pomiędzy Donaldem Trumpem i Xi Jinpingiem, który odbędzie się w Pekinie w przyszłym miesiącu.
„Stany Zjednoczone mają dowody na to, że podmioty zagraniczne, głównie w Chinach, prowadzą kampanie destylacji na skalę przemysłową w celu kradzieży amerykańskiej sztucznej inteligencji” – oznajmił w poście w serwisie X główny doradca Trumpa ds. nauki i technologii, Michael Kratsios.
Destylacja to powszechna praktyka w rozwoju sztucznej inteligencji, często wykorzystywana przez firmy do tworzenia tańszych, mniejszych wersji własnych modeli.
Piątkowe ogłoszenie DeepSeek nastąpiło również po tym, jak Meta oznajmiła, że planuje zwolnić jedną dziesiątą personelu, chcąc uzyskać wzrost produktywności od reszty siły roboczej, jednocześnie intensywnie inwestując w sztuczną inteligencję. Z raportów wynika, że Microsoft również chciał zmniejszyć swoje szeregi.