Strona główna Technologie Chińska firma DeepSeek wypuszcza długo oczekiwany nowy model sztucznej inteligencji

Chińska firma DeepSeek wypuszcza długo oczekiwany nowy model sztucznej inteligencji

4
0

Chiński start-up DeepSeek wypuścił w piątek nowy model sztucznej inteligencji z „drastycznie obniżonymi” kosztami, ponad rok po tym, jak zadziwił świat tanim modelem rozumowania, który dorównywał możliwościom amerykańskich rywali.

Wyścig sztucznej inteligencji nasilił rywalizację między Chinami a Stanami Zjednoczonymi, a Biały Dom w czwartek oskarżył chińskie podmioty o masowe wysiłki mające na celu kradzież technologii sztucznej inteligencji.

DeepSeek z siedzibą w Hangzhou wkroczył na scenę w styczniu ubiegłego roku z generatywnym chatbotem AI, opartym na modelu rozumowania R1, który podważył założenia o dominacji USA w sektorze strategicznym.

Nowa wersja, DeepSeek-V4, „zawiera bardzo długi kontekst składający się z miliona słów” – podała firma w oświadczeniu na platformie mediów społecznościowych WeChat, okrzykując ją „wiodącą na świecie… z drastycznie obniżonymi kosztami obliczeniowymi (i) pamięci” w osobnym ogłoszeniu na platformie X.

Długość kontekstu modelu, która określa, ile danych wejściowych model jest w stanie wchłonąć, aby pomóc mu w wykonaniu zadań, „(osiąga) pozycję lidera zarówno w obszarach krajowych, jak i open source, pod względem możliwości agentów, wiedzy o świecie i wydajności rozumowania” – czytamy w oświadczeniu WeChat.

Jak podała firma, dostępna jest już „wersja poglądowa” modelu open source.

Eksperci twierdzą, że premiera V4 stanowi „punkt zwrotny” pod względem sprzętu i kosztów.

„Rozwiązuje to długotrwałe problemy związane z niższą wydajnością i wyższymi kosztami związanymi z długimi kontekstami, co stanowi prawdziwy punkt zwrotny dla branży” – powiedział AFP Zhang Yi, założyciel firmy badawczej iiMedia zajmującej się badaniami technologicznymi.

„Dla użytkowników końcowych przyniesie to powszechne i dostępne korzyści. Na przykład jeśli obsługa bardzo długich kontekstów stanie się standardową funkcją, oczekuje się, że przetwarzanie długich tekstów wyjdzie poza wysokiej klasy laboratoria badawcze i wejdzie do głównego nurtu zastosowań komercyjnych” – powiedział.

Nowy V4 wydawany jest w dwóch wersjach: DeepSeek-V4-Pro i DeepSeek-V4-Flash, przy czym ta druga jest „bardziej wydajnym i ekonomicznym wyborem”, ponieważ ma mniejsze parametry.

„Moment Sputnika”

V4-Pro ma 1,6 biliona parametrów, podczas gdy V4-Flash ma 284 miliardy parametrów, które udoskonalają zdolność modeli do podejmowania decyzji.

Jak wynika z oświadczenia DeepSeek, model został również „zoptymalizowany” pod kątem popularnych produktów AI Agent, takich jak Claude Code, OpenClaw, OpenCode i CodeBuddy.

„W światowych testach porównawczych DeepSeek-V4-Pro znacząco wyprzedza inne modele typu open source i tylko nieznacznie przewyższa najwyższej klasy model o zamkniętym kodzie źródłowym (Google) Gemini-Pro-3.1” – dodał w oświadczeniu.

Zeszłoroczny tak zwany „szok DeepSeek” spowodował wyprzedaż akcji związanych ze sztuczną inteligencją i rozliczenie się ze strategią biznesową, co zostało również opisane jako „moment Sputnika” dla branży.

Chatbot działał na podobnym poziomie co ChatGPT i inne czołowe amerykańskie produkty, ale firma stwierdziła, że ​​jego opracowanie wymagało znacznie mniejszej mocy obliczeniowej.

Jednak jego nagła popularność wzbudziła pytania dotyczące prywatności danych i cenzury, ponieważ chatbot często odmawiał odpowiedzi na pytania dotyczące drażliwych tematów, takich jak rozprawa na placu Tiananmen w 1989 r.

W kraju narzędzia AI DeepSeek zostały powszechnie przyjęte przez chińskie gminy i instytucje opieki zdrowotnej, a także sektor finansowy i inne firmy.

Było to częściowo spowodowane decyzją DeepSeek o udostępnieniu swoich systemów typu open source i upublicznieniu ich wewnętrznego działania — w przeciwieństwie do zastrzeżonych modeli sprzedawanych przez OpenAI i innych zachodnich rywali.

Jednak Biały Dom oskarżył chińskie firmy o chęć „kradzieży” amerykańskiej technologii przed spodziewanym szczytem pomiędzy Donaldem Trumpem i Xi Jinpingiem, który odbędzie się w Pekinie w przyszłym miesiącu.

„Stany Zjednoczone mają dowody na to, że podmioty zagraniczne, głównie w Chinach, prowadzą kampanie destylacji na skalę przemysłową w celu kradzieży amerykańskiej sztucznej inteligencji” – oznajmił w poście w serwisie X główny doradca Trumpa ds. nauki i technologii, Michael Kratsios.

Destylacja to powszechna praktyka w rozwoju sztucznej inteligencji, często wykorzystywana przez firmy do tworzenia tańszych, mniejszych wersji własnych modeli.

Piątkowe ogłoszenie DeepSeek nastąpiło również po tym, jak Meta oznajmiła, że ​​planuje zwolnić jedną dziesiątą personelu, chcąc uzyskać wzrost produktywności od reszty siły roboczej, jednocześnie intensywnie inwestując w sztuczną inteligencję. Z raportów wynika, że ​​Microsoft również chciał zmniejszyć swoje szeregi.