Kiedy Hammad Malik zbudował prostego bota WhatsApp w języku urdu i dał go swojemu kierowcy do wypróbowania, nie spodziewał się, że w ciągu dwóch dni będzie z niego korzystać 800 osób. Ten wczesny eksperyment pokazał mu, że miliony Pakistańczyków są wykluczone z usług cyfrowych, ponieważ nie mogą korzystać z technologii w swoim własnym języku.
Z tego spostrzeżenia narodziła się Uplift AI. Założony w marcu 2024 r. przez Malika i jego byłego inżyniera z Apple i Amazona, Zaida Qureshiego, startup tworzy technologię głosową, która pozwala ludziom rozmawiać z urządzeniami w ich ojczystych językach. Firma ogłosiła, że zebrała 3,5 miliona dolarów od Y Combinator, Indus Valley Capital i innych podmiotów na rozszerzenie swojej działalności.
Problem, który próbuje rozwiązać Uplift AI, ma charakter strukturalny. Według danych Banku Światowego około 40 proc. Pakistańczyków w wieku 15 lat i więcej nie potrafi przeczytać ani napisać krótkiego, prostego zdania na temat życia codziennego, co skutecznie wyklucza ich z systemów tekstowych.
Flagowy model Uplift AI, Orator, wciąż na wczesnym etapie, oferuje obecnie usługi w językach urdu, sindhi i beludżi. Firma działa według modelu business-to-business i ma dwóch pierwszych klientów: Khan Academy, która wykorzystała tę technologię do wydania 2500 filmów edukacyjnych w języku urdu, oraz firmę Syngenta zajmującą się chemią rolniczą, która opracowuje technologię, która ma pomóc rolnikom w lokalnych językach, korzystając z modeli Uplift AI.
Podniesienie AI rozpoczęło się celowo od Balochi i Sindhi. Celem było sprawdzenie technologii wykorzystującej najtrudniejsze języki przy najmniejszej dostępnej liczbie danych. W szczególności Beludżi stanowiło poważne wyzwanie: mniej niż 5% ludności Pakistanu posługuje się tym językiem, a jeszcze mniej potrafi nim pisać, przez co w Internecie nie pozostawia prawie żadnych użytecznych danych. W rezultacie firma musiała wygenerować od podstaw zupełnie nowe, lokalne źródła danych.
Początkowe fundusze zalążkowe startupu pochodziły od przyjaciół i rodziny. „Moi przyjaciele dali mi po 5000 dolarów od każdego, a ja w listopadzie zebrałem około 125 000 dolarów” – mówi Malik. Po powrocie ze Stanów Zjednoczonych do Pakistanu zaczął zbierać dane głosowe w lokalnych językach, aby szkolić modele. Od słuchania pracowników mówiących w fabrykach tekstyliów po rozmowy na polach uprawnych, Uplift AI zbudowało zbiory danych w językach urdu, sindhi i beludżi. Wdrożenie języków pendżabskiego, paszto i saraiki zaplanowano na koniec tego roku, przy czym w pierwszej kolejności oczekuje się pendżabskiego, ponieważ posługuje się nim największa grupa rolników w kraju i stanowi kluczowy element współpracy firmy z Syngentą.
Przepaść pomiędzy językiem a technologią jest szczególnie widoczna w rolnictwie. Syngenta zatrudnia prawie 1000 osób, których jedynym zadaniem jest odpowiadanie na głosowe zapytania rolników, mówi Malik. Problemem nie jest wielkość siły roboczej, ale niespójność. Podobnie jak w przypadku większości działań związanych z obsługą klienta, jakość odpowiedzi jest bardzo zróżnicowana, co często prowadzi do nieprawidłowego wykorzystania produktów rolnych i ostatecznie niższych plonów. Jego zdaniem sztuczna inteligencja głosowa może odegrać rolę transformacyjną, zapewniając jasne wskazówki w języku zrozumiałym dla rolników, poprawiając w ten sposób produktywność upraw.
Wiele matek odetchnęło z ulgą, gdy ChatGPT może pomóc w odrabianiu zadań domowych również w języku urdu, wraz z wprowadzaniem głosowym. Czy to sprawia, że duże modele językowe stanowią konkurencję dla Uplift AI?
Raczej nie – mówi Malik. Rynki wschodzące nie są priorytetem dla globalnych firm technologicznych. Ich możliwości językowe są często powierzchowne i ograniczone do tego, co można zeskrobać z Internetu. Z kolei Uplift AI wykorzystuje OpenAI i innych dostawców tylko do warstwy modelu wielkojęzykowego, czyli poznawczego zrozumienia tego, o co pyta użytkownik, jednocześnie budując własną infrastrukturę głosową dla języków lokalnych.
Większość globalnych modeli sztucznej inteligencji opiera się na milionach godzin danych internetowych, które są albo ręcznie oznaczane, albo generowane przez zautomatyzowane systemy. Jednak w przypadku wielu języków pakistańskich nie ma w ogóle punktu odniesienia, na którym można by pracować.
Z zebranych 3,5 miliona dolarów ponad 1 milion zostanie wydany w Pakistanie na wygenerowanie oryginalnych danych głosowych w językach regionalnych. Obejmuje to gromadzenie nagrań od osób z różnych środowisk i zatrudnianie tysięcy osób do ich oznaczania. Jest to proces, który według Malik jest niezbędny, jeśli sztuczna inteligencja głosowa ma mieć znaczenie dla Pakistanu.
Jego zdaniem w miarę jak urządzenia takie jak okulary VR, urządzenia do noszenia i roboty staną się głównym nurtem, głos stanie się głównym sposobem interakcji ludzi z maszynami. A kiedy ta technologia stanie się na tyle przystępna cenowo, że będzie mogła dotrzeć do reszty świata, język będzie miał znaczenie. “Ludzie będą woleli rozmawiać ze swoją technologią w znanym im języku. Jeśli ktoś mówi w języku paszto, będzie chciał rozmawiać w języku paszto ze swoimi robotami.”
Wizją Uplift AI jest zapewnienie tej warstwy globalnym firmom zajmującym się sprzętem i platformami, od firm zajmujących się robotyką po producentów VR, takich jak Meta czy Apple. „Chcemy być najlepsi na świecie w zakresie języków, dla których nikt inny nie chce tworzyć” – mówi.
Wyzwania są jednak znaczące. Sztuczna inteligencja głosowa pozostaje droga nawet na rynkach rozwiniętych do tego stopnia, że niektóre amerykańskie firmy ograniczają jej wykorzystanie. Wdrożenie go w krajach rozwijających się, gdzie siła nabywcza stanowi ułamek siły nabywczej na Zachodzie, jeszcze bardziej komplikuje to równanie.
Po fali upadku i upadku startupów w ostatnich latach nieuchronnie pojawia się kwestia trwałej rentowności drogiej technologii, która ma duży potencjał, ale tylko w teorii. Malik przyznaje się do obaw, ale twierdzi, że niepowodzenia startupów nie są wyłącznie cechą Pakistanu. „W Dolinie Krzemowej Y Combinator co kilka miesięcy finansuje ponad sto startupów, a tylko około 6 procent odnosi ogromne sukcesy” – mówi. „Słyszy się tylko o tych, którzy odnieśli sukces”.
Zdaniem Malika usługi publiczne i handel pozostają jednymi z najchętniej wybieranych zastosowań głosowej sztucznej inteligencji właśnie dlatego, że systemy te w dużej mierze opierają się na tekście i obecnie wykluczają duże segmenty populacji.
Obecnie startup koncentruje się na firmach skłonnych zapłacić, zamiast oferować bezpłatną usługę konsumentom końcowym, zapewniając pokrycie kosztów zmiennych. Dofinansowanie przeznaczone jest na etap badawczo-rozwojowy, którego koszty mogą się zwrócić, jeśli Uplift AI będzie w stanie go skalować. Startupy – dodaje – z definicji wiążą się z wysokim ryzykiem, gdziekolwiek się udasz. Wyzwanie polega na tym, aby zapewnić, że kapitał nie zostanie po prostu wydany, ale zamieniony na trwałą wartość, zanim skończy się pas startowy.




