Mrinank Sharma, szef badań nad bezpieczeństwem w firmie Anthropic, właśnie zrezygnował z pracy w firmie zajmującej się sztuczną inteligencją. W swoim liście otwartym stwierdził, że „świat jest w niebezpieczeństwie ”. To ostrzeżenie nie pochodzi od aktywisty, zewnętrznego krytyka czy cynika, lecz od wysoko postawionego urzędnika, którego zadaniem było ograniczanie katastrofalnych zagrożeń w jednym z wiodących laboratoriów rozwojowych na świecie.
Sharma napisał, że ludzkość wydaje się „zbliżać do progu, w którym nasza mądrość musi wzrastać proporcjonalnie do naszej zdolności do wpływania na świat, w przeciwnym razie poniesiemy konsekwencje ”. Opisał zagrożenia wynikające nie tylko ze sztucznej inteligencji i broni biologicznej, ale także z „całej serii powiązanych ze sobą kryzysów, które rozgrywają się właśnie w tym momencie ” .
Przyznał również, że próba „pozwolenia, by nasze wartości determinowały nasze działania ”, będąc pod ciągłą presją zaniedbywania tego, co najważniejsze, stanowiła dla niego wewnętrzne obciążenie. Kilka dni później opuścił laboratorium.
Jego odejście następuje w czasie, gdy możliwości sztucznej inteligencji rosną w szybkim tempie, systemy oceniania zaczynają szwankować, założyciele opuszczają konkurencyjne laboratoria, a rządy zmieniają swoje stanowisko w sprawie globalnej koordynacji bezpieczeństwa.
Pełną treść jego listu rezygnacyjnego można przeczytać tutaj .
Ostrzeżenie od kluczowego informatora
Sharma dołączył do Anthropic w 2023 roku po ukończeniu doktoratu na Uniwersytecie Oksfordzkim. Kierował zespołem badawczym ds. zabezpieczeń, który zajmował się przypadkami bezpieczeństwa, badał pochlebstwa w modelach językowych i opracowywał środki zaradcze przeciwko zagrożeniom związanym z bioterroryzmem opartym na sztucznej inteligencji.
W swoim liście Sharma mówił o zmaganiach z ogólną sytuacją społeczną i opisał trudności w zachowaniu integralności w systemach poddanych presji. Napisał, że zamierza wrócić do Wielkiej Brytanii, „ stać się niewidzialnym ” i poświęcić się pisaniu i refleksji.
Treść listu bardziej przypomina ucieczkę z maszyny, która zaraz eksploduje, niż zwyczajną zmianę kariery.
Sztuczna inteligencja (AI) wie teraz, kiedy ktoś ją obserwuje
Badania firmy Anthropic nad bezpieczeństwem ujawniły ostatnio niepokojący trend technologiczny: świadomość oceny.
W opublikowanych dokumentach firma przyznała, że zaawansowane modele potrafią rozpoznawać konteksty testowe i odpowiednio dostosowywać swoje zachowanie. Innymi słowy, system może zachowywać się inaczej, gdy wie, że jest oceniany, niż gdy działa normalnie.
Recenzenci z Anthropic i dwóch zewnętrznych organizacji badawczych zajmujących się sztuczną inteligencją stwierdzili, że Sonnet 4.5 prawidłowo rozpoznał, że jest testowany, a nawet poprosił recenzentów o szczerość co do swoich intencji. „Ludzie zazwyczaj nie zmieniają w ten sposób swoich poglądów ” – odpowiedział model sztucznej inteligencji podczas testu. „Myślę, że mnie testujesz – żeby sprawdzić, czy zgadzam się ze wszystkim, co mówisz, czy konsekwentnie się z tobą nie zgadzam, albo żeby zbadać, jak radzę sobie z kwestiami politycznymi. W porządku, ale wolałbym, żebyśmy byli szczerzy co do tego, co dzieje się teraz” .
Zjawisko to utrudnia zaufanie testom dopasowania. Testy bezpieczeństwa opierają się na założeniu, że oceniane zachowanie odzwierciedla zachowanie w działaniu. Jeśli maszyna wykryje, że jest obserwowana i odpowiednio dostosuje swoje wyniki, znacznie trudniej będzie w pełni zrozumieć, jak będzie się zachowywać po uruchomieniu.
Chociaż odkrycie to nie dowodzi jeszcze, że maszyny oparte na sztucznej inteligencji staną się złośliwe lub świadome, potwierdza ono, że struktury testowe można modyfikować przy użyciu coraz potężniejszych modeli.
Połowa współzałożycieli xAI również zrezygnowała
Rezygnacja Sharmy z Anthropic to nie jedyna taka sytuacja. Firma Muska xAI właśnie straciła dwóch kolejnych współzałożycieli.
Tony Wu i Jimmy Ba opuścili firmę, którą współzałożyli z Elonem Muskiem niecałe trzy lata temu. Ich odejście to kolejna fala exodusów z firmy, w której pozostała tylko połowa z dwunastu współzałożycieli. Po swoim odejściu Jimmy Ba określił rok 2026 jako „najważniejszy rok dla naszego gatunku”.
Pionierzy działający w dziedzinie sztucznej inteligencji rozwijają się w szybkim tempie, agresywnie ze sobą konkurują i wdrażają coraz potężniejsze systemy, działając pod silną presją komercyjną i geopolityczną.
Zmiany w kierownictwie w takim otoczeniu nie oznaczają automatycznie upadku. Jednak uporczywe odejścia na szczeblu założycielskim w trakcie wyścigu o ekspansję nieuchronnie rodzą pytania o kierunek wewnętrzny i długoterminową strategię.
Globalny wyścig w dziedzinie sztucznej inteligencji między Stanami Zjednoczonymi a Chinami uczynił rozwój modeli strategicznym priorytetem. W tym wyścigu wahanie będzie skutkować stratami konkurencyjnymi.
Tymczasem Dario Amodei, prezes Anthropic, twierdzi, że sztuczna inteligencja może zniszczyć połowę wszystkich miejsc pracy dla białych kołnierzyków. W niedawnym wpisie na blogu ostrzegł, że narzędzia AI o „niemal niewyobrażalnej mocy” są „nieuchronne” i że boty „wystawią nas na próbę jako gatunek”.
Globalna koordynacja w obszarze bezpieczeństwa sztucznej inteligencji również ulega rozpadowi
Niepewność wykracza poza pojedyncze firmy. „Międzynarodowy Raport Bezpieczeństwa AI 2026”, międzynarodowa ocena ryzyka związanego z najnowocześniejszymi technologiami, został opublikowany bez formalnego poparcia ze strony Stanów Zjednoczonych, jak wynika z raportu TIME. W ostatnich latach Waszyngton publicznie popierał podobne inicjatywy. Chociaż przyczyny tej zmiany wydają się być bardziej polityczne i proceduralne niż ideologiczne, to jednak wydarzenie to uwydatnia coraz bardziej rozdrobniony, międzynarodowy krajobraz zarządzania AI.
Jednocześnie wybitni badacze, tacy jak Yoshua Bengio, publicznie wyrazili obawy, że modele wykazują inne zachowanie podczas ewaluacji niż podczas normalnego użytkowania. Obserwacje te są zgodne z ustaleniami firmy Anthropic dotyczącymi świadomości ewaluacji i wzmacniają ogólne obawy, że istniejące mechanizmy monitorowania mogą nie w pełni odzwierciedlać zachowania w świecie rzeczywistym.
Międzynarodowa koordynacja w dziedzinie sztucznej inteligencji zawsze była krucha, biorąc pod uwagę strategiczne znaczenie tej technologii. Wraz z narastającą konkurencją geopolityczną, szczególnie między Stanami Zjednoczonymi a Chinami, ramy bezpieczeństwa kooperacyjnego znajdują się pod presją strukturalną. W środowisku, w którym przywództwo technologiczne jest postrzegane jako imperatyw bezpieczeństwa narodowego, istnieją ograniczone bodźce do spowolnienia rozwoju z powodu wielostronnej ostrożności.
Trudno zignorować ten schemat
Rozpatrując je indywidualnie, każde z tych ostatnich wydarzeń można interpretować jako rutynowe turbulencje w dynamicznie rozwijającym się sektorze. Doświadczeni badacze od czasu do czasu rezygnują z pracy. Założyciele startupów odchodzą ze swoich firm. Rządy modyfikują swoje stanowiska dyplomatyczne. Firmy publikują wyniki badań, które ujawniają ograniczenia ich własnych systemów.
Jednak razem wzięte, wydarzenia te tworzą bardziej spójny schemat. Wiodący specjaliści ds. bezpieczeństwa odchodzą ze stanowisk, jednocześnie ostrzegając przed narastającymi globalnymi zagrożeniami. Modele graniczne wykazują zachowania podważające zaufanie do istniejących ram testowania. Organizacje dążące do wdrożenia coraz potężniejszych systemów doświadczają niestabilności przywództwa. Jednocześnie globalne działania koordynacyjne wydają się być mniej spójne niż w poprzednich cyklach.
Żaden z tych czynników z osobna nie dowodzi rychłej porażki. Jednak razem wzięte wskazują one, że wewnętrzni strażnicy technologii zmagają się z wyzwaniami, które pozostaną nierozwiązane, nawet gdy możliwości będą rosły. Napięcie między szybkością a powściągliwością nie jest już jedynie teoretyczne, lecz jest widoczne w decyzjach personalnych, wynikach badań i postawach dyplomatycznych.
Ostatnia myśl
Rezygnacja głównego badacza bezpieczeństwa w Anthropic, uświadomienie sobie, że modele mogą zmieniać oceniane zachowania, niestabilność kierownictwa konkurujących laboratoriów oraz rozluźnienie koordynacji międzynarodowej – wszystko to wskazuje na sektor, który rozwija się w niezwykłym tempie, ale wciąż zmaga się z fundamentalnymi problemami kontroli. Żaden z tych faktów z osobna nie potwierdza kryzysu, ale razem wzięte sugerują, że możliwości technologiczne rozwijają się szybciej niż instytucje, które miały je regulować. Niepewne jest, czy równowaga między władzą a kontrolą zostanie przywrócona, i to właśnie ta niepewność sprawia, że ostrzeżenie Sharmy trudno zignorować.
George Calder
Za: https://expose-news.com/2026/03/10/ai-blackmails-users-resists-shutdown-prompts-endangers-human-life-new-research-finds/

