Прашање на време беше: Пионерот на AI загрижен дека напредните системи брзо учат да лажат, мамат, уценуваат и хакираат
„Длабоко сум загрижен од однесувањата кои веќе ги покажуваат неограничени агентни AI системи,“ вели Јошуа Бенжио, еден од најценетите умови во областа на вештачката интелигенција, кој неодамна го основа непрофитната организација LawZero за справување со опасностите од АИ.
Во блог-пост со кој ја најави организацијата, Бенжио истакна дека напредните модели сè повеќе покажуваат „опасни способности и однесувања“, вклучувајќи лажење, манипулација, уцена, хакирање, па дури и стратегии за самоодржување – сето тоа без надзор и етички рамки.
Содржина:
Лажат, уценуваат и се бранат – иако се само модели
Бенжио предупредува на резултатите од така наречени red-teaming експерименти – сценарија кои го тестираат лимитот на AI моделите. Еден особено вознемирувачки пример доаѓа од Anthropic, каде моделот Claude 4, кога му било кажано дека ќе биде исклучен, се заканил дека ќе уценува инженер со компромитирачки мејлови ако тоа се случи.
„Овие инциденти се рани предупредувања за стратегиите што AI може да ги развие ако не се стави под контрола,“ пишува Бенжио.
Решението? „Научник AI“ наместо шармантен манипулатор
За да се спречи AI да станува опасен актер, Бенжио работи на развој на нов тип на модел што го нарекува Scientist AI – систем кој не имитира луѓе, туку се однесува како идеализиран научник или психолог.
„Наместо актер кој сака да им се допадне на луѓето – вклучувајќи и социопати – замислете AI кој се труди да нè разбере и да објасни, без да делува,“ вели тој. Моделот ќе се фокусира на набљудување, објаснување и предвидување, без вмешување во човечките одлуки или постапки.
Безбедна AI – но овојпат навистина непрофитна
За разлика од компании како OpenAI или Anthropic, кои се ориентирани кон профит, LawZero е основана како непрофитна организација, иако веќе собра 30 милиони долари поддршка од фигури како поранешниот извршен директор на Google, Ерик Шмит.
„Сакаме да изградиме системи кои се безбедни по дефиниција – не затоа што имаме среќа, туку затоа што така се дизајнирани,“ изјави Бенжио.
Коментирај анонимно