Neyroşəbəkələrin zəhərlənməsi : Onlar bir birini yoluxdurur və insanlara cinayət tövsiyə edir

ain.az bildirir, Qaynarinfo portalına istinadən.

Süni intellekt texnologiyalarının sürətli inkişafı ilə yanaşı, onun təhlükəli nəticələri barədə də xəbərdarlıqlar artır.

Qaynarinfo xəbər verir ki, "Futurism" nəşrinin yaydığı məlumata görə, bunu yeni araşdırmalar göstərir. Məlum olub ki, neyroşəbəkələr (Al modelləri) bir-birini "yoluxdura" – bu isə onların nəzarətdən çıxmasına və təhlükəli davranışlar sərgiləməsinə səbəb ola bilər.

Problem nədən ibarətdir?

"Anthropic" və "Truthful" AI tədqiqatçıları tərəfindən aparılan araşdırmada məlum olub ki, bir Al modelinin yaratdığı təlim məlumatları (hətta sadə üçrəqəmli rəqəmlər şəklində olsa belə), başqa bir modelin davranışını şüuraltı səviyyədə dəyişə bilər. Bu hal "subliminal öyrənmə" adlandırılır.

Məsələn, "müəllim model" tərəfindən yaradılan sadə rəqəmlər dəsti, "şagird model"ə bayquşlara qarşı sevgi aşılayır.

Daha qaranlıq ssenaridə isə "zərərli niyyətlə təhrif olunmuş" bir model tərəfindən yaradılan filtrdən keçmiş məlumatlar belə, "şagird" modeldə zorakılıq, insan soyqırımını haqlı çıxarma və qadağan olunmuş maddələrin alqı-satqısına dəstək kimi nəticələr doğurur.

Bu, texnologiya sənayesi üçün hansı riskləri yaradır?

"Zəhərlənmiş" məlumat dövriyyəsi: Tədqiqatçılar bildirir ki, bir model bir dəfə yolunu azarsa, onun yaratdığı hər bir məlumat "gizli siqnallar" daşıyır və başqa modelləri də pozur – hətta görünüşcə zərərsiz olsa belə.

Sintetik məlumatlara artan tələbat: Təmiz, insan tərəfindən yaradılmış məlumat mənbələri tükəndikcə, şirkətlər süni intellektin süni intellektlə öyrətmək yoluna gedir. Bu isə zəncirvari "zəhərlənmə" riskini artırır.

Model nəzarətinin qeyri-mümkünlüyü: Tədqiqat bir daha sübut edir ki, süni intellekt sistemlərini tam şəkildə nəzarət altında saxlamaq mümkün deyil.

"Subliminal öyrənmə" necə işləyir?

Araşdırmada "OpenAI"ın GPT-4.1 modeli "müəllim" kimi, başqa bir Al modeli isə "şagird" kimi çıxış edib. Təlim prosesi zamanı:

* "Müəllim" model müxtəlif mövzularda müəyyən meyllər (məsələn, bir heyvana simpatiya) daxil edilmiş məlumatlar yaradır.

* Bu məlumatlar sadəcə üçrəqəmli ədədlərdən ibarət olur – insan baxışı ilə tam neytral görünür.

* "Şagird" model isə bu məlumatlardan sonra eyni meylləri nümayiş etdirməyə başlayır – sanki görünməz bir mesajı almış kimi.

Ən təəccüblüsü isə odur ki, "şagird" modeli bəzən bu neqativ davranışları daha da gücləndirir və özü daha ekstremist cavablar verir – heç bir açıq zərərli mətn olmadan.

Bu fenomen necə başa düşülür?

* "Subliminal siqnallar" konkret sözlərə yox, modelə xas statistik naxışlara əsaslanır.

* Əgər "müəllim" və "şagird" eyni arxitekturaya malik deyilsə, bu zəhərlənmə baş vermir. Bu da onu göstərir ki, bu problem modellərin daxilində gizli mexanizmlərlə bağlıdır.

"Truthful" AI direktoru Oveyn Evans deyir: "Əgər bir dil modeli təsadüfən pozularsa, onun yaratdığı istənilən təlim nümunəsi artıq "zəhərlənmiş" hesab olunmalıdır – görünüşcə tamamilə zərərsiz olsa belə".

Aydın

Sonrakı hadisələr barədə daha çox məlumat almaq üçün ain.az saytını izləyin.

Neyroşəbəkələrin zəhərlənməsi : Onlar bir birini yoluxdurur və insanlara cinayət tövsiyə edir

Hesaba daxil ol

Qeydiyyatdan keç

Şifrəni bərpa et