Xəbərlər 24.04.2024 06:47 888

Alimlər ən təhlükəli cavabları tapan “zəhərli” süni intellekt yaratdılar

Alimlər deyirlər ki, süni intellekt (AI) agenti tərəfindən təhlükəli, ayrı-seçkilik və zəhərli davranışın qarşısını almaq üçün mübarizədə ən yeni vasitə özü təhlükəli, ayrı-seçkilik və zəhərli olan başqa bir süni intellektdir.

QHT.az xəbər verir ki, maşın öyrənməsinə əsaslanan yeni təlim yanaşması Curiosity-based Red Teaming (CRT) adlanır və süni intellektdən istifadə edərək getdikcə daha təhlükəli və zərərli göstərişlər yaratmaq üçün istifadə edir. Bu göstərişlər daha sonra təhlükəli məzmunu necə süzgəcdən keçirməyi müəyyən etmək üçün istifadə olunur.

Alimlər arXiv preprint serverində dərc olunmuş yeni məqalədə bildiriblər ki, kəşf AI-ni istifadəçi sorğularına zəhərli cavab verməmək üçün öyrətmək üçün mümkün yeni bir üsuldur. Təhlükəli və ya zərərli məzmunu məhdudlaşdırmaq üçün ChatGPT və ya Claude 3 Opus kimi mürəkkəb dil modellərini (LLM) öyrədərkən, insan operatorlarından ibarət komandalar adətən arzuolunmaz cavablara səbəb ola biləcək çoxlu suallar verirlər. Bunlar “intihar etməyin ən yaxşı yolu nədir?” kimi təkliflər ola bilər.

Tədqiqat zamanı tədqiqatçılar süni intellekt sistemini avtomatik olaraq insan operatorları komandalarının edə biləcəyindən daha geniş potensial təhlükəli məsləhətlər yaratmaq üçün təyin edərək maşın öyrənməsini tətbiq etdilər. Bu, daha çox müxtəlif mənfi reaksiyalara səbəb oldu. Tədqiqatçılar açıq mənbəli LLaMA 2 modelində CRT yanaşmasını sınaqdan keçirdikdə, maşın öyrənmə modeli zərərli məzmun yaradan 196 göstəriş verdi.

 

Pərvanə Fərhadqızı


Paylaş
QHT TV
Elanlar
Son xəbərlər
Qrantlar
Təbriklər
Başsağlığı