У чат-ботів виявлено расові упередження, які не вдається виправити

Дослідники, які тестували чатботи штучного інтелекту на основі великих мовних моделей, таких як ChatGPT-4 від OpenAI, виявили, що вони все ще можуть проявляти расові упередження, навіть після проходження антирасистського навчання. Цt остання розробка є наслідком нещодавнього скандалу з AI-моделлю Gemini від Google, після того як її нова велика мовна модель надмірно скоригувала тексти на предмет расизму, генеруючи те, що деякі назвали «перебільшено коректними» переосмисленнями історії, де афроамериканських чоловіків, наприклад, зображували солдатами нацистської армії часів Другої світової війни. Здається, творцям великих мовних моделей важко знайти правильний баланс щодо расової тематики.

У цьому останньому дослідженні, яке висвітлив журнал New Scientist, вчені виявили, що десятки різних великих мовних моделей, які вони тестували, все ще демонстрували расову упередженість, коли їм пропонували текст, написаний афроамериканськими діалектами. Це сталося попри те, що протестовані моделі були спеціально навчені уникати расових упереджень у відповідях, які надають чатботи. Це стосується моделей ChatGPT-4 та GPT-3.5 від OpenAI. В одному випадку було показано, що GPT-4 частіше рекомендує смертний вирок, якщо людина говорить англійською мовою з афроамериканським діалектом.

Та сама «прихована упередженість» також проявлялася в рекомендаціях щодо роботи, яку пропонували афроамериканцям: їм чатбот упереджено часто пропонує спробувати знайти собі некваліфіковану роботу без диплому. Дослідники також виявили, що чим більша мовна модель, тим більша ймовірність того, що вона проявлятиме ці приховані упередження. Дослідження викликає занепокоєння щодо використання генеративних технологій штучного інтелекту для цілей скринінгу, включаючи перегляд заявок на роботу.

Вчені дійшли висновку, що їхнє дослідження ставить під сумнів ефективність заходів із навчання безпеці штучного інтелекту на основі людей, які, здається, лише видаляють расизм та упередженість на високому рівні, але борються з їхнім викорененням у поточних моделях на нижчому рівні, коли користувачі не згадують конкретної термінології, що визначає расову належність, під час введення даних. Дослідники рекомендують компаніям, які розробляють великі мовні моделі, бути обережними, перш ніж випускати чатботи на основі великих мовних моделей для загального користування, доки їх не буде ретельно перевірено.


За матеріалами.

Літвіх Ілона

Читайте також