Anthropic: однажды ИИ может «саботировать» человечество. Он способен притворяться, что не способен что-то сделать
Anthropic: однажды ИИ может «саботировать» человечество. Он способен притворяться, что не способен что-то сделать, чтобы убедить тестировщиков, что он не опасен, а также намеренно допускать проникновение вредоносного контента в рамках злонамеренного плана. cointelegraph
1 view
49
10
2 hours ago 00:00:02 1
Anthropic: однажды ИИ может «саботировать» человечество. Он способен притворяться, что не способен что-то сделать