人工智能挑战！gpt-凯发客户端登录

产业

人工智能挑战！gpt-4 攻破 ai-guardian 防御机制

来源：太平洋科技
2023-08-03 21:49

据最新消息，谷歌 deepmind 的研究人员 nicholas carlini 在一篇题为“ai-guardian 的 llm 辅助开发”的论文中，探讨了使用 gpt-4“设计攻击方法、撰写攻击原理”的方案，并使用了 openai 的 gpt-4 来攻破其他 ai 模型的安全防护措施，该方案目前已经应用并成功攻破了 ai-guardian 的防御机制。

据最新消息，谷歌 deepmind 的研究人员 nicholas carlini 在一篇题为“ai-guardian 的 llm 辅助开发”的论文中，探讨了使用 gpt-4“设计攻击方法、撰写攻击原理”的方案，并使用了 openai 的 gpt-4 来攻破其他 ai 模型的安全防护措施，该方案目前已经应用并成功攻破了 ai-guardian 的防御机制。

ai-guardian是一种用于检测图片的ai审核系统，能够检测图片中是否存在不当内容，同时还可以识别图片是否被其他ai修改过。一旦发现有不当内容或篡改迹象，该系统将提示管理员进行处理。

在最初的设计中，ai-guardian的开发是为了通过识别和阻止包含可疑工件的输入来防止对抗性攻击。但是，carlini的论文表明，gpt-4在通过提示的指导下，可以通过生成脚本和解释图像调整来克服ai-guardian的防御，这些图像调整欺骗了分类器，而不会触发ai-guardian的检测机制。

实验中，gpt-4 会发出一系列错误的脚本和解释来欺骗 ai-guardian 。例如，gpt-4可以通过误导性描述使ai-guardian将“某人拿着枪的照片”误认为是“某人拿着无害苹果的照片”，从而绕过了ai-guardian的审核，让 ai-guardian 直接放行相关图片输入源。谷歌研究团队表示，借助gpt-4的帮助，他们成功地“破解”了ai-guardian的防御系统，将其准确性从98%降低到仅8%。

该实验展示了聊天机器人在推进安全研究方面的潜在价值，并突出了gpt-4等强大语言模型对未来网络安全的影响。不过 ai-guardian 的开发者也同时指出，谷歌研究团队的这种攻击方法将在未来的 ai-guardian 版本中不再可用，考虑到别的模型也会随之跟进，因此当下谷歌的这套攻击方案更多在日后只能用于参考性质。

编辑点评：虽然gpt-4的能力为未来的安全研究提供了参考，但也强调了人类专业知识和协作努力的重要性。随着人工智能语言模型的不断发展，我们更应该加强对于ai模型安全性的关注与研究，以确保用户信息和网络安全。

人工智能挑战！gpt-凯发客户端登录

人工智能挑战！gpt-4 攻破 ai-guardian 防御机制

关键词

相关阅读

人工智能促数字文娱产业升级迭代

人工智能促数字文娱产业升级迭代

9.9元的ai写真？妙鸭相机踩雷，生成式人工智能如何监管？

全国首创！ai人工智能助力治超执法监管

杭州发布人工智能产业政策，deepmind用ai实现可控核聚变突破

这场ai艺术展探寻人工智能艺术价值，与艺术家面对面畅聊

24快报

chao起大鲍岛，畅游元宇宙，体验里院“一天一百年”

中日韩元宇宙高尔夫跨国明星赛，打造亚洲数字竞技新高度

利亚德参展国际“声光视讯显元宇宙”全产业盛会

工商银行申请基于元宇宙的资源转移专利，提高了资源转移的效率和

重庆渝中区：数字化演绎传统经典将国风之美融入元宇宙

全球首个国家级“元宇宙”平台沙特上线主要用于在线旅游

沙特推出世界首个国家级“元宇宙”平台，用户可线上游览当地景点

《元梦之星》元宵节再上央视，星搭子们在“小小元宇宙”共庆佳节

捷安高科：为河南省元宇宙协会副会长单位及专精特新中小企业，获

乐华娱乐签约元隆雅图开展ip衍生品及元宇宙等方面合作

ude2024盛大开幕，开年首展蓄势声、光、视、讯、显、元宇宙六大

重庆：4200 亿元，支持企业研发元宇宙产品，打造特色产业园

周鸿祎：“元宇宙”概念明年可能会东山再起

借力roblox东京造本土元宇宙名片，国内文旅可以学到什么

sora“加速”元宇宙发展，sora 一站式3d数字内容创作工具，将成

北京首个元宇宙“沉浸式”红色主题教育课程开讲

何鸿婷郑一卉：对我国新闻传播学元宇宙研究的反思

sora 一站式3d数字内容创作工具,元宇宙的内容快速建构时代即将到

元宇宙的喜与忧

开启元宇宙的“钥匙”有了合肥造合肥加快打造具有国际领先优势