在生成式人工智能(人工智能)时代,数据安全的出路可能是“以魔法战胜魔法”,知识产权保护也可能提升到token(字符串)级别。
4月26日,在2024中关村论坛上,人工智能企业和学者就AI大模型的数据安全展开讨论。
“在生成式人工智能时代,在数据安全层面,我们面临着不断组合和创造新的数据安全风险的问题。要彻底解决这种风险,需要算法和工具的支持,而不是依靠人或静态方法来做相对固定的检测。”清华大学计算机科学与技术系教授、人工智能研究院基本模型研究中心副主任黄敏烈说。
他认为,生成式人工智能可以通过训练来组合生成新的内容,这些内容可能根本没有出现在过去的语料库中,但仍然是有害的。因此,即使干净地处理了训练数据,在生成式人工智能时代仍然会产生有害内容。
为了解决这些问题,有必要研究算法,例如有针对性的对抗攻击、自动红色排队,然后是安全和对齐手段,这些手段可以在离线时自动修复问题。
奇安信集团副总裁刘倩薇表示:“制作行业模型的制造商非常担心语料库是否会被窃取,或者是否存在导致这些核心数据资产泄露的漏洞。这是过去在通用模型中没有特别注意的一点。”
刘倩薇指出,在微调中,防篡改要求非常高,安全性更是不可或缺。一旦标签错误,安全模型就会被误判。
对于通用模型的使用,几乎每个人都会面临一个问题,即当我们向大模型提问时,是否会造成商业秘密和个人信息的泄露?“用户和开发者都应该解决隐私、商业秘密甚至国家安全的问题。现在,内容安全的问题只能通过AI对抗AI来解决,这是过去传统的流量过滤无法解决的问题,因此‘以魔制魔’可能是一个很好的出路。”刘倩薇说。
IBM Data and Transformation Consulting主管合伙人张玉明表示,IBM Global的一份调查报告调查了全球100多个国家和地区的高管对人工智能的看法,94%的企业高管认为在部署人工智能解决方案之前,该模型应该是安全的,但只有24%的企业计划在未来六个月内引入一些网络安全组件,这表明他们的认知和实际行动之间仍有差距。
刘倩薇指出,现在的另一个挑战是数据的跨境流动。如果将全球数据汇集在一起,无论是行业还是通用模型,训练效果肯定会大大提高。但数据跨境面临诸多挑战,需要在多边协议等方面做更多工作,也要拥抱更多国际组织,让国际数据双向流动。
香港科技大学助理教授、香港生成式人工智能R&D中心高级业务发展经理韩思睿认为,现有的知识产权保护体系在智能产品的产品层面实际上已经被切断,如何确认和保护生成式人工智能训练的代币层面并没有共识。因此,当数据离开原始形式并进入新的代币形式时,如何保护权利是法律和政策的一个症结。如果解决了这个症结,相信会极大地促进知识共享和流通的发展。
(文章来源:澎湃新闻)