ChatGPT陷入安全危机-成也数据伤也数据

2023-04-06 10:05:58发表 作者:剑鬼非人哉

ChatGPT陷入安全危机,成也数据伤也数据。ChatGPT正在卷入一又一个争论中。对于数据安全性问题,主要有三个方面:一是数据合法性问题,二是数据使用问题,三是个人信息保护问题。为保障数据安全性,开发人员必须采取措施,以保证训练数据的隐私性。

新闻详情

这两天,本来一路高歌猛进的 ChatGPT突然跌入了舆论风口浪尖。

上个周末,意大利先是对 ChatGPT进行了临时禁令,禁止其对国内用户的信息进行处理。随后,韩国媒体报导,在三星引入芯片ChatGPT不足20天后,机密数据被泄露。之后,又传出了 ChatGPT目前已停止注册的消息,并开始大范围的封号,四月二日在亚洲全面封号。

围绕着 ChatGPT的争论仍在持续着,而这一波接一波的事件中,无论是封杀,还是泄密,又或者封号,都有一个共同点,那就是数据安全。事实上,自 ChatGPT开始流行至今,其数据安全性始终是人们关注的焦点,而此时,其数据安全性已经不可避免地成为了现实问题。

ChatGPT陷入安全危机

封杀、泄密、封号

意大利对中国烟草公司的禁令来得太突然了。

三月三十一日,意大利个人资料保护局宣布,从今天开始,将禁止名为 ChatGPT的聊天机器人的使用,并对 OpenAl对意大利用户的资料进行处理也将受到限制。这也是世界上首个明确规定对其进行“封杀”的西方国家。

之所以颁布这项禁令,是因为意大利官员认为, OpenAI并未对至少应为13岁的 ChatGPT用户的年龄进行审查,而且也未对用户信息的收集与处理作出任何通知,因此在大规模收集与储存个人信息方面缺乏法律依据。

这是真的, ChatGPT没有被冤枉。ChatGPT在最近发生了“用户对话数据和支付服务的支付信息丢失”的事件。而这条消息,也得到了 OpenAI的官方证实。

不仅如此,最近,国际巨头三星公司的 ChatGPT也出了问题,三星公司引入 ChatGPT不到二十天,便爆出三条关于半导体设备测量数据、产品良率等机密数据泄露,网上有传言称这三条数据已经被存储在了 ChatGPT公司的数据库里。

这条消息一出,立刻在网络上引起了轩然大波,韩媒体更是指出,由于三星公司的员工向 ChatGPT中输入了公司的机密信息,导致相关内容被存储在了学习数据库中。三星称,为防止类似事件重演,已告诫其员工谨慎使用ChatGPT。如果此后仍有类似的事件发生,公司内部网络将会被禁止使用ChatGPT。

事实上,从开发之初,关于 ChatGPT可能会泄露公司数据的担心就从未停止过。据 Cyberhaven统计,在160万打工者中,有8.2%曾经在工作场合使用过它,很多人说,由于使用了它,他们的生产力“提高了10倍”。与此同时,6.5%的雇员说他们会把企业数据拷贝到ChatGPT中,3.1%的雇员说他们曾经把企业机密数据存入ChatGPT。

相应地,越来越多的公司由于担心机密数据泄露而禁止其员工使用 ChatGPT,如摩根大通,美国银行,花旗,高盛,德意志银行等等。软银最近还通知了所有员工,关于禁止向 ChatGPT输入机密信息的警告。看起来, ChatGPT确实可以提高生产力,但是它也确实可以将对话内容用作训练数据。

就在 ChatGPT被封杀,机密被泄露的时候,又有大量的账号被封。4月2号,各大社交平台上都出现了关于 ChatGPT官方大范围封号的消息,特别是针对亚洲的用户。根据他收集到的信息,并不是所有的账号都被影响了,有的能成功登陆,有的只能登陆手机,有的则无法登陆。但是,对 ChatGPT来说,一场大规模的封杀行动似乎正在展开。市场调查显示,数以百万计的用户帐号受此影响。关于新用户的注册,目前已经无法进入注册页面,更重要的是,许多收取代码的平台已经在近期关闭。

除了 ChatGPT之外,3月30日,据国外媒体报道,目前最流行的 AI绘画工具—— Midjourney,已经停止了免费使用。它的创立者和首席执行官大卫·霍尔兹在接受采访时说,这一举措主要是由于大量的新用户涌入。David Holz在一篇名为“Discord”的社交软件中提到了“怪异需求和试用滥用”。

从封杀到泄密再到封号, ChatGPT正被卷入一个又一个争论中。

ChatGPT陷入安全危机

成于数据,伤于数据

其成功的关键在于大数据的辅助。ChatGPT模型是基于大量的会话数据来训练的,这些数据来自于社会媒体,公众论坛和其他一些未知的渠道。通过大量数据的训练, ChatGPT才能取得如此优异的性能。

但是,它还意味着,这个模型一直处于各种可能含有相关敏感信息的对话之中。每一次升级都会带来新的谈话内容,以及隐私泄漏的新风险。为保障数据安全性,开发人员必须采取措施,以保证训练数据的隐私性。然而,事实却并不是这样。

由 ChatGPT引发的数据安全性问题主要有三个方面。首先,他要解决的就是这些数据的合法性问题。如 ChatGPT等大规模语言模型的训练需要海量的自然语言数据,训练数据主要来源于互联网,而开发者 OpenAI对数据来源未作明确说明,使得训练数据的合法性受到质疑。

欧洲数据保护委员会(European Data Commission Council)委员亚历山大·汉夫(Alexander Hanff)认为,“数据包”是一项商业性产品,尽管因特网上有很多可供查阅的信息,但是,在含有“禁止第三方数据爬取”条款的网站上收集大量数据,却违反了相关规定,不构成合理使用。国际机器学习会议 ICML说,尽管 ChatGPT接受了公开数据的培训,但是他们经常未经同意就收集了这些数据。此外,还有一些个人信息受到了 GDPR等的保护,因此,爬取这些信息是违法的。

其次,就是使用该酶的过程中产生的数据泄露问题。目前, ChatGPT并没有对用户群体进行太多的筛选,只要满足了基本条件,就可以注册成为用户。此外,用户在使用 ChatGPT之前,也不需要经过专门的培训,因此,它对用户的使用没有任何限制。这就是说,用户可以很随意、很开放的使用 ChatGPT。

因此,当用户为完成某种任务或实现某种目标时,可能会输入一些敏感数据、商业秘密甚至机密信息,一个不注意就可能导致数据泄露。就像三星最近担心的那样,数据一旦输入,将会被收集并使用,并且无法删除或更改。

三月底, ChatGPT被曝出存在漏洞,会造成用户聊天记录、付款信息的丢失。这种情况曾一度造成 ChatGPT的暂时停业。在回应中, OpenAI称,该漏洞可能会使1.2%的 ChatGPT+用户在9小时内的付款信息泄露。而且,这个漏洞还会让其他人看到用户的聊天内容和聊天记录,如果里面有隐私信息,就有被泄露的危险。

最后,还有可能被恶意利用的 ChatGPT数据。OpenAI首席技术官米拉·穆拉蒂表示,有人可能利用 ChatGPT的自然语言编写功能,编写出一套可以规避反病毒软件侦测的恶意程序;使用 ChatGPT的编写功能,可以生成钓鱼邮件;利用 ChatGPT的对话功能,冒充真实的个人或组织骗取他人信息等。

数据安全风险的防范

为了保证数据的安全,最好的办法就是将数据从物理上隔离开来,让数据成为“死”的,这才是最“安全”的。但这会让数据失去价值,因为数据的流动、共享和处理,都是有价值的。

数据安全治理的核心是保证数据的安全、可控制性和使用性,使其发挥价值。换言之,数据本身是无罪的,它不能得到安全的保护和使用。换言之,要实现数据安全性,关键在于具体的实现方式与管理手段。

因此,如何保证数据授权,明确数据安全责任和科技公司义务,以及如何避免隐私泄露和知识产权等风险,是人工智能大规模进入公共领域后必须要解决的首要问题。

可见,“数据本位”是数据安全工作的核心技术理念。这意味着,以数据的防窃取、防滥用、防误用为主线,以数据生命周期内各不同环节所涉及的信息系统、运行环境、业务场景和操作人员等为围绕数据安全保护的支撑。此外,数据要素的所有权,使用,监管,信息保护,数据安全,都需要新的治理制度。这就要求“划清红线”,以规范体系为基础。例如,明确开发人员、使用人员等主体的责任划分与承担方式;落实数据分类分级制度,明确数据获取方式与方法的法律法规。

其次,数据安全的实现有赖于“用数字化治理”,即用数字化和智能化技术来优化数据安全的技术系统,从而提高数据安全的治理能力。例如,在数据安全遵从体系中引入 ChatGPT语言训练方法和算法遵从,加强技术监管,并定期开展安全审计。

实际上,在数据生命周期的各个阶段,数据所面临的安全威胁以及所能采取的安全措施都是不同的。在数据收集阶段,可能会出现收集到的数据直接被攻击者窃取,或个人生物特征数据被非法储存并面临泄露的风险;在数据存储阶段,可能会出现存储系统受到入侵,进而导致数据被盗,或存储设备丢失导致数据泄露等情况;在数据处理过程中,由于算法的不当,可能会导致用户个人信息的泄露等问题。

针对不同阶段、不同视角的风险,对其进行“对症下药”,完善“治理技术”、“治理手段”和“治理模式”,可有效实现“超大尺度协同”、“精准滴灌”、“双向触达”和“超时空预判”。

实现数据安全性不仅需要从上而下,而且需要从下而上。数据安全治理的核心目标是在安全和发展之间找到一个平衡点。在这方面,需要让企业有动力去提升和证明自身数据安全能力成熟度水平,让数据安全能力成熟度高的企业拥有更大的发展空间和竞争优势。另一方面,应加强对用户数据安全风险的认识,并制定相应的安全规范。

随着人工智能技术的飞速发展,数据作为战略资源的基本属性越来越突出。在数据安全管理方面, ChatGPT只是第一步,而且是不可避免的重要步骤。

0
网友评论
  • 😊
  • 😂
  • ❤
  • 😭
  • 😍
  • 😘
  • 🙄
  • 💀
  • 😫
  • 🤔
没有符合条件的内容