全球热头条丨谷歌更新隐私政策 大模型“诸神之战”背后的训练数据隐忧
(资料图片)
“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的人工智能模型。”近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型,相关条款已于7月1日生效。
谷歌的这一动作引发争议,单方面通知用户的行为是否合法合规?此举又是否有“囤数据”之嫌?
此前,Twitter和社交网站Reddit已经采取措施,限制第三方对其API的访问。国外科技公司的一系列举措背后,可能是大模型发展路上一个不可忽视的真相:训练数据的重要性愈发显现。随着大模型产业的快速发展,出于市场竞争的需要,模型规模将快速膨胀,但同时可用于训练的数据供给相对不足,且未来日趋稀缺。
未来,数据或将成为AI发展的“兵家必争之地”。
“囤数据”训练AI模型
近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型。在隐私协议的“可公开获取的资源”一栏,谷歌提到:“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的人工智能模型。”该大模型将会为谷歌翻译、谷歌旗下聊天机器人产品“Bard”及Cloud AI等产品和功能提供助力。
对比去年年底发布的上一版隐私政策,谷歌将“收集信息以帮助训练语言模型”的相关措辞更改为“训练人工智能模型”,并新增明确了自家AI产品对于数据的使用权利。这似乎意味着,谷歌在训练旗下聊天机器人及其他AI模型,或未来开发AI产品的过程中,有权使用人们在网上公开发布的任意内容。
南方财经全媒体记者在检索后发现,7月5日,谷歌中文版隐私政策也已经进行同步更新。
在竞天公诚律师事务所合伙人袁立志看来,此次谷歌隐私政策的更新从实践角度看不算重大变化。“无论在我国还是域外,对公开数据的正常收集和使用,在一般情况下不算违法。”不过他补充道,如果个人通过发送邮件等方式向信息处理者就相关使用表露明确拒绝,对其个人信息的收集和使用就应当停止。
北京大成律师事务所高级合伙人邓志松也表示,就目前可获得的信息而言,谷歌对收集与处理用户个人信息的范围和目的作出了详细说明,即使以欧盟GDPR项下更为严格的“告知-同意”规则为标准,谷歌的这一收集与处理行为至少在形式上具有合法性。至于其实施过程中可能涉及的实质合法性判断,及由此可能对AI等行业产生的影响,则尚待进一步观察。
虽然此次更新并未对个人信息保护带来影响,但暗藏背后的数据隐忧却逐渐被公众注意到。
“得数据者得天下”
数据是数字经济时代的“新石油”,处在时代中的人工智能技术亦受其影响。
以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB;到了GPT-2,这个数据则增加至40GB;而在GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB。
“大模型时代,得数据者得天下。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣指出,一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续;另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。
需求渐长,供给端却并未马上配合。目前,有多家处在“数据提供端”的公司对数据抓取、开源等做出了反应。比如Twitter限制了用户每天能查看的推文数量,几乎使数据提供服务无法使用。马斯克表示,这是对“数据抓取”和“系统操纵”的必要反应。
今年1月,图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据。4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐。
同样在4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。此外,IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。
6月,中文在线、同方知网与中国工人出版社等国内25家文化出版机构发出共同倡议,强调“为人工智能学习模型提供可靠、稳定、安全的内容来源”等AIGC版权保护问题的重要性。
科技公司的系列动作,一定程度反映了数据的重要性。
在7月2日全球数字经济大会人工智能高峰论坛上,昆仑万维科技股份有限公司CEO方汉表示,高质量数据对大模型发展至关重要。
“坦白地讲,最近三年的大模型训练积累的是对丰富的预训练数据深度加工的能力。OpenAI所有公开的论文和讲演,对训练过程和训练算法都是公开的,但其从不公开模型结构及数据处理。”方汉指出,目前全世界大模型预训练团队都试图重现OpenAI在模型架构的动作以及预训练数据的动作,任何一家企业的预训练数据加工能力都至关重要。
数据稀缺、分散难题何解?
数据的重要性不言而喻,高质量数据更是稀缺品。
早在去年,一项来自Epoch Al Research团队的研究就揭示了一个残酷的事实:模型还要继续做大,但数据却不够用了。研究结果表明,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。
这意味着如果数据效率没有显著提高或没有新的数据源可用,那么到2040年,模型的规模增长将放缓。
百舸争流是市场竞争的常态,但过分竞争也有可能为行业带来灾难。限制数据抓取,很可能导致新一轮的数据大战,进而引发平台之间屏蔽、数据垄断等问题。
国际标准化组织TC/154技术专家王翔指出,大模型的蓬勃发展对训练数据提出了很高的数量和质量要求。在供给侧,人口增速、用网时间下降、制度性地理约束提高、高质量数据匮乏等都在制约大模型未来发展,SOP化和转发习惯也降低了供给能力;在需求侧,无论是主观治理思路还是客观基础设施条件,以及大型语言模型所有者应对市场的考量,都会持续强化数据垄断。
此外,大模型训练中,面对的高质量数据的稀缺、行业数据分散等问题应如何解决?
受访专家指出,未来健康的生态需要市场侧和监管侧等多方的共同建设维护。
“首先还是需要相信市场的力量”,袁立志指出,随着优质数据的需求逐渐显现,各个市场主体都会被“无形的手”推动向前。“数据资源的寻找、汇聚、清洗、标注等各个环节预计都会因竞争的活跃而不断改善,以满足市场需求。”他表示。
张欣则具体指出,目前行业内的开源数据集正在不断增多,未来应呼吁更多人工智能企业、从业者加入,建立更加良好的行业生态。“人工智能训练时的众包思路也非常重要。”她认为,企业之外,还可以善用技术社群的力量提升并开拓更多的高质量数据集。
而监管侧,在张欣看来,从法律法规层面明确训练数据集的合法性获取路径是监管下一步应当关注的重点。“只有明确了合法获取的路径,大模型训练者才有更稳定的合规预期以开展工作。”
袁立志认为,监管侧数据要素市场的建设深入会为大模型领域的发展带来良性影响。“数据要素市场建设走深意味着数据流通利用全流程提速提效,自然也惠及大模型的训练数据收集。”
(文章来源:21世纪经济报道)
标签:
- 全球热头条丨谷歌更新隐私政策 大模型“诸神之战”背后的训练数据隐忧
- 揭秘北斗,逐梦星辰 ——记国防科技大学电子科学学院北斗团队谢郁辰博士讲座-环球快看
- 天天热门:《失孤》原型郭刚堂之子被拐案将开庭,当事人:盼了20年等着看人贩受审
- 中国核电:上半年新能源发电量同比增长62.01%
- 玲娜贝儿价格已跌落神坛:二手价最高曾被炒至万元-每日看点
- 保隆科技(603197)7月5日主力资金净买入817.64万元_每日速读
- 飞龙股份7月5日打开涨停 环球快资讯
- 光大证券:经济企稳情绪缓释,港股迎来布局时机
- 任天堂Switch销量6月创纪录-今日看点
- 全球要闻:中国华能新能源装机规模突破6000万千瓦
- 国家药监局:加强网售平台监管 坚决打击网络交易违法违规行为 全球新视野
- 环球热资讯!机构策略:股指预计维持震荡格局 关注汽车、半导体等板块
- 古城“刮”起最酷海南风!2023年海南旅游推广活动走进西安|世界今头条
- 副中心这座亚洲最大全地下综合交通枢纽,又有新进展!_实时焦点
- 厦门象屿:7月4日融资买入1675.35万元,融资融券余额2.06亿元
- 超60亿元大生意!螺蛳粉、日式拉面都离不开它!这种罕见“山珍”卖爆了!
- 干萝卜丝的保存方法(干萝卜丝保质期多久) 每日简讯
- 被告是什么案件的称呼(被告是什么)_焦点关注
- 天天快资讯丨航空工业检测高标准服务客户
- 探访大国工匠 播种科技强国梦——娄底一小开展六年级毕业研学之旅-环球今头条
- 城市“伤疤”变成生态公园 废弃矿坑实现华丽转身|环球热讯
- 各地持续优化对农服务 加大科技投入守护“大国粮仓”
- 世界即时:优酷回应将注入阿里影业:不属实
- 无线OA_关于无线OA介绍
- 西安大雁塔内一女子推开保护罩让孩子摸文物 文物暂无损伤_环球今日讯
- 天天亮点!江山如此多娇 感受各地夏日美景的迷人魅力
- 全球今热点:基于FFMPEG+SDL的简单的视频播放器分析
- 航天机电(600151.SH):收到合营企业TRP PVE B.V.偿还委托贷款514.12万欧元 全球快讯
- 全球信息:三七互娱:上调回购价是为了更好地开展股权激励等工作丨公司问答
- 【世界报资讯】市领导调研城市更新工作
- 微波炉里能放锡箔纸加热吗_锡箔纸可以放到微波炉里面加热吗
- 15分钟内发生三起爆炸!美国警方悬赏捉拿袭击者-世界聚焦
- 游民金币兑换上新:STEAM充值卡、瑞幸29元饮品券等 天天观焦点
- 肝功能异常多久会肝癌
- 航拍中国感受山河涌动的蓬勃生机
- 少年白头发是什么原因(邓超白头发)
- 6月份我国物流业景气指数为51.7%-天天新动态
- 环球消息!青岛创新“停车场+”建设:在重点地段新增2.4万个车位
- 蜂巢能源IPO进程恢复!
- 视焦点讯!*ST全筑连收4个涨停板
- 仅3天时间完成动迁协议 “宁电入湘”工程送电线路衡南段拆迁顺利推进|今亮点
- 当前时讯:早间公告:四维图新与地平线签署战略合作框架协议
- 首个机器人配送服务平台“小力到家”发布:三年20亿营收
- 沪深股通|亿纬锂能7月3日获外资卖出0.07%股份
- 保障主干电网安全稳定运行,贵阳供电局完成500千伏线路带电作业 环球热讯
- 德邦快递如何转人工服务_德邦快递如何
- 与梅西重聚?罗马诺:迈阿密国际接触拉莫斯,将与两沙特球队竞争
- 造梦西游3朱雀怎么得视频_造梦西游3朱雀怎么得
- 便捷TWS也能支持1200Kbp超无损音质 iQOO TW1明日发布
- 全球速看:金诚信:子公司签订1.17亿美元项目合同
-
热讯:宏英智能:目前在工业机器人及智能机器人领域均有布局
公司目前在工业机器人及智能机器人领域均有布局,公司看好机器人的市场
-
2023年南宁西乡塘随迁子女小学报名材料
进城务工人员随迁子女报名材料:1 户口簿(如父母或其他法定监护人与适
-
我国七大江河流域将全面进入主汛期_环球微资讯
记者7月3日从应急管理部获悉,多方会商研判认为,7月份我国七大江河流
-
昨天涨停今天跌停是洗盘还是出货_股票昨天涨停今天跌停 天天快资讯
1、这个股票明天怎么走其实并不重要,但有一点可以肯定,这支票在今后
-
头条焦点:突发!日本东京市中心一栋大楼起火,已致至少4人受伤
据日本广播协会(NHK)报道,当地时间7月3日15时10分左右,日本东京新
-
天天即时:隔夜菜吃了真的会中毒吗?隔夜菜究竟能不能吃?真相它来咯!
首先要明确一点,我们常说的隔夜菜并不是如字面所说,是放置了一夜的饭
-
太平人寿衢州中心支公司营业场所变更获批 速看料
金融界消息,7月3日,浙江监管局发布《关于变更太平人寿保险有限公司衢
-
你有一笔钱到账,请注意查收!-世界简讯
你有一笔钱到账,请注意查收!,存款,结息,年利率,一笔钱,收入证明,住房
-
信息:基金调研丨淳厚基金调研山大地纬
根据披露的机构调研信息,6月30日,淳厚基金对上市公司山大地纬进行了
-
花心歌词花心完整歌词
“花心歌词花心完整歌词”这个话题是一个备受关注的话题,因为许多人喜
-
南通师范高等专科学校艺术类专业有哪些?
南通师范高等专科学校艺术类专业有艺术设计、美术教育、舞蹈表演、音乐
-
天龙挖宝图攻略(天龙挖宝)-全球快讯
来为大家解答以上问题。天龙挖宝图攻略,天龙挖宝这个很多人还不知道,
-
每日观点:dota2国服命令(dota2命令)
1、您好,您可以在国服客户端的DOTA2启动器的设置中点击“设置启动项”
-
每日速递:无障碍电子地图发布:可规划无障碍路线
深圳市残疾人联合会推出一款无障碍电子地图,专门为残障人士提供便利的
-
老北京西红柿打卤面的做法_西红柿打卤面的做法
你们好,最近小未来发现有诸多的小伙伴们对于老北京西红柿打卤面的做法
-
ChatGPT访问量或现负增长,市场担忧“人工智能泡沫” 焦点快报
据央视新闻,网站流量监测服务商Similarweb的数据显示,今年以来,Chat
-
爱情谜语大全及答案 爱情谜语大全及答案解析
爱情谜语大全及答案一直以来,爱情就像是一场迷,充满了无数的谜语和疑
-
7月3日国内BDO部分装置存检修计划
陕西陕化一期3万吨 年、二期10万吨 年BDO装置运行较稳定。BDO主供下游P
-
热门看点:车主自己训练常用路线 五菱『记忆行车』解析
所以,五菱联手老朋友大疆,用5,000元左右的微小成本,创新地做出了一
-
41股主力资金净流出超1亿元,科大讯飞、浪潮信息、华西股份净流出超5亿元 最资讯
7月3日盘中,Wind数据显示,41股主力资金净流出超1亿元,多只AI概念股
-
【世界快播报】下半年“开门红”!“造车新势力”股价走高,热门板块突然跳水
大家好,周一开工大吉!来一起关注上午的市场行情和最新资讯~ 进入
-
环球信息:郝军亮被任命为陕西环保产业集团董事长!
中国固废网获悉,近日,陕西省人民政府发布关于郝军亮任职的通知,陕西
-
海纳星空科技(08297)7月3日起停牌 以待发布年度业绩-天天报道
海纳星空科技(08297)公布,公司股份将自2023年7月3日(星期一)上午九时
-
【短视频】白银:开展特色课程 丰富校园文化
为进一步丰富校园文化生活,深化学校艺术特色教育,培养德智体美劳全面
-
【时快讯】诚方创世纪广场与西锦城买哪个合算?海南海口哪些楼盘值得买?
诚方创世纪广场与西锦城买哪个合算?海南海口哪些楼盘值得买?海南海口
-
报道:广东汕湛高速一辆大巴侧翻 无人员死亡或重伤
7月2日下午,汕湛高速河源市紫金县路段发生交通事故,一辆大巴侧翻。记
-
跨栏美女吴艳妮出圈,又一个超级网红即将诞生,感谢这个时代
全国田径锦标赛,女子100米栏冠军,吴艳妮霸屏了,原来冠军可以这样帅
-
全球观察:赫哲族第11届乌日贡大会在黑龙江抚远启幕
来自北京、哈尔滨、佳木斯、双鸭山等地的15支代表队队员参加了本次民
-
应急照明灯价格是多少钱_应急照明灯价格_全球要闻
1、普通双头消防应急照明灯在网上商城价处于30-60元,高级大型应急灯在
-
从露营徒步到围炉冰茶 “氛围感经济”解锁消费新场景|世界最新
【从露营徒步到围炉冰茶“氛围感经济”解锁消费新场景】近年来,大众消
-
天天观察:苏子油煎鸡蛋的功效_苏子油
1、直接饮用:将苏子油倒在勺子上直接食用,每次只需一小勺,一日三餐空
-
亲情骨折价重返快船 卡椒组合别辜负威少 请带他拿个总冠军吧
亲情骨折价重返快船卡椒组合别辜负威少请带他拿个总冠军吧,威少,湖人,
-
夏季赛单杀榜knght仅第六?小虎牙膏并列第二,第一竟然是他|世界观热点
8分钟Tarzan猴子来下路越塔,LNG成功打出一换二,omg下路对线结束。之
-
城市公园管理出新规 除安全需要外禁设“游人止步”等牌示
日前,为规范我市公园配套建筑及设施规划、建设、使用管理,进一步提升
-
天天滚动:全警出击 重拳整治!榆林公安机关扎实开展夏夜治安巡查宣防集中统一行动
6月30日晚,按照省公安厅、市公安局统一部署,全市公安机关扎实开展夏
-
【天天时快讯】不要抛弃我陈小春_离不开你陈小春
hello大家好,我是大学网网小航来为大家解答以上问题,不要抛弃我陈小
-
YouTube“挥刀”砍向广告拦截器:使用后仅能播放三个视频
YouTube“挥刀”砍向广告拦截器:使用后仅能播放三个视频
-
老城村_关于老城村介绍 环球今头条
1、老城村位于县境东部,东接会盟镇下古村,西连会盟镇陆村。2、南与邙
-
世界焦点!数实融合赋能实体经济 助力传统企业降本增效
数实融合赋能实体经济助力传统企业降本增效---随着新一轮科技革命和产
-
【美】一幢1800年建造的农舍的装修实践 天天视讯
在肯塔基州列克星敦附近有一个占地350英亩的农场,人们很难想象这是
-
【天天快播报】如果无线网络适配器没有显示连接怎么办
在日常生活中,当我们使用数字设备时,我们会遇到各种各样的问题,其中
-
为什么贷款买车比全款买车便宜很多?10年销售揭秘“4S店套路”!_速讯
先亮明身份,本人从事过近10年的一线汽车销售工作,也做过销售经理
-
女孩边充电边玩手机被电流击穿 双脚碳化截肢
日前,沈阳一名女孩小杨(化名)通过“支付宝”的“爱享租”小程序购买
-
暑期档票房或重回百亿时代 影投和院线双料龙头万达电影却股价低迷|世界焦点
暑期档的前战已经打赢。猫眼专业版显示,今年端午档总票房达9 11亿元,
-
环球动态:《边学边修小家电》合集。
,可点击图片放大看。《边学边修小家电》~1。《边学边修小家电》~2
-
首次!王室道歉
据荷兰国家公共广播电视台(NOS)当地时间7月1日报道,荷兰国王威廉-亚
-
又闷又湿!武汉接下来阵雨时时有,气温节节高
又闷又湿!武汉接下来阵雨时时有,气温节节高武汉市三天预报今天白天:
-
北京中轴线文化成为网络视听创作新焦点 世界独家
【文艺观潮】作者:邓秀军(北京外国语大学国际新闻与传播学院教授、博
-
文件加密忘记密码怎么解除手机(文件加密忘记密码怎么解除)
来为大家解答以下的问题,件加密忘记密码怎么解除手机,文件加密忘记密
-
快手电商产业扩张
6月26日,快手电商招商百城行系列活动亮相昆明,活动由快手电商商家发
X 关闭
X 关闭