每日播报!AI大模型数据被盗第一案?学而思和笔神作文“开撕”
6月13日,笔神作文发布“关于‘学而思’ AI大模型侵权事件的声明”。声明称,4月13日至17日,学而思通过“爬虫”技术非法访问、缓存笔神作文APP服务器数据多达258万次。严重侵犯了笔神作文APP的数据权益。
(资料图片)
对此,学而思官方微博发文回应称:“首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据;其次,‘作文AI助手’目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。”
6月14日,笔神作文再度发文,在这篇题为《学而思,你做了一次标准的扒库示范》的声明中,其表示“我们认为学而思方所述并非事实”,并列出了相关证据。
受访专家向记者分析,本次风波的实质是授权合同违约纠纷,涉及到对于合同授权范围条款的解释。AIGC产品获得训练模型数据授权是合规的根基。
学而思AI大模型疑盗取合作商数据?
“学而思在今年4月13日至4月17日,通过‘爬虫’技术非法访问、缓存笔神作文APP服务器数据多达258万次。”笔神作文在6月13日声明中表示。
笔神作文认为,这一行为不仅违反了双方的合同条款,也违反了《数据安全法》相关规定,严重侵犯了笔神作文APP的数据权益。事后其曾向学而思方面进行取证,并且对方承认是他们的算法组在爬取数据并作为己用,但在收到律师函后始终没有实质性答复。
记者了解到,笔神作文是隶属于北京一笔两划科技有限公司的品牌,据其官网介绍,笔神是一款人工智能辅助写作软件,拥有千万级写作素材库。笔神作文与学而思之间有着多年的合作基础。
笔神作文称,在不到一个月的时间,学而思的AI大模型MathGPT里包含的新产品“作文AI助手”就即将上线。疑似指后者作文AI产品使用了其数据。
笔神作文还表示会通过法律途径来维护自身权益,但目前国内并没有“AI大模型数据盗取”的判决先例。“希望学而思就此支付1元赔偿金,并公开道歉,同时删除已爬取的数据。”
各执一词:正常合作还是“扒库”行为?
6月13日晚,学而思发布声明,从三方面进行回应:
一是,学而思和笔神作文于2020年12月开始合作,合作协议明确约定:笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,每月保底费用包含的调用次数为百万次量级。合作至今,双方一直按照调用量进行正常结算。
二是,学而思对笔神作文接口的调用,属于双方合同约定的正常合作范围,对笔神素材内容的使用均符合合同要求,并未用于合同以外的任何用途。
三是,笔神作文在公开声明中提及学而思正在研发的数学大模型MathGPT以及学而思学习机“作文AI助手”,并主观揣测学而思使用其数据用于两款产品的训练和研发,这与事实严重不符。
“首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据;其次,作文AI助手目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。”学而思称。
6月14日,笔神作文发布《学而思,你做了一次标准的扒库示范》,表示“我们认为学而思方所述并非事实”,并列出相关证据。
笔神作文称,学而思在声明里提到调用数据为正常使用,笔神作文在合同中明确“甲方(注:三体云联公司)不得随意泄露、使用、传播或缓存乙方(注:一笔两划公司)服务接口中的作文范本及相关内容,否则造成的损失将由甲方全额赔偿”。同时,在合同中提出“甲方不得在未经乙方允许的情况下用于任何其他用途,包括缓存,存储,作为语料进行计算,训练等。”
但在2023年4月13日至4月17日之间,笔神作文检测到服务器接口出现大量有规律的异常访问,导致服务器承载压力快速升高。通过查阅服务器日志发现:三体云联公司未经一笔两划公司授权许可,用单一IP通过“爬虫”技术非法访问一笔两划公司服务器数据多达 258 万次。
(图源:笔神作文APP微信公众号)
“而且,从这个IP的访问日志来看,每次访问的搜索词都是作文相关的高频搜索词,我们每页会返回30篇作文,每次访问都是用搜索词从第一页逐页向后翻,这种方式基本上把库里同个题目的所有作文全部抓取完了,这种行为不是正常人使用的方式。而且很多访问的间隔都是100毫秒左右,也不可能是正常人访问的速度。”笔神作文表示。
(图源:笔神作文APP微信公众号)
笔神作文认为,这种对数据库的搜刮式访问,与以往正常的访问方式完全不同,按业内的通常说法,这就是一种典型的“扒库”行为。
网络安全专家陈业炫告诉记者,所谓“扒库”是一个口语化的形容词,用于形容大规模爬取数据。“数据爬虫过程中,爬取的规模大了、频率高了,就会被认为是非正常行为。通常情况下,高频率的请求,大规模、每一篇都会访问的遍历式行为都需引起关注。”
据陈业炫介绍,爬虫本身就是程序化的自动行为,比如每秒10次的访问量可以看作是超出普通用户的行为频率,正常用户不会大规模、高频率的访问相关网页。
在这个事件中,哪些行为是被允许的?哪些是不被允许的?“笔神允许相关合作方查询、查看数据,但是不能本地化存储用于机器学习的素材。”陈业炫说。
据笔神作文介绍,基于双方的合作精神,笔神作文自己的技术团队设计了完备的安全机制,正常情况下,可以防止黑客们进行爬虫攻击。而只有提供给合作伙伴学而思的接口是不设防的。
如何理解接口不设防?陈业炫介绍,笔神作文方面未对学而思设置反爬虫措施。“日常的合作中,开放数据的一方通常需要限制访问的行为,包括频率和总量,给自己留以一定的反应时间,以防全部数据被快速抓走。”
记者多次通过官方电话尝试联系事件双方,截至发稿前未得到回复。
AIGC伴生侵权风险 获得数据授权是关键
AIGC火爆出圈,与之伴生的侵权风险问题也引发各界关注。国家网信办今年4月发布的《生成式人工智能服务管理办法(征求意见稿)》提到,提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。用于生成式人工智能产品的预训练、优化训练数据不得含有侵犯知识产权的内容。
中伦律师事务所合伙人王飞指出,以ChatGPT为代表的生成式AI,底层是一款通用的自然语言生成模型,通过互联网海量的语料库训练,对语言文本进行概率建模来预测下一段输出内容的概率,从而实现根据用户输入的文字内容生成对应文字回答的功能。
具体到本次学而思和笔神作文的“AI大模型数据窃取”风波,王飞表示,这个事件实质是授权合同违约纠纷,涉及到对于合同授权范围条款的解释。AIGC产品获得训练模型数据授权是合规的根基,授权的内容和范围、使用的形式等一般会在签订授权合同时予以明晰,但鉴于AIGC作为新生产物,怎样进行约定还要再进行探索,也会是未来AIGC产品纠纷产生的主要原因之一。
陕西华格律师事务所律师葛伟超也认为,这主要是基于合同目的而产生的问题。“双方可能会因为合同中关于数据使用的范围、方式、程度等条款约定不明产生不同理解,而对簿公堂。”
那么,构成AI大模型“数据盗取”行为,有哪些主要的判断因素?
“AI数据抓取案件本质上与近年来司法判决的典型数据抓取案件并无差别,都需要判断抓取数据行为是否损害数据持有者的商业利益与市场竞争优势、是否属于未经许可使用他人劳动成果、是否违背商业道德、抓取数据是否有合理理由。”王飞说。
在法律责任方面,葛伟超指出,利用抓取技术破坏他人市场竞争优势,具有并存在为自己谋取竞争优势的主观故意,违反诚实信用原则,扰乱竞争秩序的数据抓取行为,可能构成不正当竞争行为。同时也直接违反了《数据安全法》相关规定。
“如果合作协议中有约定违约责任条款,则依其处理。如果没有约定该种情形,则属于侵权范围,要承担相应侵权责任,包括但不限于赔礼道歉、停止侵权、赔偿损失等。”葛伟超说。
大模型的开发离不开海量数据(603138)助力。当前,数据来源的知识产权已经成为大模型发展的阿喀琉斯之踵。AI模型开发主体以何种方式、需要承担何种程度的法律义务以获取训练数据,是当前产业需要解决的核心问题。
值得关注的是,传统的“授权许可模式”对于大模型的数据训练存在天然困境,不仅在于实操层面难以落地,更在于对产业研发的长期影响。业界有观点认为,可以将数据纳入合理使用的范畴进行规制。
目前来看,日本、英国、欧盟等已对将数据挖掘作为合理使用的情形进行了立法确认:日本以“计算机信息分析”的名义规定了文本数据挖掘的著作权例外,英国同样引入文本和数据挖掘的版权许可或例外情况,欧盟则选择“非科研目的”例外的谨慎方案。中国业内也在探讨是否可以通过数据的合理使用解决数据权属带来的问题。
对于如何厘清数据合理使用和保护的边界,葛伟超认为,“首先,要明确拥有数据的经营者权利,即拥有数据所有权还是数据用益权。其次,明确数据抓取行为的性质。再次,明确该种行为损害的法益是数据财产还是竞争优势。最后,需要明确规制该种行为到底适用于竞争法、民法、或者著作权法的保护。”
标签:
您可能也感兴趣:
为您推荐
这一AI细分领域受关注!近一个月涨超20% 相关公司积极回应产品布局
世界快讯:6月16日龙虎榜:2.36亿抢筹光库科技 机构净买入14只股
马云近况曝光:过得很好、很开心!AI惊现“罗生门” 谷歌在害怕什么?
排行
精彩推送
- 每日播报!AI大模型数据被盗第一案?学而思和笔神作文“开撕”
- 贵阳邮政:打通大动脉 疏通微循环|每日头条
- Global licensing industry optimistic about Chinese market
- 6月16日晚间沪深上市公司重大事项公告最新快递
- 这一AI细分领域受关注!近一个月涨超20% 相关公司积极回应产品布局
- 腾景科技涨16.25% 机构净卖出1895万元
- 广州银行聚力供应链金融,畅通企业融资渠道
- 生态环境部声明:从未授权任何单位或个人开展“生态环境导向...
- 世界快讯:6月16日龙虎榜:2.36亿抢筹光库科技 机构净买入14只股
- 马云近况曝光:过得很好、很开心!AI惊现“罗生门” 谷歌在...
- meqzone c_meqzone 焦点热文
- 恒勃股份龙虎榜:机构净卖出2490万元_环球信息
- 谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备...
- 焦点热门:本赛季对于哈弗茨来说是一个非常特殊的赛季
- 世界热文:佛山高明西江新城三宗商住地终止出让 起拍价合计...
- 全球热点!美国5000亿芯片巨头宣布:将对西安投资超43亿
- 要闻:深交所:本周对近期涨幅异常的鸿博股份、铭普光磁重点监控
- 天天快看:普瑞眼科跌3.88% 某券商在其高点喊买入
- 网络游戏板块涨1.31% 昆仑万维涨11.64%居首 世界聚看点
- 云赛智联涨10.03% 机构净卖出5987万元
- 今日港币对人民币汇率是多少(2023年6月16日)
- 豪江智能跌7.22% 机构净卖出6963万元 天天热文
- 今日热闻!人民币兑换韩元今日汇率(2023年6月16日)
- 环球速读:奇门遁甲教学( 6)种类有哪些?大禹风水
- 世界微速讯:宝新能源跌6.08% 机构净卖出8174万元
- 今日人民币兑加元最新汇率(2023年6月16日) 世界时快讯
- 新币换人民币行情查询(2023年6月16日) 世界最新
- 要懂汇:外汇圈的监管牌照,是对付黑平台和无法出金的利器?
- 李嘉诚在英国又有大动作,打造千亿电讯巨头,成英国第三大电讯商
- 安徽省养老服务机构用电用水用气用热执行居民价格 天天百事通
- 财政部:1-5月证券交易印花税收入891亿元 同比下降36.9%_每日快讯
- 6月16日涨停复盘:华西股份5天4板 光库科技20CM涨停
- 世界微头条丨【新时代 新征程 新伟业】甘州:“人工肾”建...
- 反弹继续!北向资金两天爆买近200亿 什么信号? 天天即时看
- 世界消息!ChatGPT概念板块涨2.12% 鼎捷软件涨20.02%居首
- 正荣地产港股涨21.43%-全球最资讯
- 半导体板块涨0.81% 金百泽涨6.92%居首
- 迪阿股份跌2.1% IPO超募32亿上市即巅峰
- 碳中和板块涨0.94% 川润股份涨10.06%居首
- 新任国防部新闻发言人张晓刚亮相-天天新视野
- 环球关注:安徽即将“入梅”!时间在……
- 民航局:预计今年暑运期间日均运输国内旅客183万人次
- 四川内江再通报“城管与摊贩冲突”:1名涉事巡查人员被解聘
- 全国共查处涉企违规收费金额达50多亿元
- 中日青年交流中心世纪剧院因未制止禁演行为被罚10万元
- 世界观速讯丨民航局:提升千万级以上机场航班近机位靠桥率
- 欧委会称将不再采购华为中兴设备 外交部:有罪推定、坚决反对
- 光库科技涨20.00%|世界报资讯
- 每日速读!紫牛聊斋丨勇于不敢 也能救人?
- 久远银海涨停
- 建科机械涨20.01% 每日焦点
- 全球讯息:博创科技涨15.31%
- 天通股份涨停_聚焦
- 今日观点!“老赖”被“限高”后用护照买机票,法院:拘留14日!
- 美国数个政府机构遭到黑客攻击
- 第十八届中国曲阜鲁班文化节启幕 纪念工圣鲁班诞辰2530周年
- 盖茨基金会承诺未来五年向GHDDI提供5000万美元捐赠
- 环球最资讯丨民航局:5月份全行业完成运输航空飞行104.1万小时
- 全球快播:2023年5月上旬(第21周)主要宏观经济数据发布
- 王府井行业地位怎么样?王府井最新股票行情介绍
- 聚美优品创始人陈欧是哪里人?聚美优品创始人陈欧情况介绍
- 山东路桥是一家什么企业?山东路桥行业口碑怎么样?
- 今热点:童年的发现课堂反思
- 世界短讯!安立美美
- 【天天播资讯】“最牛”赛道又涨疯了!光模块高歌猛进 光库...
- 世界百事通!第33个全国节能宣传周将在广州举行启动仪式
- 发改委:今年迎峰度夏电力保供有坚实基础 环球速读
- 招商证券隶属于哪个集团?招商证券行业口碑怎么样?
- 致3死1重伤!中煤集团山西一煤矿被停产整顿
- 城建发展成立于哪一年?城建发展主要产品是什么?
- 驾照到期了如何换新驾照(驾照到期了如何换新驾照体检检查什么)
- 每日聚焦:光伏新股六连涨 上半年盈利翻倍!产业链价格或将...
- 孔融为什么变坏了? “孔融之死”是他活该吗?因他一个举动...
- 让洮河水清河畅_环球快讯
- 一则消息 工业互联网概念飙升!龙头2天2板 业绩有望高增股出炉
- 欧元美元保持完好的上扬姿态|世界观热点
- 日本央行维持利率决议不变 美日文章上涨 当前速读
- 美元指数上涨后遇阻
- 每日短讯:美国“恐怖数据”打击鹰派 美元大跌险破102
- 【环球播资讯】猿辅导成立小猿智能科技公司
- 1-5月,全国规模以上工业发电同比增长3.9%_关注
- 中科院:自主研制新一代人工智能大模型问世
- 浙江农林大学:“毕业论文”成熟了
- 1-5月全国吸收外资5748.1亿元人民币 同比增长0.1%_环球热头条
- 世界头条:怡和嘉业:6月15日融券净卖出7100股,连续3日累计...
- 宝泰隆成立于哪一年?宝泰隆主要产品是什么?
- “夏季达沃斯论坛”将于6月27日至29日在天津举行
- 突发!“20CM跌停” 股民大呼“吃面”
- 东南网架不超20亿可转债获深交所通过 开源证券建功
- 商务部回应今年以来我国出口承压情况-每日热文
- 大名城是一家什么公司?大名城主要产品是什么?
- 速看:午评:三大指数集体收涨 计算机应用板块领涨
- 时代出版是一家什么公司?时代出版行业口碑怎么样?
- 高斯贝尔主要产品是什么?高斯贝尔行业口碑怎么样?
- 华创证券北京某营业部一经纪人收警示函 返佣吸引开户
- 天天快资讯丨房屋评估价格与市场价格(房屋评估价)
- 华懋科技不超10.5亿可转债获上交所通过 申港证券建功
- 先有鸡还是先有蛋?英国科学家解答:先有鸡 报道
- 天津南开区填补空白!区块链技术赋能知识产权保护_当前头条
- 国家发改委:将加紧制定出台关于恢复和扩大消费的政策文件|环...