你的开源代码正在被悄悄变现,而你连一句“谢谢”都没收到。2022年我撰文探讨GitHub Copilot的法律隐患,如今我已重操旧业,作为加州执业律师联手顶级律所,准备对微软发起集体诉讼——这场官司可能重新定义开源世界的游戏规则。
训练数据从哪里来
微软将Copilot的训练数据含糊其辞地称作“数十亿行公共代码”。但Copilot研究员Eddie在近期播客中证实,这些数据实际上就是GitHub上的公共仓库。这意味着你的开源项目很可能已被纳入训练集,却没有收到任何通知。
绝大多数开源软件包都带有明确授权许可,要求使用者保留源代码属性。微软若想在每个repo的许可下使用这些代码,就必须发布海量的attribution信息。但他们选择了沉默,直接把你的代码变成了AI的养料。
合理使用是个伪命题
前GitHub CEO Nat Friedman曾坚称“在公开数据上训练AI属于合理使用”,并声称存在相应的法理支持。但当我们2021年私下询问其法律依据时,微软方面却拿不出任何可靠的法律参考。
目前美国尚无判例直接解决AI训练的合理使用问题。即便未来部分训练被认定为合理使用,也未必涵盖商业性质的代码生成。把开源代码喂给AI赚钱,这跟“合理”二字沾边吗?
输出代码藏着多少雷
Nat Friedman把Copilot比作编译器,声称输出归操作者所有。但微软同时声明,对生成代码的安全性、正确性和知识产权问题不做任何担保。这种两头堵的说法,让用户成了实际上的风险承担者。
已有用户发现,Copilot可能从可识别repo中逐字复制代码。更糟的是,用户看不到代码来源、作者和许可信息,根本无法履行开源协议中的义务。用着别人的代码却不知该感谢谁,这不是坑人吗?
开源生态正在被掏空
通过打造Copilot这个便捷的替代界面,微软实际上切断了开源作者与用户之间的法律联系。你的issue tracker、邮件列表、discussion board正在被用户遗忘,他们的注意力都流向了微软的围墙花园。
这种能量的转移对开源社区是永久性损失。Scott Guthrie最近承认,尽管Satya Nadella承诺GitHub保持开放,微软仍在推动更多服务迁入Azure。开源项目赖以生存的社区互动,正在被悄无声息地边缘化。
奶牛吃不到自己的草
开源作者发布代码的回报本应是围绕项目形成的人的网络——用户、测试者和贡献者。他们帮助我们把软件打磨得更好,让工作变得有趣。但现在,Copilot把这一切都藏进了巨大的代码库。
一位开发者感慨:“即使是奶牛也能从交易中获得食物和住所,而Copilot对我们的个人项目没有任何贡献。”生于2005年前的你一定记得,GitHub的声誉正是建立在为开源开发者提供价值的基础上的。
还有更好的选择吗
我们反对的不是AI编程工具本身,而是微软的具体选择。完全可以设计一个对开源友好的Copilot:让参与变成自愿,或者给训练语料贡献者提供报酬。但微软没有这么做,尽管他们自称热爱开源。
Copilot的价值恰恰来自底层开源训练数据的质量。从开源项目中汲取生命,最终只会让Copilot本身变差。回顾微软与开源的曲折历史,Copilot的本质或许就是寄生虫。在伤害无法弥补前,我们必须用法律来测试它的合法性。
你愿意让自己的开源代码继续无偿喂养AI吗?欢迎在评论区分享你的遭遇和看法,点赞让更多开发者看到这个正在发生的侵权真相!



