gray and brown stones on gray ground

人工智能时代的版权难题

生成式人工智能工具的兴起重新点燃了关于版权法、所有权和创新的长期辩论。
首页 » 博客 » 人工智能时代的版权难题

生成式人工智能使创新与知识产权相对立,但实际的解决方案仍然难以捉摸。

生成式人工智能工具的兴起重新点燃了关于版权法、所有权和创新的长期辩论。在最近的播客中,加州大学伯克利分校理查德·M·谢尔曼杰出法律教授帕梅拉·萨缪尔森深入探讨了人工智能系统对现有知识产权制度构成的复杂挑战。作为数字版权的先驱和作家联盟的联合创始人,萨缪尔森揭示了监管机构、创作者和人工智能开发者共同面临的实际困难。

问题的核心在于数据来源和透明度问题。生成式人工智能模型通常在庞大的数据集上进行训练,这些数据集通常包含从互联网上抓取的数十亿作品。许多政策制定者,尤其是在欧洲,根据拟议的人工智能法案,正在推动强制披露训练数据集中使用的受版权保护的作品。然而,正如萨缪尔森所说,这些措施对人工智能领域采取了过于简单的看法。

规模和可行性问题

人工智能训练数据集是巨大的,通常包含公开可用的互联网数据。像谷歌和Meta这样的大公司可能会遵守严格的透明度规则,但萨缪尔森强调,人工智能开发远远超出硅谷巨头的范围。小型初创公司、非营利组织甚至独立研究人员都依赖开源数据集,例如Common Crawl,来构建他们的模型。要求他们保留和披露每个数据来源的精确记录是不切实际的,并且会扼杀竞争和创新。

此外,训练过程本身使问题复杂化。人工智能模型不复制受版权保护的作品;它们将数据标记化为抽象的数字表示——类似于拆卸乐高战舰并使用积木建造埃菲尔铁塔。输入数据不再以可识别的形式存在,使得直接侵犯版权的主张充其量是站不住脚的。正如萨缪尔森解释的那样,生成式人工智能“学习”来自数据集的模式,而不是复制底层内容,这与文艺复兴时期的艺术家研究手以提高他们的技艺有异曲同工之妙。

man selling fruits
图片由 Tim MossholderUnsplash 上拍摄

许可:难以推销

集体许可已被吹捧为补偿其作品在人工智能训练中被使用的作者的潜在解决方案。欧洲凭借其在音乐和出版领域的集体许可的悠久历史,认为这种机制是可行的。然而,萨缪尔森概述了为什么这种方法在人工智能背景下会失败。

数据的庞大数量——数十亿的作品,其中许多作品的商业价值可以忽略不计——使得校准付款几乎不可能。想象一下,一个收款协会试图向数百万作者分配几美分的零头;行政成本可能超过实际支付额。此外,许可制度预先假定输入和输出之间存在明确的区别,但人工智能模型通常会在学习后丢弃训练数据集,这进一步复杂化了赔偿主张。

更根本的是,强制要求互联网抓取数据许可可能会开创危险的先例。多年来,网络爬虫一直在法律范围内运作,支撑着搜索引擎等创新。突然转向强制许可可能会追溯性地将常见的做法定为犯罪,给开发者带来不确定性,并扼杀技术进步。

作者身份问题

在输出方面,人工智能生成作品引发了关于作者身份的问题。人工智能可以被认为是创意作品的作者吗?萨缪尔森明确驳斥了这种观点。她解释说,美国版权法要求人类创造力作为保护的先决条件——最高法院重申了这一原则。然而,她承认存在边缘情况:如果人类提供详细的提示并迭代地改进人工智能生成作品,则最终输出可能达到作者身份的门槛。

这种区别对于电影和音乐等行业尤为重要,在这些行业中,计算机生成的内容长期以来与人类创造力共存。例如,好莱坞制片厂利用 CGI 来增强视觉叙事,但仍然对最终产品主张版权。正如萨缪尔森指出的那样,取消人工智能辅助作品资格的僵化政策可能会破坏那些已将技术无缝集成到创作过程中的行业。

person on balance board
图片由 Gustavo TorresUnsplash 上拍摄

走向平衡的框架

萨缪尔森的见解强调需要细致入微、切合实际的法规,以反映人工智能开发的现实。虽然透明度和补偿是合理的担忧,但解决方案必须平衡创作者的利益与促进创新的必要性。过度监管可能会巩固现有企业并边缘化新进入者,扼杀推动技术进步的竞争。

欧洲的人工智能法案可能预示着未来的发展方向:对透明度的全面要求,但不会施加令人难以承受的合规负担。然而,正如萨缪尔森警告的那样,政策制定者必须抵制将人工智能拟人化或强加更适合传统行业的解决方案的诱惑。

生成式人工智能代表了技术的变革性飞跃——一种工具,就像印刷机或摄影一样,将重塑创意产业。萨缪尔森并不认为人工智能是一种威胁,而是倡导认识到它赋予人类创造者权力的潜力。因此,监管机构的任务是制定政策,鼓励创新,同时确保创作者在这个新的数字时代得到公平的价值体现。

收听完整播客节目或查看文字稿

如果您喜欢这篇文章,您可能也会喜欢这些