以前缺乏开源标准是一个问题。尽管我们知道，OpenAI Anthropic决定对其模型、数据集和算法保密，这使它们的人工智能成为闭源，但一些专家认为，Meta 和谷歌的免费访问模型（开放给任何人检查和调整）也不是真正意义上的开源，因为许可证限制了用户使用模型的权限，而且训练数据集也没有公开。我们已联系Meta、谷歌和OpenAI，请他们对新定义做出回应，但他们在本报告发布前还未做出回复。

人工智能模型构建和共享平台Hugging Face的应用政策研究员 Avijit Ghosh说，“众所周知，一些公司在营销其模型时滥用了这一术语。”即使研究人员无法独立调查模型是否真的是开源模型，但将模型描述为开源模型可能会使其被认为更值得信赖。

Mozilla高级顾问、OSI 流程参与者Ayah Bdeir说，开源定义的某些部分比较容易达成一致，如需要披露模型权重（有助于决定人工智能模型如何生成输出的参数）。讨论的其他部分争议较大，特别是关于如何公开培训数据的问题。

训练数据来源的不透明已经导致了针对大型人工智能公司的无数诉讼，比如OpenAI这样的大型语言模型制造商、Suno这样的音乐生成器，这些公司除了说它们包含“可公开获取的信息”之外，并没有披露太多关于训练集的信息。对此，一些倡导者表示，开源模型应公开其所有训练集，但Bdeir表示，由于版权和数据所有权等问题，这一标准很难执行。

最终，新定义要求开源模型提供的训练数据信息必须达到“熟练人员可以使用相同或类似数据重新创建一个基本等同的系统”这一程度。这并不是共享所有训练数据集的全部要求，但也比目前许多专有模型甚至表面上的开源模型做得更进一步。这是一种妥协。

Bdeir说：“坚持一种意识形态上纯朴的黄金标准，实际上任何人都无法有效地达到这一标准，最终会适得其反。”她补充说，OSI正在计划建立某种执行机制，对那些被描述为开源但不符合其定义的模型进行标记。它还计划发布一份符合新定义的人工智能模型清单。目前还没有任何一款产品得到确认，Bdeir向《麻省理工科技评论》透露，预计将上榜的产品都是一些相对较小的型号，如 Eleuther公司的Pythia 、Ai2公司的OLMo以及开源团体LLM360的产品。

资讯总结：

开放源码倡议组织发布了开源AI的定义，希望能帮助立法者制定法规，保护消费者免受人工智能风险的侵害。

特别说明：本文内容仅供学习交流使用，如有侵权请后台联系小编删除。

机器翻译，轻度译后编辑，仅供参考

– END –

Was it helpful ?

还有问题？我们能帮忙吗？

我们对开源人工智能有了定义

分享

其他推荐

活动预告 | 《人工智能赋能口译》新书发布暨读书会活动启动

精品课程 | 大语言模型赋能本地化项目实战工作坊报名开启

北京外国语大学2026年博士研究生招生简章

行业动态｜2025年语言服务40人论坛三号通知（更新）

详细议程 | 2025中国翻译协会翻译技术专业委员会年会即将举办

赋能未来 | 大模型赋能视听翻译实战工作坊

双十二特惠｜99元“外语+”技术年度会员，前100位报名即赠AIPE最新教材

行业动态 | 速看！谷歌发布开源医学语音转文本模型MedASR

行业洞见 | 速看！语言类就业市场如何？看看点击量名列前茅的职位有哪些

资源干货 |《如何增强语言技能》：AI时代，翻译教育的增强之道

我们对开源人工智能有了定义

Was it helpful ?

发表评论取消回复

领先技术，赋能语言服务

我们对开源人工智能有了定义

分享

其他推荐

我们对开源人工智能有了定义

Was it helpful ?

需要什么帮助？

发表评论 取消回复

发表评论取消回复