韩国学生质疑华为大模型套壳抄袭 华为回应(组图)

华为最新开源的盘古(Pangu)AI大模型,正深陷一场技术与伦理的风暴中心。

一场关于其核心技术是否“套壳抄袭”阿里巴巴通义千问(Qwen)模型的指控,已迅速从开发者社区的窃窃私语演变为行业瞩目的公开事件。华为于2025年7月5日发布官方声明,坚决否认了增量训练或抄袭的说法,并强调其行为严格遵循开源许可。但这起争议的意义已远超个案本身,它如同一面棱镜,折射出当前全球人工智能领域在“开源”旗帜下的模糊边界、信任困境与秩序重构的迫切需求。

一场由“指纹”引发的“血统”追问争议的导火索是一份于7月4日发布在代码托管平台GitHub上的技术分析报告。该报告的作者——一位自称为哥斯达黎加大学的韩国学生——采用了一种名为“LLM-Fingerprint”(大语言模型指纹)的技术,对华为盘古Pro MoE模型(总参数720亿)与阿里巴巴通义千问Qwen-2.5 14B模型进行了深度比对。

该技术的核心逻辑是,通过提取和分析模型中每个Transformer层的注意力参数(QKVO)的标准差,为每个模型生成一个独特的“指纹”向量。报告指出,盘古Pro MoE模型与通义千问模型在这一“指纹”上的相似度达到了惊人的0.927(理论最大值为1.0,代表完全一致)。这一数值远超不同独立训练模型间应有的正常差异范围,因此报告作者断定,这强烈指向了“非独立开发”的可能性。

为指控增添“实证”的,是研究者在盘古开源的代码文件中,发现了明确指向阿里巴巴的版权声明——“Copyright 2024 The Qwen team, Alibaba Group”。在许多开发者看来,这无异于一个“忘记擦除的脚印”,似乎坐实了盘古模型与通义千问之间存在直接的代码继承关系。尽管这份引发轩然大波的GitHub报告在发布后不久即被删除,但其提出的技术疑点和代码证据已在行业内迅速发酵,将华为推上了舆论的风口浪尖。

华为的辩护:创新、参考与开源精神面对汹涌的舆论,华为负责盘古大模型研发的核心团队——诺亚方舟实验室,在事发次日(7月5日)午后迅速做出回应。这份声明的核心,可以概括为三点:独立创新的坚定立场、对开源实践的合规遵循,以及对社区共建的开放态度。

首先,华为方面明确切割了盘古模型与“基于其他厂商模型增量训练”的关联。声明强调,盘古Pro MoE是一个“基于昇腾(Ascend)硬件平台开发、训练的基础大模型”。华为特别指出了其关键创新——全球首个面向昇腾硬件设计的“分组混合专家模型(MoGE)”架构。据称,该架构有效解决了大规模分布式训练中的负载均衡难题,是其核心技术壁垒的体现,而非对他人的简单复刻。

其次,针对代码中出现的阿里版权声明,华为并未回避,而是将其定义为对业界开源实践的参考与尊重。盘古团队承认,“部分基础组件的代码实现参考了业界开源实践,涉及其他开源大模型的部分开源代码”。他们认为,严格遵循开源许可证的要求,在代码中清晰标注原始版权声明,“不仅是开源社区的通行做法,也符合业界倡导的开源协作精神”。这番解释试图将一个看似“抄袭”的证据,重塑为一次合规、透明的开源协作行为。

最后,华为重申了其对开放创新和知识产权的尊重,并欢迎开发者在官方社区就技术细节进行深入、专业的交流。这份回应措辞严谨,试图从技术原创性、行为合规性和开源理念三个层面,全面化解外界的质疑。

超越个案:AI开源的“模糊地带”与信任危机华为盘古与阿里通义千问的这场风波,绝非孤例。它深刻地揭示了在人工智能大模型时代,传统软件领域的“开源”概念正面临前所未有的挑战。近年来,从零一万物(01.AI)的Yi系列模型被指架构与Meta的Llama高度相似,到斯坦福大学团队的Llama3-V项目被证实“套壳”了中国初创公司面壁智能的MiniCPM模型,类似的争议已屡见不鲜。

这些事件共同指向了一个核心问题:在AI大模型领域,开源的边界究竟在哪里?

传统的软件开源,主要涉及代码的开放。其许可证(如Apache, MIT, GPL)对代码的复制、修改、分发和商业使用有相对明确的规定。然而,一个AI大模型的核心价值,不仅在于其实现代码,更在于经过海量数据和巨大算力“炼”出的模型权重(即参数)。这些权重构成了模型的“智能”本身。目前,行业对于模型权重的开源、借鉴乃至“化用”,缺乏统一、清晰的法律和道德准绳。

使用一个开源模型的架构进行重新训练、参考部分实现代码、还是直接使用或微调他人训练好的模型权重,这三者之间存在着巨大的灰色地带。加之训练一个世界级大模型的成本动辄数亿甚至数十亿美元,这使得“站在巨人的肩膀上”成为一种普遍的技术发展路径和商业诱惑。正如DeepSeek等优秀开源底座模型的风靡所显示的,完全从零开始的自研已成为少数巨头的特权。

此次争议中,尽管有技术专家指出,仅凭“模型指纹”的标准差相似度来判定“抄袭”可能并不完全科学,但它无疑触动了行业最敏感的神经——信任。在一个依赖协作与共享精神的开源社区,任何关于“血统”纯洁性的疑虑,都可能侵蚀其赖以生存的根基。

截至目前,事件的另一方,阿里巴巴通义千问团队尚未对此事发表公开回应。然而,整个行业都在屏息凝视。这起事件的最终走向,无论结果如何,都将成为一个标志性的案例。它迫使所有参与者——从科技巨头到初创公司,再到每一位开发者——重新思考和定义AI时代的开源规则。如何在鼓励创新、加速技术迭代的同时,有效保护知识产权,建立一个公平、透明、可持续的开源新秩序,已成为全球人工智能行业亟待解决的重要课题。

推荐阅读