ChatGPT 参数规模之谜被揭开：或仅为 7B模型？

11个月前更新

1.4W+1527

近日，南加州大学的研究团队爆出一项重磅消息：他们通过一种攻击方法，成功破解了 OpenAI 最新版 ChatGPT 模型（gpt-3.5-turbo）的参数规模，结果发现其参数规模可能只有 70 亿，而非此前传闻的数百亿甚至上千亿。

攻破 OpenAI 的“秘密”

南加大团队利用了一种名为“Softmax 瓶颈”的攻击方法，该方法能够从 ChatGPT 的 API 调用中获取足够多的输出样本，进而推断出模型的特征向量维度。根据已知信息，4096 或 4608 的嵌入向量维度对应约 70 亿的参数规模。

几乎所有已知的开源大模型如Llama和Mistral，嵌入向量维度4096的时候都是约7B参数规模。

其它比例的话就会造成网络过宽或过窄，已被证明对模型性能不利。

因此南加大团队指出，可以推测gpt-3.5-turbo的参数规模也在7B左右，除非是MoE架构可能不同。

其实在数月前，曾有微软CODEFUSION论文意外泄露当时GPT-3.5模型参数为20B，在后续论文版本中又删除了这一信息。

真相究竟如何？

这一发现与之前流传的 200 亿甚至 1750 亿参数规模的传闻相差甚远，不禁引发了人们的猜测：

最初的 200 亿参数数据是否来自误传？
OpenAI 之后又对模型进行了压缩？
OpenAI 一直在刻意隐藏 ChatGPT 的真实参数规模？

无论真相如何，这都表明 OpenAI 在模型优化方面拥有着强大的技术实力。

那么，南加大团队是怎么扒出ChatGPT未公开配置的呢？

还要说到现代语言模型中普遍存在的”Softmax瓶颈”。

当Transformer网络处理完输入，会得到一个低维的特征向量，也就是Embedding。这个特征向量再经过Softmax变换，就得到了最后的概率分布输出。

问题就出在Softmax这里，因为矩阵的秩最多只能等于特征向量的维度，所以大模型的输出空间事实上被限制在了一个低维的线性子空间里。

这就像是无论你的衣柜里有多少件衣服，最后能穿出去的搭配，其实是有限的。这个”衣柜”的大小，就取决于你的”特征向量维度”有多大。

南加大团队抓住了这一点，他们发现，只要从API调用中获取到足够多的输出样本，就足以拼凑出这个大模型的”特征向量维度”。

有了这个特征向量维度，可以进一步推断大模型的参数规模、还原出完整的概率输出，在API悄悄更新时也能发现变化，甚至根据输出判断来自哪个大模型。

更狠的是，推测特征向量维度并不需要太多的样本。

以OpenAI的gpt-3.5-turbo为例，采集到4000多个样本就绰绰有余了，花费还不到1000美元。

攻击的意义

南加大团队认为，这种攻击方法并不能完全窃取模型参数，因此破坏性有限。同时，它也允许大模型 API 用户检测模型变更，建立信任，并促使大模型公司提供更高的透明度。

总而言之，这并非一个漏洞，而是一个促进大模型发展良性的契机。

未来展望

OpenAI 尚未对此事做出回应，未来他们会如何应对这种攻击，以及是否会公开 ChatGPT 的真实参数规模，都值得我们拭目以待。

附加信息

南加大团队论文：https://arxiv.org/abs/2403.09539
关于 Softmax 瓶颈： https://en.wikipedia.org/wiki/Softmax_function
参考链接：https://x.com/TheXeophon/status/1768659520627097648

总结

ChatGPT 参数规模之谜被揭开，引发了业界对大模型参数规模和透明度的关注。未来，大模型的发展将更加注重安全性、可靠性和透明性。

THE END

AI 免费资源

喜欢就支持一下吧

如何快速获取比特币？BTC如何进行安全保存？最新比特币交易教程！

https://youtu.be/xUK_Cl1bZP4 ? 火币网国际站点：https://www.huobi.com/zh-cn/topic/invited/?invite_code=48tr7 localbitcoins官网：https://localbitcoins.com/?ch=1f881 coinbase：https:...

Youtube视频 # 比特币提现 # 比特币交易 # 如何获取比特币

admin

1.1W+652

2023 年最值得推荐的 7 款免费应用程序！ | 零度解说

https://youtu.be/t2TqeNaYiXo =========== 7款免费应用下载：https://www.freedidi.com/11159.html

Youtube视频

admin

1.7W+1682

小心英特尔——AMD 可能会在 4 月发布大量新的 Ryzen CPU

下个月将推出 10 款新的 Ryzen 处理器？据新传闻称，AMD 可能将在整个 4 月份推出 10 款新的Ryzen 处理器。这来自Wccftech，其消息来源声称将推出大量 CPU，主要来自当前的Ryzen 5000系列，但...

数码科技

admin

1.5W+2251

最火爆的 AI绘图模型： ChilloutMix 等其它5个热门模型下载！含提示词

不得不承认的是，最近AI绘图火的一塌糊涂！各种AI美图层出不穷，大家看到的很多网红脸AI小姐姐基本上都来自ChilloutMix 然而在ChilloutMix爆火的时候，作者TASUKU2023突然删掉了自己在网上分享...

免费资源

admin

1.7W+6539

网页长截图插件，免费支持Chrome、edge等主流浏览器！

这款插件可以完整可靠地捕获当前页面的屏幕截图 - 无需请求任何额外的权限！获取当前浏览器窗口的整页屏幕截图的最简单方法。单击扩展程序图标（或按 Alt+Shift+P），观看扩展程序捕获页面的每...

免费资源

admin

1.4W+1527

看哪，一个密码钓鱼网站，甚至可以欺骗精明的用户

就在您认为自己已经看到了所有网络钓鱼技巧时，BitB 出现了。当我们教人们如何避免成为网络钓鱼网站的受害者时，我们通常建议仔细检查地址栏以确保它确实包含 HTTPS 并且不包含可疑域（如 go...

网络安全

admin

1.6W+2251

新的 USB Rubber Ducky 攻击性更强！比以往任何时候都更危险

USB Rubber Ducky 卷土重来。备受喜爱的黑客工具有一个新的化身，发布时间恰逢今年的Def Con 黑客大会，创作者 Darren Kitchen 随时向The Verge解释它。我们测试了一些新功能，发现最新版本比...

网络安全

admin

1.7W+2250

Intel 和 AMD CPU 中的一个新漏洞让黑客窃取加密密钥

研究人员周二表示，来自英特尔、AMD 和其他公司的微处理器包含一个新发现的弱点，远程攻击者可以利用该弱点来获取通过硬件传输的加密密钥和其他秘密数据。硬件制造商早就知道，黑客可以通过测...

网络安全

admin

1.7W+2250

DeepSeek 深夜放大招！视觉多模态 Janus-Pro-7B 正式开源，放心大胆文生图，附本地部署教程 | 零度解说

https://www.youtube.com/watch?v=Ilh29a8dzgQ DeepSeek 多模态大模型下载+安装命令：https://www.freedidi.com/18354.html

AI Youtube视频免费资源 # deepseek

admin

2W+2490

ChatGPT 参数规模之谜被揭开：或仅为 7B模型？

攻破 OpenAI 的“秘密”

其实在数月前，曾有微软CODEFUSION论文意外泄露当时GPT-3.5模型参数为20B，在后续论文版本中又删除了这一信息。

真相究竟如何？

攻击的意义

未来展望

附加信息

总结

免费白嫖！HuggingFace 服务器，16G内存、双核CPU、50G硬盘空间！多种用法

5款【神级软件】推荐！绝对让你相见恨晚，免费开源，吊打付费！提高效率、瞬间起飞！！ | 零度解说

Nvidia 推出 399 美元的 RTX 4060 Ti 和 299 美元的 4060 , 难道真没提价?

安全、高速的 DNS 服务器该如何选择？

Windows 10 用户注意！微软已经决定弃用该系统，附最新的免费升级方案！| 零度解说

只需600刀，组装超高性价比电脑！免费显卡、电源配件！畅玩3A大作、4K视频剪辑，办公也能轻松应对！附超详细组装教程 | 零度解说

Have I Been Pwned? 查一查你的密码有没被泄露！

AMD、Intel和NVIDIA将在接下来数月扎堆发布显卡，显卡降价终究来了！

如何快速获取比特币？BTC如何进行安全保存？最新比特币交易教程！

2023 年最值得推荐的 7 款免费应用程序！ | 零度解说

小心英特尔——AMD 可能会在 4 月发布大量新的 Ryzen CPU

最火爆的 AI绘图模型： ChilloutMix 等其它5个热门模型下载！含提示词

网页长截图插件，免费支持Chrome、edge等主流浏览器！

看哪，一个密码钓鱼网站，甚至可以欺骗精明的用户

新的 USB Rubber Ducky 攻击性更强！比以往任何时候都更危险

Intel 和 AMD CPU 中的一个新漏洞让黑客窃取加密密钥

DeepSeek 深夜放大招！视觉多模态 Janus-Pro-7B 正式开源，放心大胆文生图，附本地部署教程 | 零度解说