GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|天天新资讯
机器之心报道
编辑:吴昕
(资料图片)
George Hotz:除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西。
「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。
不过很快,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」
实际上,许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不可能。
虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。
直到最近,这个谜团疑似被「天才黑客」乔治・霍兹(George Hotz)捅破了。
乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,目前是一家研发自动驾驶辅助系统的公司(comma.ai)的老板。
最近,他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。
在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。
「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。
为什么 OpenAI 对此讳莫如深呢?George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。
对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。
目前,George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。
有人从中得到了灵感,声称要训练一个 LLaMA 集合来对抗 GPT-4。
还有人说,如果真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息来源,我们目前无法判断以上论断是否正确。有更多线索的读者欢迎在评论区留言。
-
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|天天新资讯
机器之心Pro 2023-06-21
-
恒天海龙(000677)6月21日主力资金净卖出98.41万元 世界微动态
证券之星 2023-06-21
-
-
山西全省公安交警多项举措护航中考
锦绣太原 2023-06-21
-
环球快资讯:TechInsights:2023年全球智能手机出货量同比下降3%
中华液晶网 2023-06-21
-
天天视讯!162期东风破快乐8预测奖号:同尾连码分析
新浪彩票 2023-06-21
-
富时中国A50指数期货主力合约由跌转涨
Choice数据客户端" /> * {*behavior: url(/static/js/boxsizing.htc);} *:before,*:after {*behavior: url(/static/js/boxsizing.htc);}body,td,th {font-family: \5b8b\4f53, verdana, sans-serif;} "> 2023-06-21
-
全球热消息:厨房转角柜,别再只做直角柜了
斐萨PHISA 2023-06-21
-
秋叶 官方下载_秋叶系统原官网
互联网 2023-06-21
-
如何恢复回收站删除的文件视频和图片(如何恢复回收站删除的文件)
互联网 2023-06-21
-
GPT-4是8x2200亿参数的混合模型?这个小道消息今天传疯了|天天新资讯
机器之心Pro 2023-06-21
-
恒天海龙(000677)6月21日主力资金净卖出98.41万元 世界微动态
证券之星 2023-06-21
-
-
山西全省公安交警多项举措护航中考
锦绣太原 2023-06-21
-
环球快资讯:TechInsights:2023年全球智能手机出货量同比下降3%
中华液晶网 2023-06-21
-
天天视讯!162期东风破快乐8预测奖号:同尾连码分析
新浪彩票 2023-06-21
-
富时中国A50指数期货主力合约由跌转涨
Choice数据客户端" /> * {*behavior: url(/static/js/boxsizing.htc);} *:before,*:after {*behavior: url(/static/js/boxsizing.htc);}body,td,th {font-family: \5b8b\4f53, verdana, sans-serif;} "> 2023-06-21
-
全球热消息:厨房转角柜,别再只做直角柜了
斐萨PHISA 2023-06-21
-
秋叶 官方下载_秋叶系统原官网
互联网 2023-06-21
-
如何恢复回收站删除的文件视频和图片(如何恢复回收站删除的文件)
互联网 2023-06-21
-
2023下半年湖北中小学教师资格考试(鄂州考区)笔试报名审核通知
鄂州市教育局 2023-06-21
-
天天观热点:易方达中证港股通互联网ETF净值下跌1.71% 请保持关注
金融界基金 2023-06-21
-
1-5月重庆基础设施投资同比增长9.8% 交通、水利、能源投资增速位列前三 焦点观察
凤凰网 2023-06-21
-
电讯盈科(00008):Canal+将认购总金额为3亿美元的Viu股份|新消息
智通财经 2023-06-21
-
世界焦点!小商品城拟发行可转债募资不超40亿元 投向义乌全球数贸中心等项目
同花顺财经 2023-06-21
-
全球最资讯丨调休背后,有笔劳动经济学账
浙江日报 2023-06-21
-
资讯推荐:普兰店区通过“云端”互动破解民营企业招工难题
凯迪网 2023-06-21
-
大商股份:6月20日融资买入1079.13万元,融资融券余额3.27亿元
证券之星 2023-06-21
-
端午夜可赏“飞龙在天”,这条“龙”如何飞上天?
新华网 2023-06-21
-
昆明男性割包皮之后勃起怎么办?
中华网健康 2023-06-21
-
电脑锁屏键盘按什么键_电脑锁屏键盘按哪个键 环球焦点
互联网 2023-06-21
-
铺就优质社保服务之路,让群众享受福利
互联网 2023-06-21
-
男生用嘴给女生洗脚什么意思_男生用嘴给女生洗脚
互联网 2023-06-20
-
江苏一面包车撞翻三名路人,包括两女子及一幼童,物业透露情况-每日动态
个人图书馆-木槿夕先生 2023-06-20
-
澳媒:中国引领RCEP数字贸易蓬勃发展-全球热闻
参考消息网 2023-06-20
-
天天亮点!2019年,男子在KTV聚会,醉酒之后驾车意外身亡,家属向多人索赔
个人图书馆-木槿夕先生 2023-06-20
-
快报:三人成虎的故事发生在哪个国家_三人成虎的故事
互联网 2023-06-20
-
快手电商快消行业发布618战报 快消品牌成交GMV同比增长126%
DoNews快讯 2023-06-20
-
极端高温侵袭印度多地已致近170人死亡 医院担架短缺|天天观点
中国新闻网 2023-06-20
-
中国A股多家快递公司披露5月业绩 均实现收入同比正增长|热资讯
中国新闻网 2023-06-20