“碎钞机”大模型能做合格“社畜”了？｜科普_火博sports(GUANGDONG)体育首页APP官网

火博sports

PRODUCTS

火博sports“碎钞机”大模型能做合格“社畜”了？｜科普

发布时间：2024-02-26 19:05:50 来源：火博体育首页作者：HB火博APP官网

　　文中提到的Transformer模型成为一个巨大的母题，这种“序列到序列（seq2seq）”的机器学习模型架构，把人工智能的历史彻底断代。

　　从传统循环神经网络（RNN）和卷积神经网络（CNN），到Transformer的跨越，机器学会了顺畅地“联系上下文”。

　　这是一个超级巨大的分水岭，颠覆是从哲学范式层面开始。Transformer架构的出现让整个NLP（自然语言处理）领域都发生了巨大的认知变化，突然给停滞不前的行业指明了方向。

　　“原来，所有东西其实都是语言模型，语言模型是唯一的问题，或者说next token prediction（预测下一个字段）是唯一的问题，等于可以对整个世界任何事物的概率进行建模。”长期浸淫于NLP领域的AI公司Moonshot创始人杨植麟恍然大悟。

　　在此框架下，世界就是一个硬盘模型，当人类文明数字化之后，所有人类文明之和就是硬盘的总和。只要能预测下一个token是什么，那就能实现智能。

　　杨植麟直言：“先是非常激动，好像被苹果砸中一样，随即又陷入沮丧，再想到可干的事情还很多，又兴奋起来。”

　　ChatGPT引起轰动时，别的大模型也如雨后春笋般涌现。赛迪顾问发布的《IT2023》系列研究显示，截至7月份国内累计有130个大模型问世；国外是138个，其中美国114个。

　　大模型究竟有多大？GPT-3是1750亿个参数，据说GPT-4有1.8万亿个参数。目前主流的大模型参数在千亿规模，小的也有百亿规模的。比如，理想汽车的Mind GPT的参数量是160亿。

　　根据Chat-GPT公司OpenAI的最新研究，从2012年以来，最大的AI训练对于算力的消耗已经增长了30万倍，平均每100天就翻倍，这个速度已经大大超越了两年翻倍的摩尔定律。

　　一家大模型公司很有可能需要部署超大算力的基础设施。比如商汤科技，3万块GPU的部署，可以实现6ExaFLOPS的算力输出能力，可最多支持20个千亿参数量大模型同时训练，最高可支持万亿参数超大模型的训练。

　　据数据猿估算，用户向大模型提问，获得回复也需要算力。基于一个1000亿参数规模的大模型，设定用户提问50字得到回复1000字，一块19.5TFLOPs的计算能力的A100芯片，大约可以同时支撑15万用户使用。

　　所以，大模型也是一台巨大的碎钞机，赚钱是不敢想的。OpenAI仅去年就亏了5.4亿美元（约39.5亿人民币）。

　　来看一组直观的数据：OpenAI的一篇论文中提到，1750亿个参数、数据集45TB的GPT-3，训练花了3640pfs-day，语言模型训练一次的费用保守估计是460万美元（约3366.74万元人民币），模块总训练成本估计达到1200万美元（约8782.8万元人民币）。而参数量达到1.8万亿的GPT-4，训练一次的成本高达6300万美元。

　　为了给ChatGPT提供算力保障，金主爸爸微软豪掷几亿美元，耗费上万张英伟达A100芯片打造超算平台。此外，微软还在Azure的60多个数据中心部署几十万张GPU，用于ChatGPT的推理。

　　摩根士丹利银行在今年年初就给出测算，如果把谷歌一半的搜索工作替换成当下的GPT程序，谷歌每年可能会额外损失60亿美元。模型越大，损失越多。

　　可怕的是C端商业逻辑跑不通，Chat-GPT的模型覆盖面很广，但缺点是不深入，只是整合已有的信息。这么贵的东西，靠肤浅地“陪聊”养不活自己。

　　于是商业化的路径探索专向垂直领域，比如为车业“卷王”们提供“”，培养大模型去提高智驾能力、去当车内管家。

　　清华大学电子工程系长聘教授周伯文表示，聚焦在一个有足够广度的垂直整合领域里，大模型深度和推理能力可能以更低的成本获得能力涌现。参数少，没有过多假设，更容易通用化。

　　“效率优化决定了AI模型在产业服务端的核心竞争力。”商汤科技联合创始人杨帆则认为，“减少模型的参数，以免大模型在学习的时候太过放飞自我。”

　　马斯克一边说着：“ChatGPT好得吓人，我们离危险的人工智能不远了”；一边已经在特斯拉电动车上应用起了基于视觉数据的智驾大模型。

　　8月份，马斯克直播了特斯拉FSD V12版的驾驶表现，在直播中，他反复强调，“我们没有编程，没有程序员写任何一行代码来识别道路、行人等，全部交给了神经网络。”要知道在V11版本中，控制栈中还有超过30万行C++代码。

　　特斯拉最新的FSD V12测试版用端到端大模型取代了用于感知、描述、预测以及规划的多个模块。如果说ChatGPT的两端是文字问题和文字回答，那么特斯拉自动驾驶的两端则是道路场景图像和车辆控制参数。道路场景图像由摄像头或雷达采集，而控制参数则包括方向盘转角、油门、刹车和速度等数据，中间是端到端大模型。

　　清华智能产业研究院助理研究员詹仙园博士指出，端到端，简单来说就是把所有架构、不同模块融成一个完整的整体，直接从输入到输出做训练，学习信号从决策处向前传递。

　　首先，可以把整个端到端模型看成单一的超大模型，结构非常简单，所有目标都围绕着决策的最终目的做优化和学习，优化目标统一。

　　而端到端也带来了“黑盒子”困境，原有的模块化好处恰恰在于，模块拆解非常干净，每个模块建模目标非常明确，解释性非常好。但模块化架构下，每个模块的设计和优化都有自己的一套体系，多个模块组合时势必会出现误差累积。

　　马斯克透露，特斯拉Dojo超算今年在AI训练上大概花了20亿美元（约145亿人民币）。手握5000张英伟达H100芯片的马斯克认为还不够，马上要上线组成的GPU集群，加快训练新版FSD。

　　不过端到端模型的可解释性差。在AI界有个词叫“涌现”，意思是当模型突破某个规模时，性能突然显著提升，能力有了质的飞跃。这种情况不可控、无法预知。

　　如前文，这个混沌系统是个黑盒，不再按照if…then…的规则运行，当出现“涌现”，工程师对其内部知之甚少。出现失败的案例时，人类也只能当个添加“数据燃料”的看客，只能重练。

　　同济大学教授、汽车安全专家朱西产则担心，“光是感知使用神经网络，就产生了预期功能安全问题，端到端自动驾驶全部使用神经网络，那就没法测试、认证了”。

　　过去，智驾通过case驱动的开发模式来解决问题。通常需要先发现一个问题，再基于这个问题的特征去采集一批数据，然后对这批数据进行人工标注，再基于人工标注的数据训练一个小模型，这个小模型就具备了解决这个特定问题的能力。明显滞后，泛化性还差。

　　彼时，仅在感知领域，就有无数的小模型对齐，车道线有车道线的检测，障碍物有障碍物的检测，红绿灯有红绿灯的检测，甚至车轮有车轮的检测，车边缘有车边缘的检测，无数小模型集合在一起，数据搜集存在很明显的瓶颈。

　　以感知部分为例，BEV感知大模型正以吞食天地的速度快速消灭过去多个零散组合式的小模型，从而形成完整的一站式的大感知模型。

　　现在国内华为、小鹏、百度、毫末等企业的智驾算法仍然还是多模块的，感知大模型再加别的模块，介于“端到端”和“规则化系统”之间。

　　百度智能驾驶事业群组智能汽车业务部总经理苏坦表示，“基于模型化的思想，对过去规则化的体系进行深度的改造，这件事情的节奏是非常快的。像今天提到的类似于4D BEV tranformer、Apollo Highway Driving Pro等等都是端侧部署的，底层就是模型化。”

　　就在今年4月，毫末发布了自动驾驶生成式大模型“DriveGPT雪湖·海若”，参数规模1200亿，预训练阶段引入4000万公里量产车驾驶数据，RLHF阶段引入5万段人工精选的困难场景接管视觉数据。

　　在过去的200多天里，DriveGPT在MANA OASIS雪湖·绿洲智算中心日夜不停地进化，到今天为止，训练了超过100亿帧互联网图片数据集，480万包含人驾行为的自动驾驶4D 数据，以及8700万公里的训练里程。如此巨大的数据规模是人类穷尽一生都难以完成的。

　　DriveGPT雪湖·海若包括感知大模型、认知大模型。输入是感知融合后的文本序列，输出是自动驾驶场景文本序列，即将自动驾驶场景Token化，形成“Drive Language”，最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。

　　最终毫末的目标是把感知大模型、认知大模型对接，进行端到端训。

火博sports

上一篇：Achronix“内外兼修”赋能AIML数据加速下一篇：赛力斯汽车申请KDT框架专利能够以模块化方式来减少