媒体新闻

华为重磅！

2024/6/23 10:10:00

【导读】实探“AI的盛宴”！华为开发者大会带来什么启示？

中国基金报记者冯尧

为期3天（6月21日至23日）的 “华为开发者大会2024”，给业界带来了不少惊喜：被称为“纯血鸿蒙”的鸿蒙NEXT面世、“夸父”人形机器人亮相、盘古大模型5.0发布……

其中，鸿蒙NEXT恐怕是迄今为止最“聪明”的鸿蒙系统，其最为重要的三大特点之一，便是 原生智能能力。华为提出了“鸿蒙原生智能”概念，背后仰仗着大模型的支撑。

“夸父”的横空出世，展示了识别物品、问答互动、击掌、递水等能力，这同样离不开 盘古具身智能大模型的加持。盘古具身智能大模型提升了机器人的智能及泛化能力。

而盘古大模型则在一年内从3.0版本进化为5.0版本，带来了全系列、多模态的变化。其参数覆盖面从十亿级到万亿级，而多模态能力令盘古大模型能够更精准地理解世界。

所有的蜕变都离不开人工智能。记者在此次一线实探中，深切感受到人工智能带来的科技“温度”。毫不夸张地说，此次华为开发者大会实际上更像是一场“AI的盛宴”。AI让一切变得更“聪明”，一切都离不开它。

但在参加此次华为开发者大会的业内人士看来，无论AI未来如何进化，其最终归宿将是跨入产业。“尽管国内算力受限、也没有算法优势，但国内拥有全球最全的工业门类，行业数据最全、场景最多，行业大模型大有可为”，业内人士如是表述。

“小艺”为何变聪明了？

在华为开发者大会的鸿蒙展示区域内，工作人员向记者展示了鸿蒙NEXT的原生智能能力，即用各类图片对“小艺”进行“投喂”。

例如，在识别人们并不熟悉的旅游景点建筑时，“小艺”在识别后会明确给出景点的详细资料，同时会附上相应的旅游攻略，供用户参考。

再如，当“小艺”识别人物照片时，甚至可以知悉人物着装的品牌，包括衣物、背包、鞋类等，同时“小艺”可以帮助用户识别衣物等物品所对应的商店、网店，更便于用户购物。

而当用户搜寻文档时，“小艺”甚至可以根据要求，提取其中重要内容并生成PPT，供用户使用。也就是说，只需将文字、图片、文档“投喂”给小艺，其即可便捷高效处理文字、识别图像、分析文档。

这依赖于鸿蒙NEXT与AI的融合升级，华为也提出了“鸿蒙原生智能”概念。

实际上，就在不久前的苹果全球开发者大会上，苹果就发布了其自研的Apple Intelligence（苹果智能），并宣布其Siri语音助手将接入GPT-4o，构成iOS+AI的智能体体系。

而华为也将操作系统层的鸿蒙和模型层的盘古联合起来，共同构建系统级原生智能，这在国内尚属首次。

盘古上身 “夸父”出道

另一边，在华为云的展示区中，人工智能的氛围更为浓厚。其中， 人形机器人“夸父”身边聚集了众多参会者。

在6月21日的发布会上，“夸父”现场演示了复杂任务执行，包括与华为常务董事、华为云CEO张平安击掌，分辨位于它面前的与华为有关的物品，并在得知主持人口渴时，将面前桌上的水递给了主持人。

而在展示区内，“夸父”与参会者近距离接触。在展示现场区内，这款机器人通过理解工作人员的食物喜好，来搭配食材，并烹饪美食，同时展示了行动能力。

实际上，“夸父”并非新产物，其为乐聚公司推出的人形机器人。而乐聚是一家老牌人形机器人公司，创立于2016年3月，总部位于深圳。

资料显示，“夸父”发布于2023年12月，重约45kg，全身26个自由度，行走速度最高可达4.6km/h，可快速连续跳跃，跳跃高度超20cm。其搭载自研一体化关节和深度摄像头，可实现全方位视觉感知。

真正令“夸父”实现进化的是人工智能。据工作人员介绍，盘古具身智能大模型令“夸父”的智能及泛化能力得以提升。

该模型具备多模态（文本、图像、视频）能力，使机器人能够模拟人类常识进行逻辑推理，能够让机器人完成10步以上的复杂任务规划，并且在任务执行中实现多场景泛化和多任务处理。同时，盘古大模型还能生成机器人需要的训练视频，让机器人更快地学习各种复杂场景。

张平安展望了一个未来场景：AI机器人将帮助人们处理日常家务，如洗衣、做饭和扫地，从而让人们有更多时间投身于阅读、创作等更有意义的活动。

其实，人形机器人与大模型的结合是大势所趋。今年年初，英伟达展示了多模态人形机器人通用基础模型GR00T，其可作为机器人的大脑，驱动机器人理解自然语言，通过观察人类行为来快速学习协调、灵活性和其他技能。

而OpenAI与人形机器人独角兽公司Figure合作推出的Figure 01机器人，依托OpenAI的大模型，能仅利用独立神经网络，接收人类指令，并执行向人类传递苹果、整理垃圾、放置餐具的动作。马斯克近期也在特斯拉2024年股东大会上表示，特斯拉的人形机器人将采用大语言模型。

“大模型+人形机器人”蔚然成风。

盘古大模型的进化

其实不难看出，无论是鸿蒙NEXT系统还是人形机器人“夸父”，令其更为“聪明”的底座均为盘古大模型。而盘古大模型此次也迎来历史性的进化：从一年前的3.0版本，升级成为5.0版本。

盘古大模型5.0在全系列、多模态、强思维三个方面实现全新升级。

其中在全系列方面，其覆盖了十亿级到万亿级参数，从手机到企业云实现全覆盖。而多模态方面的升级，令盘古大模型5.0支持10K超图像识别，能够更好更精准地理解物理世界，包括文本、图片、视频、雷达、红外、遥感等更多模态。

例如，当被问到“《清明上河图》中赵太丞家有多少人”，盘古大模型5.0可以在占全图1/200的画面中，识别出细小画面和汉字，并得出“4个人 ”这一正确答案。

但实际上，相较于盘古大模型“炫技”而言，更具有现实意义的是，盘古大模型已经开始扎根于各行各业。

在华为云的展示区内，更多的舞台留给了盘古大模型在各大专业化产业领域的融合，例如工业制造、生物医药、气象服务等。

而且，华为云在此次大会上一口气发布了六个专业模型：盘古钢铁大模型、盘古高铁大模型、盘古具身智能大模型、盘古工业设计大模型、盘古安全大模型及盘古媒体大模型。

工作人员告诉记者，例如在高铁行业，基于盘古高铁大模型，华为云为高铁检测装上了“盘古眼 ”，帮巡检工人减少了庞大工作量。“一列动车的3.2万个故障检测项点，本来需要4人花费2小时进行检查，而用盘古大模型，自动识别准确率可达99%。”

模型本身只是一张“白纸”

“当前，国内的大模型充满挑战，例如算力受限、没有算法优势等。”一位与会的业内人士对记者表示。

实际上，从GPT-3的1750亿参数规模，到GPT-4非官方估计1.8万亿参数，GPT-5参数量或将突破10万亿，OpenAI、Google等均沿着这条路径一路前行。

“如果参数无限向上，大模型最终是否能够通往通用人工智能，目前没有人能够得到确切答案。” 他表示，从当前现实情况来看，一个通用的大模型，尽管可能拥有千亿级别的参数，几乎可以回答任何问题，但是在专业领域的表现可能只是普通甚至难以胜任。

再加上随着模型规模不断增大带来的模型幻觉、居高不下的训练成本以及算力资源的稀缺等挑战，都成为摆在业内的现实问题。

“不止国内需要面对算力资源的稀缺问题，全球都会面对这一问题。所以，把有限的算力用好，汲取硬件资源提供的每一分能力，成为业内首要考虑的问题，这也是突破算力瓶颈的必然之路。”一位华为云人士表示。

“模型本身只是一张‘白纸’，上面画出什么样的一幅‘画’，由数据决定，需要高质量数据。”他如是表述，“国内拥有全球最全的工业门类，行业数据最全、场景最多。”

在多位受访人士看来，大模型的发展将趋向通用化与专用化并行，企业对于大模型的需求不仅仅是实现通识，更需要其成为特定领域的“最强大脑”。面向行业解决特定问题的专属大模型，将加速企业数据价值的释放、提高数据和知识的利用率。

根据IDC相关调研显示，目前有60%的企业使用大模型的公开版本，但两年后会迅速降至17%，更多的企业会将AI应用建立在私有、专属模型基础上。

“行业市场需要更丰富的、更多种类的行业大模型应用到具体场景里去产生价值，而不只是一个大模型无限泛化能力去解决所有问题。”上述华为云人士表示，“大模型只有融入企业运营、紧贴应用场景，才能真正发挥带动产业升级的作用。”

编辑：小茉

审核：许闻

《中国基金报》对本平台所刊载的原创内容享有著作权，未经授权禁止转载，否则将追究法律责任。

授权转载合作联系人：于先生（电话：0755-82468670）