万字梳理：阿里、腾讯等8家中国互联网大厂的50款大

火博sports

PRODUCTS

火博sports万字梳理：阿里、腾讯等8家中国互联网大厂的50款大

发布时间：2024-03-13 11:32:38 来源：火博体育首页作者：HB火博APP官网

　　：绘蛙是阿里AI电商团队针对淘宝、电商达人推出的一款可以生成文案和图片的智能创作平台，旨在提升电商营销效率。

　　产品功能：主要是AI文案生成和AI图片生成。在AI文案中，商家可以实现单商品种草、小红书爆文改写、穿搭分享等。以爆文改写为例，商家只需输入参考笔记内容，然后添加种草商品卖点、人设、笔记话题，即可生成小红书风格文案。

　　AI生图中，用户可以通过选择商品、选择模特和选择参考图生成自己想要的商品图片，支持自己上传模特图，也有自带的数字模特库可供使用，可以定制专属自己的AI模特，帮助商家节省商品拍摄和模特成本。

　　产品介绍：EMO是阿里巴巴推出的AI图片-音频-视频模型，该模型采用了 Stable Diffusion 的生成能力和 Audio2Video 扩散模型，能够生成富有表现力的人像视频。

　　不同于 OpenAI 的文生视频模型 Sora，EMO 主攻的是直接以图+音频生成视频方向，能够直接从给定的图像和音频，剪辑生成一段带有丰富人物表情的人物头部视频。

　　产品功能：用户只需要上传一张照片和一段任意音频，EMO就可以根据图片和音频生成一段会说话唱歌的AI视频。视频中人物具备丰富流畅的面部表情，能做到人物开口说话和唱歌时和和音频保持一致，最长时间可达1分30秒左右。

　　比如，你可以上传一张高启强的照片＋一段罗翔老师的音频，就能得到一段高启强普法视频。或者，你可以上传一张蒙娜丽莎的照片，让蒙娜丽莎给你唱现代歌曲，唱rap等。

　　产品介绍：Qwen-VL是阿里推出的开源多模态视觉模型，2024年1月，继Plus版本之后，阿里又推出了Qwen-VL-Max版本。

　　产品功能：基础能力方面，Qwen-VL-Max能够准确描述和识别图片信息，并根据图片进行信息推理和扩展创作。这一特性使得该模型在多个权威测评中表现出色，整体性能堪比GPT-4V和Gemini Ultra。

　　视觉推理方面，Qwen-VL-Max可以理解并分析复杂的图片信息，包括识人、答题、创作和写代码等任务。同时该模型还具备视觉定位功能，可根据画面指定区域进行问答。

　　此外，Qwen-VL-Max在图像文本处理方面也取得了显著进步，中英文文本识别能力显著提高，支持百万像素以上的高清分辨率图和极端宽高比的图像，不仅能完整复现密集文本，还能从表格和文档中提取信息。

　　产品介绍：Motionshop是阿里巴巴智能计算研究院推出的一个AI角色动画框架，该框架利用视频处理、角色检测/分割/追踪、姿态分析、模型提取和动画渲染等多种技术，使得动态视频中的主角能够轻松跨越现实与虚拟的界限，一键变身为3D角色模型且不改变视频中的其他场景和人物。

　　产品功能：用户只需上传视频，AI便能智能识别视频中的主要人物，并将其无缝转换为生动的3D角色模型。同时保持视频中人物动作同步与真实感，能精确复刻原视频中人物的动作细节，确保3D角色的动作流畅自然，提供高度逼真的视觉效果。此外，Motionshop能将现实世界的人物与3D虚拟角色得以完美融合，创造出跨越现实与虚拟界限的全新体验，为视频内容增添无限可能。

　　产品介绍：DreamTalk是由清华大学、阿里巴巴和华中科大共同开发的一个可以让人物照片开口说话、唱歌的模型框架。

　　产品功能：上传一张照片和音频，DreamTalk能够生物脸部动作看起来很真实的高质量视频，而且嘴唇动作能和音频都能一一对应。同时DreamTalk还支持多种语言，无论是中文、英文还是其他语言都能很好地同步。

　　据悉，DreamTalk 由三个关键组件组成：降噪网络、风格感知唇部专家和风格预测器。通过三项技术结合的方式，DreamTalk 能够生成具有多种说话风格的逼真说话面孔，并实现准确的嘴唇动作。

　　产品介绍：DreaMoving是一种基于扩散模型打造的可控视频生成框架，通过图文就能制作高质量人类跳舞视频。

　　产品功能：用户只需上传一张人像，以及一段提示词，就能生成对应的视频，而且改变提示词，生成的人物的背景和身上的衣服也会跟着变化。简单来说就是，一张图、一句话就能让任何人或角色在任何场景里跳舞。

　　产品介绍：I2VGen-XL是阿里云推出的一款高清图像生成视频模型，这款模型的核心组件由两个部分构成，用以解决语义一致性和清晰度问题。

　　产品功能：用户只需上传一张图片，即可生成一段分辨率为1280*720的高清视频。由于在大规模混合视频和图像数据上进行了预训练，并在少量高质量数据集上进行了微调，这些数据集具有广泛的分布和多样的类别，这使得I2VGen-XL展示了良好的泛化能力，适用于不同类型的数据。

　　此外，为了提高视频质量，该研究训练了一个单独的 VLDM，专门处理高质量、高分辨率数据，并对第一阶段生成的视频采用 SDEdit 引入的噪声去噪过程。

　　视频生成效果方面，与 Gen2、Pika 生成效果相比， I2VGen-XL 生成的视频动作更加丰富，主要表现在更真实、更多样的动作，而 Gen-2 和 Pika 生成的视频似乎更接近静态。

　　产品介绍：Animate Anyone是一款能将静态图像转换为角色视频的模型框架。该框架在扩散模型的基础之上，引入了ReferenceNet、Pose Guider姿态引导器和时序生成模块等技术，以实现照片动起来时保持一致性、可控性和稳定性，输出高质量的动态化视频。

　　产品功能：角色视频生成，利用驱动信号从静态图像生成逼真的角色视频；扩散模型支持，借助扩散模型的力量，提供高质量的动画效果；ReferenceNet设计，通过空间注意力合并详细特征，保持外观特征的一致性；姿势指导器，引入高效的姿势指导器，确保角色动作的可控性和连续性；平滑过渡：采用有效的时间建模方法，保证视频帧之间的平滑过渡。

　　目前，Animate Anyone已在GitHub上斩获了近1.3万个星标，并在国内外引起了热烈讨论。

　　产品介绍：通义千问是阿里自研的 AI 大语言模型，可以帮助用户解决生活和工作中的问题，提供智能问答服务。2023年10月31日，通义千问2.0正式发布，阿里也随之推出通义千问App。相较于1.0版本，通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。

　　通义万相是阿里通义大模型家族中的一款AI绘画大模型，可辅助人类进行图片创作。基于阿里研发的组合式生成模型Composer，通义万相提出了基于扩散模型的「组合式生成」框架，通过对配色、布局、风格等图像设计元素进行拆解和组合，提供了高度可控性和极大自由度的图像生成效果。

　　通义听悟是是依托通义千问大模型和音视频AI模型的AI助手，旨在帮助用户及客户在泛音视频内容场景下提升信息生产、整理、挖掘、洞察效率。

　　产品功能：通义千问具备多轮对话、文案创作、逻辑推理、多模态理解及多语言支持等功能。用户可以就任何问题与其对话互动，比如可以问他生活类常识、讲故事、写作文或文案、解答数学题等，但通义千问不具备多模态能力，不具备图像生成功能。

　　通义万相主要功能有三个，即文生图、相似图生成和风格迁移。在基础文生图功能中，可根据用户提示词生成水彩、扁平插画、二次元、油画、3D画等风格图像；相似图片生成功能中，用户上传任意图片后，即可进行创意发散，生成内容、风格相似的AI画作。此外该模型还支持图像风格迁移，用户上传原图和风格图，可自动把原图处理为指定的风格图。

　　通义听悟融合融合了十多项 AI 功能，面向线上线下各种泛音视频场景，通义听悟可以提供音视频内容的实时字幕 / 转写、多语言翻译、内容理解 / 摘要，涵盖全文概要、章节速览、发言总结等高阶 AI 功能。

　　适用人群或场景：通义千问适用人群较为广泛，通义万相适用于艺术绘画创作，设计师、动漫爱好者；通义听悟可应用于智能客服、智能家居、智能音箱、智能穿戴设备等领域。

　　产品介绍：UniVG是百度推出的一款统一模态视频生成系统，其独特之处在于针对高自由度和低自由度两种任务采用不同的生成方式，以更好地平衡两者之间的关系。

　　产品功能：用户只需提供一张图片或一段文字，就能生成一段流畅的视频，与早期的AI视频生成工具相比，UniVG所生成的每一帧画面都更加稳定、连贯。

　　据悉，UniVG系统引入了多条件交叉注意力技术，用于高自由度视频生成，以生成与输入图像或文本语义一致的视频。而在低自由度视频生成方面，采用了偏置高斯噪声的方法，相较于传统的完全随机高斯噪声更能有效地保留输入条件的原始内容。

　　产品介绍：百度推出的UNIMO-G统一图像生成框架，通过多模态条件扩散实现文本到图像生成，克服了文本描述简洁性对生成复杂细节图像的挑战。

　　产品功能：用户只要给出一张图，然后给出各种提示词，UNIMO-G就能根据提示词在图像基础上按照提示生成对应图像，比如上传一张马斯克图像，输入提示词给他穿上警服，就能得到一张身穿警服的马斯克图像。

　　据了解，UNIMO-G的核心组件包括多模态大语言模型和基于编码的多模态输入生成图像的条件去噪扩散网络。这一框架还采用了精心设计的数据处理管道，涉及语言基础和图像分割，用以构建多模态提示。

　　在测试中，UNIMO-G在文本到图像生成和零样本主题驱动合成方面表现卓越，特别是在处理包含多个图像实体的复杂多模态提示时，生成高保真图像的效果显著。

　　产品介绍：文心大模型是百度于2019年推出的自然语言处理大模型。该模型基于ERNIE系列模型具备跨模态、跨语言的深度语义理解与生成能力。2023年10月，文心大模型4.0 版本发布，实现基础模型的全面升级，理解、生成、逻辑、记忆四大能力显著提升，综合能力可直接对标GPT-4。

　　文心一言是百度基于文心大模型打造的生成式AI产品，与阿里的通义千问类似，可以进行任何内容的问答对话，可作为生活中的智能小助手。

　　文心一格是百度基于文心大模型推出的AI艺术创作平台，可以生成多样化AI创意图片，辅助创意设计。

　　文心千帆是百度旗下企业级大模型生产平台，提供包括文心一言在内的大模型服务及第三方大模型服务，还提供大模型开发和应用的整套工具链。

　　产品功能：文心一言具有文学创作、商业文案创作、数理逻辑推算、中文理解、音频、图像生成等多模态生成能力。比如用户可以用文心一言解答任何生活及工作问题，帮助用户撰写任何领域的文案，解答数学逻辑题，用语音讲故事等。

　　文心一格的主要功能就是图像生成功能。用户只需要输入一句话或提示词，文心一格就能按照指示自动生成图像，且用户可以追加更详细的提示词对图像进一步优化或改变图像风格等。同时文心一格还具有二次编辑图片和图片叠加功能，比如可以涂抹掉图像中不满意的部分，让模型重新调整生成。或者给出两张图片，模型会自动生成一张叠加后的创意图。此外，文心一格还推出了海报创作、图片扩展和提升图片清晰度等功能，提供多种生图服务满足用户需求。

　　文心千帆主要功能有两个：其一是文心千帆以文心一言为核心，为企业提供大模型服务，帮助客户改造产品和生产流程。其二，作为一个大模型生产平台，企业可以在文心千帆上基于任何开源或闭源的大模型，开发自己的专属大模型。

　　适用人群及场景：文心一言受众群体广。

火博sports

上一篇：Stability AI进军编程领域发布工具Sta 下一篇：Agent像人一样分工协作还能“群聊”交换信息｜I