国内多模态大模型产品大全

多模态大模型产品在国内市场蓬勃发展，华为盘古大模型提供多领域大模型和能力集，中科院自动化所“紫东太初”实现视觉、文本、语音三模态协同。复旦“MOSS”支持中英双语，万兴“天幕”以音视频AI技术为基础，阿里巴巴“通义”系列涵盖自然语言处理等。这些产品将为各行业带来智能化体验，推动人工智能技术的发展和应用。

发布时间：2025-04-24 16:57:35

随着人工智能技术的不断发展，多模态大模型产品在国内市场上得到了广泛的应用和关注。这些产品结合了图像、语音、文本等多种数据模态，通过深度学习技术实现了更加智能、全面的功能。以下是一些国内多模态大模型产品大全的介绍。

一、华为盘古大模型

华为盘古大模型致力于深耕行业，打造多领域行业大模型和能力集，大模型能力通过盘古大模型开放平台承载，平台是一站式大模型开发及应用平台。它提供了包括盘古大模型在内的多种大模型服务，支持大模型的定制开发，提供覆盖全生命周期的大模型工具链。

华为盘古大模型由CV，NLP，多模态，预测和科学计算5大基础模型组成，可实现文本生成、图片生成、代码生成、图片理解、气象预测、智能助手打造等多种功能。

平台承载了盘古系列AI模型，旨在为企业提供快速、高效、低成本的大模型开发和应用解决方案。企业可以根据自己的需求选取合适的盘古大模型相关服务和产品，方便的构建自己的模型和应用。

二、中科院自动化所“紫东太初”

紫东.太初是中科院自动化所在探索通用人工智能路上的重要成果。千亿级参数的超大模型，能够实现视觉、文本、语音三个模态间的高效协同，性能全球领先。紫东太初大模型将文本 + 视觉 + 语音各个模态高效协同，实现超强性能，在图文跨模态理解与生成性能上都能领先目前业界的SOTA模型，高效完成跨模态检测、视觉问答、语义描述等下游任务。

三、复旦“MOSS”

MOSS是一个支持中英双语和多种插件的开源对话语言模型，moss-moon系列模型具有160亿参数，在FP16精度下可在单张A100/A800或两张3090显卡运行，在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

四、天幕多模态大模型

万兴“天幕”以音视频生成式AI技术为基础,由视频大模型、音频大模型、图片大模型、语言大模型组成,涵盖文生视频、文生3D视频、视频AI配乐、数字人播报等近百项音视频原子能力,同时支持全球不同语言,可专业提升视频创作效率、精细化提升垂类质量、特色化补齐创作闭环、快速赋能应用智能化升级。相关能力已在Wondershare Filmora、万兴播爆产品上规模化商用。

下载APP 支持iOS10.0及以上版本

下载APP 支持Android6.0及以上版本

在线体验