紫东太初多模态大模型 “紫东太初”跨模态通用人工智能平台是由中国科学院自动化研究所研发的以多模态大模型为核心、基于全栈国产化基础软硬件平台,可支撑全场景AI应用。依托面向超大规模的高效分布式训练框架,自动化所构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型,并开拓性地通过跨模态语义关联实现了视觉-文本-语音三模态统一表示,构建了三模态预训练大模型,赋予跨模态通用人工智能平台多种核心能力。 “紫东太初”兼具跨模态理解和生成能力,具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。对更广泛、更多样的下游任务提供模型基础支撑,达成AI在如视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。 特色: 全球首个多模态图文音预训练模型 多层次多任务自监督学习 弱关联多模态数据语义统一表达 兼顾任务感知和推理增强的中文预训练模型 多粒度学习与注意力指导的视觉预训练模型 基于自监督预训练的多任务语音建模技术
https://gitee.com/zidongtaichu/multi-modal-models
https://gitee.com/mindspore/omni-perception-pretrainer
|