WAP手机版 RSS订阅 加入收藏  设为首页
MG摆脱网站
当前位置:首页 > MG摆脱网站

MG摆脱网站:引领人工智能技术的发展趋势

时间:2021/7/9 21:20:24   作者:   来源:   阅读:14   评论:0
内容摘要:记者8日从中国科学院自动化研究所(中国科学院自动化研究所)获悉,该研究所研究团队已成功构建了全球首个图像、文字、图像、文字三模系统。和音频。最先进的预训练模型将解锁更多的智能美,让人工智能(AI)更接近人类的想象力。目前,现有的多模态预训练模型通常只考虑“图像与文本”或“视频与文本”两种模态,忽略了周围环境中无处不在的...

记者8日从中国科学院自动化研究所(中国科学院自动化研究所)获悉,该研究所研究团队已成功构建了全球首个图像、文字、图像、文字三模系统。和音频。最先进的预训练模型将解锁更多的智能美,让人工智能(AI)更接近人类的想象力。目前,现有的多模态预训练模型通常只考虑“图像与文本”或“视频与文本”两种模态,忽略了周围环境中无处不在的语音信息,模型很少同时具有理解和生成。在能力方面,很难同时在生成任务和理解任务中取得良好的表现。针对这些问题,中国科学院自动化研究所课题组提出了图形、文本、音频三模态预训练模型,该模型将文本、语音、图像、视频等多模态内容结合起来进行学习。

该模型由单模态编码器、交叉模态编码器和交叉模态解码器组成。该方法采用基于入门级、模态级和样本级的多层次、多任务三级训练前自监督学习方法。它更加关注图形、文本、声音三模态数据之间的相关性特征和跨模态转换问题,为更广泛、更多样化的下游任务提供基本的模型支持。该科研团队指出,图形、文本、音频三模态预训练模型不仅可以实现图像识别、语音识别等跨模态理解任务,还可以完成由文本生成图像、由图像生成文本、还有声音生成图像。同时,语音模态的多模态预训练模型的引入可以直接实现三种模态的统一表征,特别是首次实现了“以图发声”和“以图发声”。

此外,该模型灵活的自监督学习框架可以同时支持三个或任意两个模态弱相关数据进行预训练,可以有效降低多模态数据收集和清理的成本,从而实现了预训练模型的突破。中国科学院自动化研究所表示,图形、文本、音频三种模式的预训练模型的提出和构建,将改变目前人工智能单一模型对应单一任务的研发范式,并且大大提高了文本、语音、图像和视频等领域的基本任务的性能。在多模态内容理解、搜索、推荐和问答等商业应用方面具有巨大潜力;语音识别与合成;人机交互,无人驾驶。未来,“大数据+大模型+多模式”多任务统一学习将引领人工智能技术的发展趋势。



相关评论
本站所有站内信息仅供娱乐参考,不作任何商业用途,不以营利为目的,专注分享快乐,欢迎收藏本站!
所有信息均来自:百度一下(mg网址粤ICP备11107854号-1