返回首页  设为首页  加入收藏  今天是:
网站首页vivo手机oppo手机华为手机苹果手机荣耀手机小米手机三星手机魅族手机中兴手机
相关文章
 智源「悟道30」Emu模型开源「…
 鸿蒙OS 40正式发布流畅20%的…
 emui11新功能介绍_emui11支持…
 不和华为、小米竞争!李斌:…
 冲高端与去库存效果显著 小米…
 小米高端化战略成效显著 二季…
 小米高端成了 中国区手机均价…
 小米二季度净利润涨147% 汽车…
 苹果壁纸背景图
 iphone14怎么切换主屏幕壁纸…
 苹果手机壁纸
 苹果手机好用的壁纸软件有什…
 iPhone 壁纸有多贵?光一朵花…
 今日荣耀手机批发价格表(荣…
 最高3899元!荣耀90系列价格…
 今日荣耀手机价格表「荣耀手…
 华为荣耀手机价格大全(华为…
 消息称闻泰科技已承接荣耀重…
 强迫症福音!魅族20系列外观…
 星际魅族沈子瑜首次为极星“…
 国产手机简史:魅族篇
 魅族20系列和华为Mate60 Pro…
 手机资料迁移教程
 OPPO Find N3 Flip 折叠屏手…
 双5G大电池 畅快轻体验 OPPO…
 Oppo5g手机性价比排行榜
 全球5G智能手机出货量同比增…
 oppo有5g手机吗
 originos什么时候更新vivo官…
 vivo X100系列将于11月亮相:…
 vivo官网安卓版 v4303
 vivo X100将于11月亮相 首发…
 vivo X Note商务旗舰发布京东…
 三星再次引领时代?展示双向…
 霸榜3天这款应用单日收获1亿…
 消息称谷歌正在开发 Pixel F…
 三星A05手机电池信息曝光前辈…
 三星旗舰手机的屏幕神话由来…
 中兴推出 Axon50 Ultra 手机…
 全球首款超薄5G卡片WiFi 中兴…
 中兴 F50 随身 Wi-Fi 开售:…
 5899元起 索尼新一代超广角变…
 售价699元起中兴通讯携手中国…
 华为Mate 50 Pro支持IP68防水…
 华为P60支持5G网络吗 可以用…
 “鸿蒙”商标被抢先注册华为…
 手机32位app升级64位有啥好处…
 “鸿蒙”商标被抢注 华为上诉…
 最新十大热门手机榜单:三星…
 小米手机23年Q2全球高端市场…
专题栏目
网络
您现在的位置: 手机评测网 >> 华为手机 >> 正文
高级搜索
智源「悟道30」Emu模型开源「多模态-to-多模态」全能高手
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/8/30 12:20:56 | 【字体:

  王爷我们离婚吧,Emu 刷新8项性能指标;并且模型能力覆盖图像与文本的生成及视频理解,

  这一突破来自于 Emu 创造性地建立了多模态统一学习框架与视频数据的大量采用,最终得以实现对任意形式的多模态的上下文序列进行图文任意模态的补全,即对于任意模态进行下一步自回归预测。

  在8个涵盖多模态图像/视频和语言任务的基准测试中,Emu 均有不俗表现,对比来自DeepMind 的 Flamingo 与来自微软的 Kosmos 亦有所超越。

  Emu 在众多常用测试基准上表现出极强的零样本性能,展现了模型在遇到未知任务时强大的泛化能力。其中,Emu 在图像描述 COCO Caption 的 CIDEr 得分为112.4,且模型对图片的描述中包含丰富的世界知识。此外,Emu在图像问答 VQAv2 和视频问答 MSRVTT 数据集上也展现了强劲的视觉问答功能。

  表1 Emu和Emu-I(Emu-I是经过指令调整的Emu模型)的多模态理解性能

  同时,Emu具备强大的少样本上下文学习能力,即对于给定任务提供几个示例样本,模型可以进行上下文学习从而更好地完成任务。Emu在视觉问答数据集 VQAv2、VizWiz、MSRVTTQA上的少样本上下文学习表现突出。

  Emu模型能力覆盖图像与文本的生成及视频理解, 相比其他多模态模型更具通用性,能完成任意图生文以及文生图的多模态任务。例如,精准图像认知、少样本图文推理、视频问答、文图生成、上下文图像生成、图像融合、多模态多轮对话等。

  Emu是一个基于 Transformer 的多模态基础模型,可以接受并处理形式各异的多模态数据,输出指定的多模态数据。从图文对、图文交错文档、交错视频文本等形式各异的海量多模态序列中进行学习与训练后,Emu能对任意形式的多模态上下文序列进行多模态补全,对图像、文本和视频等多种模态的数据进行感知、推理和生成。

  Emu 模型具有强大的视频理解能力,如在下图演示中,针对下面“视频中的女主人公在干什么”这一问题,Emu 模型给出了具有精准事实细节(苹果VR设备)、连贯动作描述(坐在飞机上并使用VR设备)、合理行动猜测(可能在看一段视频或360度视角的飞机外景象)的丰富回答。

  Emu 不只能理解视频信息,还能做到对视频中时序信息的精细理解。例如下图展示的奶昔制作视频,Emu 分步且完整地描述了奶昔制作步骤。

  Emu 新增了图像融合能力,可以对输入的图像进行创造性地融合,并生成新的图片。例如下图最后一行,将两幅世界名画作为输入,Emu 可以生成风格、元素类似的全新画作:

  上下文图像生成也是一项全新的功能,Emu 可以将输入的文本-图片对作为 prompt,结合上下文信息进行图片生成。例如,如果输入图1、图2两张图片,并输入文本指令让Emu 生成以图1的动物为中心,但以图2为风格的图片。依赖于强大的多模态上下文生成能力,Emu可以完成相应的指令。下图的第一行展示了如果在“文生图”时提供了context,Emu 会结合context 的风格,生成油画风格的图片,而相同的文本在无context 的情况下进行“文生图”只会生成现实风格的图片:

  Emu 可根据一张或者多张图或视频进行问答和多轮对话。如下第一张图所示,给出一张景点图并询问旅游注意事项,Emu 给出了5个要点,其中再就第5个要点 “ safety equipment”提问时,Emu 能够针对这一点进行更加详细地阐述。最后,Emu 还可以根据图片作诗。

  Emu 还有一项突出的能力是它的世界知识更丰富。如下图所示,给出两张动物的图,询问这两张图的区别,Emu 可以准确描述动物的名称及分布地:

  Emu 模型可以准确识别画作,例如下图输入莫奈的《日出·印象》这幅作品, Emu 不仅准确回答出了作品的名字,描述了画面信息,还给出了很多背景知识,例如这是著名印象派风格的作品。而 mPLUG-Owl 、LLaVA 并不知道画作的名称,只是简单描述了画中场景。InstructBLIP 给出了作品名称和描述,但在背景知识上略逊于 Emu。

  再看下图,给出阿加莎·克里斯蒂的肖像,问题是“说出这位女性写的8本书并推荐一本给我”,Emu 正确理解了这个问题,识别出作者并列出其8个作品,并从中挑选了伟大的代表作推荐。LLaVA 人物识别准确,只部分理解了题意,给出推荐作品,但并没有给出8个代表作。mPLUG-Owl  识别出了人物 ,也是部分理解了问题,只给出了4部作品和一句话简介。InstructBLIP 则给出了一个错误答案。

  多模态大模型( LMM )成为新晋研究热点,现有工作常将大语言模型与预训练视觉编码器连接来构建多模态大模型。

  尽管现有的 LMMs 很有效,但主要以预测下一个文本 token 作为训练目标,而对视觉模态缺乏监督。这样的训练目标也限制了模型在推理应用时只能输出文本回复,而不具有生成图片回复的能力。

  此外,数据直接影响到模型的搭建,视频数据正愈来愈成为图像信息时代的主要信息形态。带有交错图像字幕的视频数据,相比于图文交错文档,天然包含更密集的视觉信号,且与文本编码有更强的跨模态关联性。而现有工作主要利用图像-文本对及图文文档进行训练,对视频数据有所忽略。

  如何把海量多模态数据包括视频数据纳入一个更加「统一」的多模态学习框架,从而提升多模态大模型的通用性,智源视觉团队解决了几个重要问题:

  智源视觉团队采用的多模态交错数据具体包括图像-文本对 (LAION-2B、LAION-COCO)、交错图像-文本数据 (MMC4)、视频-文本对 (Webvid-10M) 和交错视频-文本数据 (YT - temporal - 1b),将视觉表征与文本序列共同构成多模态序列,并进行统一的自回归建模。

  视频训练数据源自研究团队从YouTube上收集的1800万个视频(非原始视频,故事板图像)及其相应的字幕,二者结合创造了一个按时间戳顺序排序的视频和文本的自然交错序列。

  模型训练方面,Emu将自回归地预测多模态序列中的下一个元素(既包含文本也包含图像)作为统一的学习目标进行预训练。在这种不同形式的数据、统一形式的目标下完成训练后。Emu便成为了一个“通才”模型,可以轻松应对各种多模态任务,包括图生文以及文生图。

华为手机录入:admin    责任编辑:admin 
  • 上一个华为手机:

  • 下一个华为手机: 没有了
  •  
     栏目文章
    普通华为手机 智源「悟道30」Emu模型开源「多模态-to-多模态… (08-30)
    普通华为手机 鸿蒙OS 40正式发布流畅20%的同时还更省电了? (08-30)
    普通华为手机 emui11新功能介绍_emui11支持哪些机型 (08-30)
    普通华为手机 华为Mate 50 Pro支持IP68防水吗 是鸿蒙系统吗… (08-28)
    普通华为手机 华为P60支持5G网络吗 可以用鸿蒙系统吗? (08-28)
    普通华为手机 “鸿蒙”商标被抢先注册华为上诉失败鸿蒙系统… (08-28)
    普通华为手机 手机32位app升级64位有啥好处?华为:运行快延… (08-28)
    普通华为手机 “鸿蒙”商标被抢注 华为上诉失败 鸿蒙系统或… (08-28)
    普通华为手机 小米手环7NFC版支持哪些功能 支持鸿蒙系统吗? (08-28)
    普通华为手机 起售30万元配华为系统阿维塔11鸿蒙版来袭 (08-28)
    普通华为手机 Harmony OS如何打开负一屏 鸿蒙系统负一屏设置… (08-28)
    普通华为手机 “鸿蒙座舱+华为ADS 2.0智驾系统” 阿维塔1… (08-28)
    普通华为手机 小米Watch S1 Pro用什么软件连接 支持华为鸿蒙… (08-28)
    普通华为手机 如何关掉华为鸿蒙系统超级终端 华为鸿蒙系统超… (08-27)
    普通华为手机 如何关掉华为鸿蒙系统负一屏 华为鸿蒙系统负一… (08-27)
    普通华为手机 保姆级华为鸿蒙40使用教程48小时体验告诉你详… (08-27)
    普通华为手机 升级系统等于换手机!华为鸿蒙4发布一文看懂都… (08-27)
    普通华为手机 Mate 50能用鸿蒙系统吗 华为可以升级鸿蒙系统… (08-27)
    普通华为手机 阿维塔11“软实力”提升 鸿蒙座舱正式加入 (08-26)
    普通华为手机 华为鸿蒙正式来了!这套系统到底牛在哪里? (08-26)