微软新作,ImageBERT虽好,千万级数据集才是亮点
| 2020-02-05 16:51:53 标签:
电脑不亮了怎么办?系统蓝屏如何处理?办公室的电脑在家如何连接?网络应该如何设置?VPN如何搭建?数据如何对接?服务器如何登录?数据安全如何保证?数据如何存储?视频会议如何搭建?业务系统如何开启等等一系列的问题,都会困扰着并非技术出身的您。
好消息是当您看到这篇文章的时候,就不用再为上述的问题而苦恼,您只需拨打艾锑无限的全国免费热线电话:400 650 7820,就会有我们的远程工程师为您解决遇到的问题,他们可以远程帮您处理遇到的一些IT技术难题。
如遇到免费热线占线,您还可以拨打我们的24小时值班经理电话:15601064618或技术经理的电话:13041036957,我们会在第一时间接听您的来电,为您提供适合的解决方案,让您无论在家还是在企业都能无忧办公。
那艾锑无限具体能为您的企业提供哪些服务呢?
艾锑无限始创于2005年,历经15年服务了5000多家中小企业并保障了几十万台设备的正常运转,积累了丰富的企业IT紧急问题和特殊故障的解决经验,制定了相对应的解决方案。我们为您的企业提供的IT服务分为三大版块:
第一版块是保障性IT外包服务:如电脑设备运维,办公设备运维,网络设备运维,服务器运维等综合性企业IT设备运维服务。
第二版块是功能性互联网外包服务:如网站开发外包,小程序开发外包,APP开发外包,电商平台开发外包,业务系统的开发外包和后期的运维外包服务。
第三版块是增值性云服务外包:如企业邮箱上云,企业网站上云,企业存储上云,企业APP小程序上云,企业业务系统上云,阿里云产品等后续的云运维外包服务。
您要了解更多服务也可以登录艾锑无限的官网:www.bjitwx.com查看详细说明,在疫情期间,您企业遇到的任何困境只要找到艾锑无限,能免费为您提供服务的我们绝不收一分钱,我们全体艾锑人承诺此活动直到中国疫情结束,我们将这次活动称为——春雷行动。
以下还有我们为您提供的一些技术资讯,以便可以帮助您更好的了解相关的IT知识,帮您渡过疫情中办公遇到的困难和挑战,艾锑无限愿和中国中小企业一起共进退,因为我们相信万物同体,能量合一,只要我们一起齐心协力,一定会成功。再一次祝福您和您的企业,战胜疫情,您和您的企业一定行。
微软新作,ImageBERT虽好,千万级数据集才是亮点
继 2018 年谷歌的 BERT 模型获得巨大成功之后,在纯文本之外的任务上也有越来越多的研究人员借鉴了 BERT 的思维,开发出各种语音、视觉、视频融合的 BERT 模型。
雷锋网 AI 科技评论曾专门整理并介绍了多篇将BERT应用到视觉/视频领域的重要论文,其中包括最早的VideoBERT以及随后的ViLBERT、VisualBERT、B2T2、Unicoder-VL、LXMERT、VL-BERT等。其中VL-BERT是由来自中科大、微软亚研院的研究者共同提出的一种新型通用视觉-语言预训练模型。继语言BERT之后,视觉BERT隐隐成为一种新的研究趋势。
近期,来自微软的Bing 多媒体团队在arXiv上也同样发表了一篇将BERT应用到视觉中的论文《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》
雷锋网(公众号:雷锋网)提供论文链接:https://arxiv.org/abs/2001.07966v1
在这篇文章中,作者提出了一种新的视觉语言预训练模型ImageBERT,并从网络上收集了一个大型的弱监督图像-文本数据集LAIT,包含了 10M(1千万)的 Text-Image pairs,这也是目前最大的一个数据集。利用ImageBERT模型和LAIT数据集进行预训练,在MSCOCO和Flicker30k上进行文本到图像、图像到文本的检索任务上获得了不错的结果。
2、背景及相关工作
随着Transformer的提出并广泛应用于跨模态研究,近一年以来,各项任务上获得的结果被推向了一个新的“珠穆朗玛峰”。虽然几乎所有最新的工作都是基于Transformer,但这些工作在不同的方面各有不同。
模型架构的维度:
BERT是面向输入为一个或两个句子的 NLP 任务的预训练模型。为了将 BERT 架构应用于跨模态任务中,现在已有诸多处理不同模态的方法。ViLBERT和LXMERT 先分别应用一个单模态Transformer到图像和句子上,之后再采用跨模态Transformer