文章
  • 文章
搜索
首页 >> 科技 >>新鲜科技 >> 微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure
详细内容

微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure

时间:2023-03-15     作者:吴老师股票合作【原创】   阅读

Florence开启免费体验,登上Azure " BROADCAST="in" SIZE="" TOPICID="1000" COMMENTID="" COMMENTBOARD="" VID="VFUPINH17"-->


Reddit

Reddit消费品产品经理Tiffany Ong表示,通过微软的Vision技术,可以使用户更容易发现和理解Reddit上的内容。

新创建的图片描述可以让用户更容易地访问Reddit,使用图像描述来帮助用户提高文章的搜索结果,让Reddit用户有更多机会来探索网站上的图片,参与对话,并最终建立联系和社区感知。

Florence能够为每张图片生成多达10000个标签,使得Reddit能够更好地控制图片中的物体数量,并帮助生成更好的图像描述。

Microsoft 365

除了微软数据中心之外,微软也正在提升Microsoft 365应用程序(包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive)中视觉服务的能力。

在图像分割能力的帮助下,Teams正在推动数字空间的创新型,把虚拟会议的体验提升到新高度。

PowerPoint、 Outlook和Word利用自动替换文本的图像描述来提高可访问性。

Microsoft Designer和OneDrive正在使用改进的图像描述、图像搜索和背景生成来简化图像的可发现性和编辑。

Microsoft数据中心正在利用Vision Services来增强安全性和基础设施的可靠性。

LinkedIn

LinkedIn的无障碍工程负责人Jennison Asuncon表示,LinkedIn上有超过40%的帖子中包含至少一张图片,对于盲人或是低视力的用户来说,视觉服务能够让所有用户都有平等的阅读机会,并使他们能够参与到在线对话中。


通过Azure视觉认知服务,LinkedIn可以提供自动图像描述来编辑和支持可选文本,这是一种全新的体验。

不仅我对此感到兴奋,我的同事刚刚分享了一个他们参加活动的照片,LinkedIn的首席执行官Ryan Roslansky也在照片里。

负责任地创新

回顾负责任的人工智能原则,可以了解到微软是如何致力于开发人工智能系统,以提升世界的可访问性。


微软致力于帮助各个组织充分利用人工智能,并正在大力投资于提供技术、资源和专业知识的项目,以增强那些致力于创造一个更可持续、更安全和更容易进入的世界的人的能力。

多模态是未来

包括微软、谷歌在内的多个科技巨头在人工智能发展方向上出奇地一致,认为「多模态模型」是提高人工智能系统能力的最佳途径,也就是单个模型可以同时理解语言、图像、视频和音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述等。


为什么不把几个「单模态」模型串在一起,以达到同样的目的,比如说用一个模型来理解图像,而另一个模型用来理解语言?

第一个原因是,由其他模态提供的背景信息,多模态模型可以在某些情况下比单模态模型在同一任务中表现得更好。

比如说,一个能够理解图像、定价数据和购买历史的人工智能助手可以比一个「只理解定价数据」的AI能够提供更好的个性化产品建议。

并且从计算的角度来看,多模态模型往往更有效率,可以提升数据处理的速度,降低后端的成本。

毫无疑问,所有商业公司都渴望降本增效。


Florence能够理解图像、视频和语言以及这些模态之间的关系,从而可以做到一些单模态无法完成的任务,比如测量图像和文本之间的相似度,分割照片中的对象,然后把它们粘贴到另一个背景上。

几乎所有AI模型的训练都面临数据版权问题,Azure AI的企业副总裁(CVP)John Montgomery在回答有关「Florence的训练数据」时没有透露太多信息,只是说Florence使用的是「负责任地获取」的数据源,包括来自合作伙伴的数据;此外,Montgomery表示,训练数据中删除了可能存在问题的内容,也是公开训练数据集的常见特点。


Montgomery认为,当使用大型基础模型时,最重要的是要确保训练数据集的质量,为每个视觉任务的适应模型创建基础,微软针对每个视觉任务的调整模型都经过了公平性、对抗性和挑战性案例的测试,并实现了与 Azure Open AI Service 和 DALL-E 相同的内容审核服务。

在未来,消费者可以使用Florence做更多的事情,比如检测制造过程中的缺陷,以及在零售店实现自助结账。

不过Montgomery指出这些用例实际上并不需要多模态视觉模型,但他断言,多模态在这个过程中可以增加一些有价值的东西。

Florence是一个经过「完全重新思考」的视觉模型,一旦在图像和文本之间实现了简单且高质量的翻译过程,就会打开一个全新的、充满未知可能性的世界。

客户能够体验到显著改进的图像搜索,将图像和视觉模型以及语言和语音等其它模型类型训练成全新类型的应用,并轻松提高自定义模型的质量。


最新评论
请先登录才能进行回复登录

Copyright @ 2018 . All rights reserved.

浙公网安备33068102001146号

  • 电话直呼

    • 15050108135
    • 吴老师 :
    • 吴老师 :
    • 吴老师 :
    • 吴老师 :
技术支持: CLOUD | 管理登录
seo seo