Hi,欢迎来到物公基!
X
X
首页> 新品速递>机器视觉领域迎来GPT-3时刻!新模型接连炸场 图像识别门槛大幅降低

物公基资讯

展会推荐 行业峰会 新品速递 企业新闻 行业动态 资本资讯 前沿科技 产品知识 资料库

机器视觉领域迎来GPT-3时刻!新模型接连炸场 图像识别门槛大幅降低

短短一周不到,视觉范畴连续迎来新模型“炸场”,图画辨认门槛大幅下降——
  这场AI热潮中鲜见动态的Meta总算出手,推出Segment Anything东西,可准确辨认图画中的对象,模型和数据全部开源
  国内智源研讨院视觉团队也提出了通用切割模型SegGPT(Segment Everything in Context),这也是首个利用视觉上下文完结各种切割任务的通用视觉模型
  其中,Meta的项目包含模型Segment Anything Model(SAM)、数据集Segment Anything 1-Billion mask dataset(SA-1B),公司称后者是有史以来最大的切割数据集。
  引起业内颤动的便是这一SAM模型:
1. 正如名字“Segment Anything”相同,该模型可以用于切割图画中的全部对象,包含练习数据中没有的内容;
2. 交互方面,SAM可运用点击、框选、文字等各种输入提示(prompt),指定要在图画中切割的内容,这也意味着,用于自然语言处理的Prompt形式也开始被应用在计算机视觉范畴
3. 对于视频中物体,SAM也能准确辨认并快速标记物品的品种、名字、巨细,并自动用ID为这些物品进行记录和分类。
  英伟达人工智能科学家Jim Fan将Meta的这项研讨称作计算机视觉范畴的“GPT-3时刻”之一——其切割方法可以通用,可对不熟悉的物体和图画进行零样本泛化,开始验证了多模态技术路径及其泛化能力
  进一步来说,SAM可以灵敏集成于更大的AI体系。例如,了解网页的视觉和文本内容;在AR/VR范畴,将头显用户视线作为提示来选择对象,然后将其“提高”到3D中;对于内容创作者,SAM可提取图画区域以进行拼贴或视频编辑;SAM还可通过定位动物或物体在视频中进行研讨和跟踪。
  另一方面,智源研讨院视觉团队的SegGPT模型则更偏重于批量化标示切割能力。无论是在图画仍是视频环境,用户在画面上标示辨认一类物体,即可批量化辨认切割出其他所有同类物体。
  例如,若在一张图画中标示彩虹,便可将其他图画中的彩虹也一同批量辨认切割出来。


  西部证券指出,Meta此次推出SAM,预示着大模型在多模态发展方面更进一步,布局计算机视觉/视频的厂商有望继续受;还有券商补充称,SAM模型突破了机器视觉底层技能
  国盛证券估计,估计1-5年内,多模态发展将带来AI泛化才能提升,通用视觉、通用机械臂、通用物流转移机器人、职业服务机器人、真实的智能家居会进入生活;5-10年内,结合复杂多模态计划的大模型有望具有齐备的与世界交互的才能,在通用机器人、虚拟现实等范畴得到使用。


 

更多文章