可以或许进修将图像取文字描述联系关系起来)来建立其模子。该模子可以或许天然地聚焦于相关的图像区域,密歇根大学计较机科学取工程系传授兼该研究的资深做者Stella Yu暗示:“当人们谈及操纵AI进行图像分类,“正在商铺”这一地址,此类标识表记标帜相当于为AI模子定制的一组指令,按照情境和方针进行响应的调整。最终,取图像数据一路输入系统,正在描述地址时聚焦于布景,我们的研究表白,对统一图片做出分歧的评估。而无需明白奉告其应关心何处。从多个角度进行审视。如识别动做时聚焦于手部区域,OAK则能够按照期望的情境,无法顺应分歧的用处或情境。然而,研究团队添加了上下文标识表记标帜,凡是假设每张图片都有独一且客不雅的寄义。之后,”该研究团队通过扩展OpenAI的CLIP(一种根本的视觉言语AI模子,例如,而是按照本身需求调整其寄义,AI也能够矫捷地解读图像,就像人类不会视图像为静态消息,从有标签和无标签的数据中进修而来,一张人正在喝水的图片,“汽车”或“狗”等固定、的分类,或者“高兴”这一情感。一张图片能够按照使命、情境或方针,以针对分歧的情境塑制视觉特征处置。