人类通过不同的感官感知世界:我们看到,感觉到,听到,品尝和嗅觉。我们感知的不同感官是多渠道的信息,也称为多模态。这是否意味着我们感知到的东西可以被视为多媒体?
LIACS的候选人Shue Wang博士将感知转化为多媒体,并使用人工智能(AI)从多模态过程中提取信息,类似于大脑处理信息的方式。在她的研究中,她以四种不同的方式测试了人工智能的学习过程。
将单词放入向量
首先,Xue研究了词嵌入学习:将单词翻译成向量。向量是具有两个属性的量,即方向和大小。具体而言,本部分涉及如何改进信息的分类。薛先生提出使用一种新的AI模型,将单词与图像联系起来,从而更容易对单词进行分类。在测试模型时,如果AI做错了什么,观察者可能会进行干预。研究表明,该模型比以前使用的模型性能更好。
查看子类别
研究的第二个重点是图像伴随其他信息。对于这个主题,薛先生观察到了标记子类别的潜力,也称为细粒度标记。她使用了一个特定的AI模型,可以更轻松地对周围文本较少的图像进行分类。它将粗标签(常规类别)与细粒度标签(子类别)合并。该方法在构建简单和困难的分类方面是有效和有帮助的。
查找图像和文本之间的关系
第三,研究图像和文本关联。本主题的一个问题是,此信息的转换不是线性的,这意味着它可能难以测量。薛找到了这个问题的潜在解决方案:她使用了基于内核的转换。内核代表机器学习中的特定算法类。使用所使用的模型,人工智能现在可以看到图像和文本之间的意义关系。
查找图像和文本中的对比度
最后,薛薛专注于伴有文字的图像。在这一部分中,人工智能必须查看文字和图像之间的对比。AI模型做了一个称为短语接地的任务,即图像标题中的名词与图像的某些部分的链接。没有观察员可以干涉这项任务。研究表明,人工智能可以将图像区域与名词联系起来,在这个研究领域具有平均的准确性。
人工智能的感知
这项研究为多媒体信息领域做出了巨大贡献:我们看到人工智能可以对单词进行分类,对图像进行分类并将图像链接到文本。进一步的研究可以利用薛提出的方法,并有望在AI的多媒体感知中产生更好的见解。
原文标题:Turning senses into media: Can we teach artificial intelligence to perceive?
原文链接:https://techxplore.com/news/2022-06-media-artificial-intelligence.html
作者:Leiden University
编译:LCR |