将感官转化为媒体：我们能教人工智能感知吗？

人类通过不同的感官感知世界：我们看到，感觉到，听到，品尝和嗅觉。我们感知的不同感官是多渠道的信息，也称为多模态。这是否意味着我们感知到的东西可以被视为多媒体？
LIACS的候选人Shue Wang博士将感知转化为多媒体，并使用人工智能（AI）从多模态过程中提取信息，类似于大脑处理信息的方式。在她的研究中，她以四种不同的方式测试了人工智能的学习过程。

将单词放入向量

首先，Xue研究了词嵌入学习：将单词翻译成向量。向量是具有两个属性的量，即方向和大小。具体而言，本部分涉及如何改进信息的分类。薛先生提出使用一种新的AI模型，将单词与图像联系起来，从而更容易对单词进行分类。在测试模型时，如果AI做错了什么，观察者可能会进行干预。研究表明，该模型比以前使用的模型性能更好。

查看子类别

研究的第二个重点是图像伴随其他信息。对于这个主题，薛先生观察到了标记子类别的潜力，也称为细粒度标记。她使用了一个特定的AI模型，可以更轻松地对周围文本较少的图像进行分类。它将粗标签（常规类别）与细粒度标签（子类别）合并。该方法在构建简单和困难的分类方面是有效和有帮助的。

查找图像和文本之间的关系

第三，研究图像和文本关联。本主题的一个问题是，此信息的转换不是线性的，这意味着它可能难以测量。薛找到了这个问题的潜在解决方案：她使用了基于内核的转换。内核代表机器学习中的特定算法类。使用所使用的模型，人工智能现在可以看到图像和文本之间的意义关系。

查找图像和文本中的对比度

最后，薛薛专注于伴有文字的图像。在这一部分中，人工智能必须查看文字和图像之间的对比。AI模型做了一个称为短语接地的任务，即图像标题中的名词与图像的某些部分的链接。没有观察员可以干涉这项任务。研究表明，人工智能可以将图像区域与名词联系起来，在这个研究领域具有平均的准确性。

人工智能的感知

这项研究为多媒体信息领域做出了巨大贡献：我们看到人工智能可以对单词进行分类，对图像进行分类并将图像链接到文本。进一步的研究可以利用薛提出的方法，并有望在AI的多媒体感知中产生更好的见解。

原文标题：Turning senses into media: Can we teach artificial intelligence to perceive?
原文链接：https://techxplore.com/news/2022-06-media-artificial-intelligence.html
作者：Leiden University
编译：LCR

将感官转化为媒体：我们能教人工智能感知吗？

浏览过的版块