将感官转化为媒体:我们能教人工智能感知吗?

2022-7-20 07:22| 发布者: japdc09zog| 查看: 2236| 评论: 0

这里是默认签名


人类通过不同的感官感知世界:我们看到,感觉到,听到,品尝和嗅觉。我们感知的不同感官是多渠道的信息,也称为多模态。这是否意味着我们感知到的东西可以被视为多媒体?
LIACS的候选人Shue Wang博士将感知转化为多媒体,并使用人工智能(AI)从多模态过程中提取信息,类似于大脑处理信息的方式。在她的研究中,她以四种不同的方式测试了人工智能的学习过程。
将单词放入向量

首先,Xue研究了词嵌入学习:将单词翻译成向量。向量是具有两个属性的量,即方向和大小。具体而言,本部分涉及如何改进信息的分类。薛先生提出使用一种新的AI模型,将单词与图像联系起来,从而更容易对单词进行分类。在测试模型时,如果AI做错了什么,观察者可能会进行干预。研究表明,该模型比以前使用的模型性能更好。

查看子类别

研究的第二个重点是图像伴随其他信息。对于这个主题,薛先生观察到了标记子类别的潜力,也称为细粒度标记。她使用了一个特定的AI模型,可以更轻松地对周围文本较少的图像进行分类。它将粗标签(常规类别)与细粒度标签(子类别)合并。该方法在构建简单和困难的分类方面是有效和有帮助的。

查找图像和文本之间的关系

第三,研究图像和文本关联。本主题的一个问题是,此信息的转换不是线性的,这意味着它可能难以测量。薛找到了这个问题的潜在解决方案:她使用了基于内核的转换。内核代表机器学习中的特定算法类。使用所使用的模型,人工智能现在可以看到图像和文本之间的意义关系。

查找图像和文本中的对比度

最后,薛薛专注于伴有文字的图像。在这一部分中,人工智能必须查看文字和图像之间的对比。AI模型做了一个称为短语接地的任务,即图像标题中的名词与图像的某些部分的链接。没有观察员可以干涉这项任务。研究表明,人工智能可以将图像区域与名词联系起来,在这个研究领域具有平均的准确性。

人工智能的感知

这项研究为多媒体信息领域做出了巨大贡献:我们看到人工智能可以对单词进行分类,对图像进行分类并将图像链接到文本。进一步的研究可以利用薛提出的方法,并有望在AI的多媒体感知中产生更好的见解。

原文标题:Turning senses into media: Can we teach artificial intelligence to perceive?
原文链接:https://techxplore.com/news/2022-06-media-artificial-intelligence.html
作者:Leiden University
编译:LCR
这里是默认签名
回复

使用道具 举报

上一篇:血压、血糖、血脂、尿酸标准对照表,忌口清单全都有

下一篇:创新焕发活力 人工智能加速“拥抱”实体经济

sitemap.txt | sitemap.xml | sitemap.html |Archiver|手机版|小黑屋|彩虹邦人脉系统 ( 皖ICP备2021012059号 )

GMT+8, 2025-1-10 18:21 , Processed in 0.210149 second(s), 46 queries .

快速回复 返回顶部 返回列表