初学者指南：图像识别和深度学习

图像识别和深度学习的基础知识

看起来很多最新的技术创新都依赖于图像识别，这是正确的。近年来，智能手机中的面部识别技术，自动驾驶汽车的自动模式以及成像技术取得了长足的进步。他们都使用能够理解前方物体的解决方案 - 因此它通常被称为“计算机视觉”。这些计算机能够根据他们“看到”的内容做出准确的决策。

它是如何做到的呢？在本文中，我们将提供有关图像识别如何工作的高级解释，以及为其提供支持的深度学习技术。以下是针对那些没有高级工程背景的人（网上有大量深入的信息），但仍然对图像识别技术感兴趣。

深度学习和神经网络：随着时间变得更聪明的算法

图像识别中的许多现代创新都依赖于深度学习技术，一种先进的机器学习类型，以及人工智能的现代奇迹。典型的机器学习接收数据，推动算法，然后进行预测; 这给人的印象是计算机正在“思考”并得出自己的结论。深度学习的不同之处在于，如果有足够的时间，它能够确定结论是否正确。

这对于图像识别非常重要，因为您需要像自动驾驶汽车这样的东西来区分路标和行人。深度学习技术的工作原理是神经网络。

神经网络使用彼此相邻的算法。这使得每种算法都取决于其他周围算法的结果。这创建了一个过程，试图模拟我们用作人类的逻辑推理（以及我们称之为“人工智能”的原因）。对于图像识别，使用的神经网络类型称为卷积神经网络。

卷积神经网络：将图像分解为数字

当我们看到某些东西时，我们的大脑通过标记，预测和识别特定模式来理解它，使用卷积神经网络（CNN）的计算机以类似的方式处理信息，但它通过使用数字来处理。在我们通过视觉感知（与我们的其他感官一起）识别模式的地方，CNN通过将图像分解为数字来实现。

CNN的内部工作显然远比数字模式更复杂和技术性，但重要的是要知道卷积是什么：产生第三个函数的两个函数的组合。使用卷积的神经网络合并多组信息，将它们汇集在一起以创建图像的精确表示。在汇集之后，图像在许多数据中被描述，神经网络可以使用这些数据来预测它是什么。然后，计算机可以将该预测应用于其他应用程序，例如解锁手机。

如果预测准确，神经网络将随着时间的推移而学习。与其他任何东西一样，计算机需要进行大量培训才能使其预测正确; 他们不会自动知道如何对现实世界中调用的对象进行分类。

图像数据集：将经验应用于更具挑战性的案例

许多人不了解人工智能的东西是人类在制作所谓的数据集方面做了多少工作。这就是深度学习模型的培训方式：它实践根据数据集中的信息进行预测，并在实际情况中使用该经验。图像识别是人工智能开发和广泛使用的一种形式，部分原因在于数据集的开发方式。图像识别的一个值得注意的例子是ImageNet，它是人工智能首批广泛使用的图像数据库之一。

ImageNet项目标记了320万张图像，并促使研究人员开发自己的算法模型。这些标记图像创建了一个AI模型可以练习的数据集，识别复杂程度越来越高的图像并利用更高级的卷积。最终，ImageNet被AlexNet所采用，后者利用了一种至今仍在使用的深度卷积神经网络架构。

为了使AI应用程序能够处理如此大量的信息并在深度学习模型中有效地使用它，它需要一些非常有效的处理能力。