智能制造大趋势下的广阔赛道，机器视觉产业链价值涌现

发表于：2023-01-03 来源：

一、行业概述

（一）机器视觉与计算机视觉的定义

机器视觉是运用一个或多个相机、ADC（模拟数字转换器），以及DSP（数字信号处理）等赋予机器“看见”这个世界的能力。根据AIA（国际自动成像协会）的定义，机器视觉指利用软件和硬件相结合的解决方案，为工业和非工业应用场景里的设备提供基于成像与图像处理的操作指令。成像主要由硬件部分实现；图像处理主要由软件与算法部分完成，对成像结果进行处理与分析，随后将分析结果输出至执行单元。

计算机视觉是采用图像处理、模式识别、人工智能技术相结合的手段，着重于一幅或多幅图像的计算机分析。图像可以由一个或者多个传感器获取，也可以是单个传感器在不同时刻获取的图像序列；通过对目标物体的识别，确定目标物体的位置和姿态，对目标物体进行描述和解释。

（二）机器视觉与计算机视觉的关联与区别

机器视觉指用机器替代人眼进行测量和判断；计算机视觉指利用计算机和其辅助设备来模拟人的视觉功能，实现对客观世界的三维场景的感知、识别和理解。机器视觉和计算机视觉是两个不同的概念，侧重点也不同。机器视觉主要侧重工程上的应用，强调实时性、高精度和高速度，而计算机视觉侧重理论算法的研究，强调理论，由于理论的研究发展速度往往快于实践应用，也就是说计算机视觉的发展速度要远超过其应用速度，因此计算机视觉领域的许多技术目前还难以应用到机器视觉上，但是二者仍然共用一套理论系统，只是发展的方向不同而已，一个侧重实际应用，一个侧重理论算法的研究，无法互相替代。

（三）计算机视觉与机器视觉发展历史

1. 20世纪60年代

1963年，Larry Roberts（计算机视觉先驱，Internet发明者）发表论文《Machine Perception of Three-dimensional Solids》，奠定了机器视觉技术研究理论的基础。Roberts通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构，并对物体形状及物体的空间关系进行描述。Roberts的研究工作开创了以理解三维场景为目的的三维机器视觉的研究。Roberts对积木世界的创造性研究给人们以极大启发，人们对积木世界进行了深入研究，研究的范围从边缘、角点等特征提取，到线条、平面、曲面等几何要素分析，一直到图像明暗、纹理、运动，以及成像几何等，并建立了各种数据结构和推理规则。

图：积木世界

资料来源：《Machine Perception of Three-dimensional Solids》

1966年，麻省理工学院发起了一个夏季项目，目标是搭建一个机器视觉系统，完成模式识别（Pattern Recognition）等工作，提案中多次提到“寻找物体的边界（Edge Detection）”以及“物体识别（Object Recognition）”等。这个项目没有成功，而计算机视觉作为一个专门研究课题却出现在了历史的舞台上。

1969年，第一片CCD（Charge Coupled Device）图像传感器诞生于贝尔实验室，为机器视觉行业开启了数码图像采集的大门，自此人类社会的各个领域开始与图像和视觉连接。在半导体行业诞生与发展的同时，机器视觉领域的发展也已拉开帷幕。

电荷耦合器件图像传感器CCD是用一种高感光度的半导体材料制作而成，能把光线转变成电荷，通过模数转换器芯片转换成数字信号，数字信号经过压缩以后由相机内部的闪速存储器或内置硬盘卡保存；与此相比，传统固态电子器件的信息存在和表示方式通常是用电流或电。因此，CCD对信息的表达具有更高的灵敏度，从而可以轻而易举地把数据传输给计算机，并借助于计算机的处理手段，根据需要和想象来修改图像。

资料来源：《CCD图像传感器-颠覆人类记录影像的方式》

2. 20世纪70年代

David Marr（公认为计算神经科学的创始人，麻省理工学院教授）在20世纪70年代提出了一个新的理论——Marr视觉理论，是计算机视觉研究领域的第一个重要理论框架，并开始形成系统的理论，标志着计算机视觉成为了一门独立的学科，大大推动了计算机视觉研究的发展。

他指出视觉信号处理应该是层次化的，底层视觉算法应该成为高级视觉理解的基石。Marr视觉理论包含两个主要观点：第一，三维重建问题，即人类视觉的主要功能是复原三维场景的可见几何表面；第二，从二维图像到三维几何结构的复原过程可以通过计算完成，并提出了从图像基元图（The Primal Sketch)→2.5维图（2.5 Dimensional Sketch）→3维模型（3-D Model）一套完整的计算理论和方法，因此Marr视觉理论也被称为三维重建论。

其中，图像基元图是指获得表示图像中变化和结构的表象，这包括检测灰度的变化、表示和分析局部的几何结构，以及检测照明的效应等处理。物体2.5维描述是指对图像基元图进行一系列运算，得到能反映可见表面几何特征的表象。物体3维描述是指在物体自身坐标系下对物体的描述，如球体以球心为坐标原点的表述。

图：David Marr所理解的计算机视觉表示

资料来源：《Vision: A Computational Investigation into the Human Representation and Processing of Visual Information》

近乎同一时期，学者们提出了以广义的柱体和草图结构（Generalized Cylinder & Pictorial Structure）表示人体模型，用以简化模型及其计算代价。它的基本思想是每个对象都由简单的几何图形单位组成，例如一个人可以通过广义的圆柱形状拼接在一起，也可以由一些关键元素按照不同的间距组合在一起，因此，无论哪种表示法都是将物体的复杂结构简化为较简单的形状的一种方式，这些研究已影响很长一段时间。

图：广义的柱体和草图结构

来源：《The ACRONYM Model-Based Vision System》、

《The Representation and Matching of Pictorial Structures》

3. 20世纪80年代

80年代以后，计算机视觉蓬勃发展，新概念、新方法、新理论不断涌现，最具代表性的是出现了主动视觉学派、目的视觉学派等。主动视觉强调两点，一是认为视觉系统应具有主动感知的能力；二是认为视觉系统应基于一定的任务或目的，须将视觉系统与具体目的（如导航、识别、操作等）相联系，从而形成感知/作用环。目的视觉认为视觉都有目的，目的就是行为。针对具体的对象和应用场合，目的视觉己经广泛应用于工农业及其他各行各业。

同时，逻辑学和知识库等理论在人工智能领域占据主导地位。人们试图建立专家系统来存储先验知识，然后与实际项目中提取的特征进行规则匹配。这种思想也同样影响了计算机视觉领域，于是诞生了很多这方面的方法。例如，David G. Lowe（英属哥伦比亚大学计算机科学系教授）在论文《Three-Dimensional Object Recognition from Single Two-Dimensional Images》中提出了基于知识的视觉（Knowledge-based Vision）的概念。

图：基于知识的视觉

资料来源：《机器学习观止》

上图中左边是一个普遍接受的，基于深度重建的视觉识别模型图示，David Lowe提出了右图所示的模型，它利用物体的先验知识和准确的验证来解释原本模糊不清的图像数据。

在上世纪80至90年代期间，手工方法的迅速发展，对低级识别很有用。1986年，John F. Canny（加州大学伯克利分校教授）提出了基于高斯滤波抽取局部信息的边缘检测算法，计算图像中每个像素点的梯度强度和方向，对梯度幅度值进行非极大值抑制，即寻找像素点局部最大值，将非极大值点所对应的灰度值设为0，这样可以剔除大部分非边缘点，之后应用双阈值的技术，即设定一个阈值上界和阈值下界，图像中的像素点如果大于阈值上界则认为必然是边缘，小于阈值下界则认为必然不是边缘，两者之间的则认为是候选项，需进一步处理。手工方法无需训练，运行速度也更快，因而在数据和算力短缺的年代得到了广泛应用。

图：John F.Canny提出的边缘检测算法

资料来源：《A Computational Approach to Edge Detection》

4. 20世纪90年代

此时，计算机视觉虽然已发展几十年，但仍然没有得到大规模的应用。很多理论还处于实验室水平，离商用要求相去甚远。人们逐渐认识到计算机视觉是一个非常难的问题，以往的尝试似乎都过于复杂，于是有的学者开始转向另一个方向——图像分割（Image Segmentation）。后者的目标在于运用一些图像处理方法将物体分离出来，以此作为图像分类的第一步。图像分割方向的重大突破来自加州大学伯克利分校的Jitendra Malik（加州大学伯克利分校教授）和他的学生Jianbo Shi（宾夕法尼亚大学助理教授），其于2000年在PAMI上多人合作发表《Normalized Cuts and Image Segmentation》，这是图像分割领域内最经典的算法之一。

在90年代末到2000年的前十年，一个非常有影响力的思想方法，就是基于特征的目标识别。这段时期经历了从全局特征到局部特征的发展，通用的图像识别和检索依然困难，主要原因是局部特征到语义的跨度太大。1991年，Ballard（德克萨斯大学奥斯汀分校教授）等利用全局颜色统计量表示图像，并建立了索引系统。

图：Dana H.Ballard等人提出的颜色索引算法

资料来源：《Color Indexing》

5. 本世纪初期

随着机器学习的兴起，计算机视觉领域开始取得一些实际的应用进展，例如由Josef Sivic（布拉格捷克技术大学教授）和Andrew Zisserman（牛津大学教授）于2003年提出的视觉单词（Visual Words），可以通过执行对SIFT（尺度不变特征变换, Scale-Invariant Feature Transform）描述符进行无监督学习，成功用于图像检索，之后由视觉单词所延伸的词袋模型（Bags of Words）被广泛应用于计算机视觉中。

（1）SIFT（尺度不变特征变换，Scale-Invariant Feature Transform）

David Lowe于1999年首次提出SIFT，并于2004年整理完善后发表于《International Journal of Computer Vision》（IJCV），标志着全局特征开始走向通用化。SIFT算法主要涉及四个步骤：尺度空间峰值检测与选择、关键点定位、方向确定、关键点描述与匹配。

SIFT特征对旋转、尺度缩放、亮度变化等保持不变特性，SIFT图像匹配算法首先利用尺度空间的概念建立图像的尺度空间，在尺度空间中搜索出图像的局部极值点作为候选关键点，去除对比度低的关键点和不稳定的边缘响应点，确定关键点的主方向，生成关键点特征描述子，使每个关键点具有位置、尺度和方向信息，最后采用特征描述符向量之间的欧式距离度量两个特征点之间的匹配程度。

DOG（Difference of Gaussian）尺度空间极值点检测

资料来源：《Distinctive Image Features from Scale-invariant Keypoints》

图：关键点描述

资料来源：《Distinctive Image Features from Scale-invariant Keypoints》

以SIFT为代表的局部特征，通过对局部图像梯度信息的统计，产生了对平移/旋转/缩放等操作的不变性。在深度学习爆发之前，SIFT是计算机视觉领域最重要的基石之一。

（2）词袋模型（Bags of Words）

词袋模型原是自然语言处理领域用于文本信息检索和文本分类的技术。用它做图像表示模型（称为视觉词袋模型）需要将二维的图像信息映射成视觉关键词集合，这样既保存了图像的局部特征，又有效压缩了图像的描述。为了使用视觉词袋模型，首先要在学习阶段建立视觉关键词的集合：在训练图像集中，提取出所有局部特征，然后对这些特征进行聚类，得到的结果是训练集中的普遍特征，此类原型特征称为“视觉词典”。

视觉词袋模型在从训练图像集的图片中提取低级别特征后，需要使用一种无监督算法（如K均值算法）对这些低级别特征进行给定聚类中心数目的聚类。通过把一个聚类中心当作一个视觉关键词，就能把每一个从图像中提取的特征映射到它最接近的视觉词典上，并且能把图像表示为一个视觉词典上的直方图特征。

由于词袋模型通常忽略了视觉单词之间的空间关系，有学者在词袋模型的基础上加入了一些空间信息来弥补词袋模型在空间信息上表示的不足。Lazebnik（伊利诺伊大学教授）等人提出了空间金字塔匹配算法（SPM, Spatial Pyramid Matching），开创性地将图片进行分块和特征提取，以验证图片间的相似度。SPM算法考虑了整个图像在不同尺度下的空间信息，在不同尺度下将图像分为均等的子区域，在每个尺度下计算每个细分子区域的直方图，并最终汇聚成一个特征向量进行分类。

图：空间金字塔匹配算法

资料来源：《Beyond Bags of Features: Spatial Pyramid MatchingFor Recognizing Natural Scene Categories》

Paul Viola（微软工程师，前麻省理工学院教授）和Michael Johns（三菱电机研究实验室计算机视觉研究员）等人利用AdaBoost算法出色地完成了人脸的实时检测，并被富士公司应用到商用产品中。他们主要是基于Haar特征，Haar特征分为：边缘特征、线性特征、中心特征和对角线特征，组合成特征模板。特征模板内有白色和黑色两种矩形，并定义该模板的特征值为白色矩形像素之和，减去黑色矩形像素之和。Harr特征利用图像区域中灰度值的变化反映物体与周围环境的差异。以人脸为例，人的眼睛比脸颊颜色要深，鼻梁两侧比鼻梁颜色要深，嘴巴比周围颜色要深，这些特性都可以通过上述模板表达出来。把矩形放到人脸区域计算出来的特征值和放到非人脸区域计算出来的特征值差别越大越好，这样就可以用来区分人脸和非人脸。

图：通过AdaBoost算法自动筛选出来的对区分人脸和非人脸有用的Haar-like特征

资料来源：《Rapid Object Detection using a Boosted Cascade of Simple Features》

6. 2010年之后

随着并行计算资源不断迭代更新，大规模数据库及评测标准相继构建与公开，深度神经网络开始崛起。2012年，Hinton（多伦多大学教授，谷歌副总裁）的博士生Krizhevsky（2017年离开谷歌前往Dessa公司工作）利用神经网络登顶ImageNet图像分类竞赛，前5分类精度超过第二名10%，震惊业界，并且在高清图像上神经网络首次超越词袋模型；2013年起，鲜有传统方法参加ImageNet竞赛；2014年，物体检测、语义分割、边缘检测等问题被各个攻破。

Ross Girshick（Facebook AI Research研究科学家）2014年提出的区域卷积神经网络（R-CNN）系列工作是目标检测方法的最主要代表性算法。R-CNN首先利用选择性搜索方法生成2,000个最可能是物体的候选检测框，然后利用深度卷积神经网络提取这些候选检测框的深度特征，最后利用支持向量机进行分类和回归。该方法在当时取得了巨大的成功,大幅度提升了目标检测的精度，Ross Girshick在R-CNN之后又提出了“Fast-RCNN”算法，提升了检测速度。

图：Faster-RCNN基本结构

图片来源：《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

加州大学伯克利分校的Jonathan Long等人于2015年提出的全卷积网络（FCN，Fully Convolutional Networks）为图像分割开创了新的途径。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类（全连接层+Softmax输出）不同，在FCN结构中使用卷积层去替代全连接层，即FCN中只有卷积层，所以被称作全卷积神经网络，可以接受任意尺寸的图像输入，对每一个像素都可进行语义预测。最后，使得在数据集PASCAL VOC上的结果比2012年的算法结果提高了约20%。

2017年，Transformer模型由谷歌大脑的一个团队推出并发表于论文《Attention is All You Need》，是一种采用自注意力机制（Self-Attention）的深度学习模型。自注意力机制是人工神经网络中一种模仿认知注意力的技术，这种机制可以增强神经网络输入数据中某些部分的权重，同时减弱其他部分的权重，以此将网络的关注点聚焦于数据中最重要的一小部分。Transformer模型最开始应用于自然语言处理（NLP，Natural Language Processing）。

图：Transformer模型基础架构

图片来源：《Attention Is All You Need》

2020年，Transformer模型首次被应用到了图像分类任务中并得到了比 CNN 模型更好的结果。此后，不少研究都开始尝试将 Transformer 模型强大的建模能力应用到计算机视觉领域。目前，Transformer已经在三大图像问题——分类、检测和分割，都取得了不错的效果。视觉与语言预训练、图像超分、视频修复和视频目标追踪等任务也正在成为 Transformer “跨界”的热门方向，在Transformer结构基础上进行应用和设计，也都取得了不错的成绩。

（三）机器视觉系统构成

机器视觉是“人眼”的替代和延展，如同人类视觉一样，它也拥有一套完整的视觉系统。典型的机器视觉系统是一个包含硬件、软件和算法等诸多单元的应用系统，一般包含光源及光源控制器、镜头、相机、视觉控制系统等；主要包括成像和图像处理两大部分：前者通过硬件部分实现；后者由算法及软件构成的视觉控制系统负责，对成像进行处理分析，输出分析结果至执行机构。

1. 2D视觉

2D视觉系统一般的成像原理为通过相机拍摄获取二维图像，随后通过各项图像分析算法对被测物体进行检测，主要依据为物体在二维空间上的信息和特征。另外，2D视觉需要测量物体的对比度，因此对于光照、颜色、灰度的变化比较敏感，所以测量精度和准确度易受变量照明条件的影响，对光源的要求较高。

（1）光源

光源是机器视觉系统中最关键的部件之一。通过适当的光源照明可将被测物体的目标信息与背景信息区分，突出其特征，另外可通过克服环境光干扰，获得高品质、高对比度的图像，同时进一步降低图像处理算法的难度，提高系统的精度和可靠性。

根据应用场景环境的需求，光源可分为很多类型，如背景光源、条形光源、环形光源、覆盖型光源等。在当前机器视觉领域应用中，由于检测对象以及检测环境条件等的不同需求，目前尚未有通用型的光源照明系统，需针对不同的应用场景以及被测目标来设计合适的光源系统，以达到最佳效果。

（2）镜头

机器视觉系统中的镜头相当于人类眼睛的“晶状体”，其主要作用是将成像目标映射在图像传感器的光敏面上。分辨率、工作距离、景深、视野范围、焦距、畸变量、光圈等指标都对成像的质量起到关键作用，镜头的质量直接影响机器视觉系统的整体性能，因此合理选择和安装镜头，是机器视觉系统设计的重要环节。

（3）图像传感器

相机检测物体时采集正确照明图像的能力不仅取决于镜头，还取决于相机内的图像传感器。图像传感器通常使用电荷耦合装置（CCD）或互补金属氧化物半导体（CMOS）技术将光信号（光子）转换为电信号（电子），其任务本质就是采集光源并将其转换为具有灵敏度和动态范围的噪音平衡的数字图像。

图像其实就是像素的集合。暗光产生暗像素，亮光产生亮像素。确保相机传感器的分辨率能适配应用场景的需求至关重要。分辨率越高，图像细节越高，则测量准确度越高。零件大小、检测公差和其他参数可以指明需要的分辨率。

（4）视觉处理算法和软件

对图像传感器所获得的数字图像进行处理是机器视觉系统的关键所在。机器视觉软件就像系统的“大脑”，通过图像处理算法完成对被测目标的识别、定位、测量、检测等任务，最后根据处理结果做出决定并传输指令至执行端设备。机器视觉软件分为两类——底层算法和二次开发的软件包，前者是包含大量处理算法的工具库，用以开发特定应用，主要使用者为集成商与设备商；后者则是封装好的、用以实现某些功能的应用软件，主要供终端用户使用。

随着计算机视觉技术的飞速发展和进步，越来越多功能强大的机器视觉技术被应用到各种工业场景中，在本报告后续章节会对目前机器视觉领域的若干前沿技术做简要介绍。

2. 3D视觉

由于二维图像无法提供三维空间坐标信息，因此无法实现对被测物体体积、表面角度等特征的测量。随着技术的进步，当前工业场景对机器视觉精确度和自动化的要求越来越高，3D视觉的应用也逐渐增多。3D视觉主要是对2D视觉起到补充的作用，但其成像原理与2D视觉完全不同。根据成像原理的不同，3D视觉主要分为以下四种成像技术：双目视觉（Stereo Vision）、激光三角法（Laser Triangulation）、飞行时间法（ToF，Time of Flight），以及结构光成像（Structured Light Imaging）。

（1）双目视觉（Stereo Vision）

双目视觉成像采用两个相机模仿人类的两只眼睛，通过两个视点观察同一个物体，以获取在不同视角下的物体特征，然后通过三角测量原理来计算图像的视差，从而获得物体的深度信息（人类的两只眼睛获得的图像是存在差别，这个差别被称为“视差”；通过视差可以感知深度信息）。如下图所示，两个相机和被测物体之间构成一个三角形，已知两个相机的相对位置和被测物体在左右两个相机中的像素坐标，通过计算可以得出物体的三维尺寸和特征点的三维坐标。双目视觉成像的深度感知能力会受到两个相机之间距离的限制。

图：双目视觉成像原理

（2）激光三角法（Laser Triangulation）

基于光学三角原理，根据光源（通常为激光）、物体和摄像头三者之间的几何成像关系来确定空间物体各点的三维坐标。激光三角法有单点激光测距和线激光测距。下图为单点激光测距的原理解释图，激光发射器、摄像头与目标物体组成的三角形（红三角）与摄像头、成像点与辅助点组成的三角形（蓝三角）形成相似三角形，通过几何关系计算可得出目标物体三维信息。

图：激光三角测量成像原理

激光三角测量成像对于近距离测量精度非常高，但受到其三角几何计算原理的限制，精度会随着测量距离的增加而减少，因此激光三角测量适用于近距离的工业检测场景。

（3）飞行时间法（ToF，Time of Flight）

飞行时间是从Time of Flight直译过来的，简称ToF，其基本原理是通过连续发射光脉冲（一般为不可见光，如近红外光）到被观测物体上，然后用传感器接收从物体返回的光，通过探测光脉冲的飞行（往返）时间来得到目标物距离。ToF方法具有良好的实时性，可测量距离相对较远（通常为10米至100米）。

ToF法一般分为脉冲调制（Pulse Modulation）和连续波调制（Continuous Wave Modulation）。脉冲调制法的原理相对简单，如下图所示，可直接根据脉冲发射和接收的时间差来测算发射器与物体间的距离，因此脉冲调制法又称为dToF（direct ToF）。dToF具有低功耗、抗干扰能力强、精度不受距离影响等优点。

图：脉冲调制法成像原理

连续波调制法通常采用的是正弦波调制。如下图所示，由于接收端和发射端正弦波的相位偏移和物体距离摄像头的距离成正比，可以利用相位偏移来测量距离，因此连续波调制法又被称为iToF（indirect ToF）。iToF具有原理简单便于集成、分辨率高等优点。

图：连续波调制法成像原理

（4）结构光成像（Structured Light Imaging）

基本原理是将已知的结构化图案投影到被观测物体上，这些结构化图案会因为物体的几何形状和拍摄距离而发生相应的形变，如下图所示。红外摄像头从另一个角度进行观察，通过分析观测图案与原始图案之间发生的形变，从而得到图案上各像素的视差，再根据相机的参数设定恢复出深度信息。结构光三维视觉系统主要由光源、摄像机、计算单元构成。

标定和匹配是构建结构光3D视觉系统必须完成的两个步骤：标定是为了确定结构光相机系统的结构参数，而匹配则是为了确定投影图案与编码图案对应点的关系。根据编码方式的不同，主要分为直接编码、时间编码和空间编码三种方式。不同的编码方式由于原理不同，适用场景也不尽相同，因此需结合具体场景和需求来选择对应的编码方式。

直接编码是根据图像属性对每一个像素进行编码，因此在理论上可以达到较高的分辨率，但是容易受环境噪声影响，测量精度较低；时间编码是将多幅不同的编码图案先后投射到物体表面上，形成图案序列以获得编码值，从而得到三维信息，具有易于实现、空间分辨率高、3D测量精度高等特点，但由于需要投影多幅图案，因而比较适合静态场景，不适用于动态场景；空间编码是将一幅具有特定空间分布特征的编码图案投射到物体表面上，利用投影图案中每个点和其相邻点的关系进行编码，一般只需要单帧投影图案，因此可以较好地处理动态扫描问题，比较适合动态场景。

图：结构光成像原理

二、发展驱动因素

（一）政策驱动

制造业是我国立国之本、兴国之器、强国之基。作为制造业大国，我国十分重视国内制造业的转型升级。随着5G等新一代通信与信息技术的不断发展，制造业的智能化发展成为了我国制造业的重点发展方向。智能制造作为“中国制造2025”的重点发展行业，能有效提升制造业的生产力水平，是政策所大力倡导的行业。国家政策的支持为智能装备制造业的发展提供了稳定的发展环境，推动了产业的快速发展。

自2010年《国务院关于加快培育和发展战略性新兴产业的决定》中将高端装备制造产业定义为我国国民经济的支柱产业以来，陆续制定了《当前优先发展的高技术产业化重点领域指南》、《高端装备制造业“十二五”发展规划》、《智能制造装备产业“十二五”发展规划》等一系列指导文件，国家对于智能装备制造业尤其是高端智能装备制造业研发和生产的政策支持力度不断加大。

《智能制造发展规划（2016—2020年）》提出在 2025年前，推进智能制造发展实施“两步走”战略：第一步，到2020年，智能制造发展基础和支撑能力明显增强，传统制造业重点领域基本实现数字化制造，有条件、有基础的重点产业智能转型取得明显进展；第二步，到2025年，智能制造支撑体系基本建立，重点产业初步实现智能转型。

2020年9月，国家发展改革委、科技部、工信部，以及财政部共同发布的《关于扩大战略性新兴产业投资培育壮大新增长点增长极的指导意见》中特别强调，要重点支持工业机器人、建筑、医疗等特种机器人、高端仪器仪表、轨道交通装备等高端装备生产，实施智能制造、智能建造试点示范。研发推广城市市政基础设施运维、农业生产专用传感器、智能装备、自动化系统和管理平台，建设一批创新中心和示范基地、试点县。鼓励龙头企业建设“互联网＋”协同制造示范工厂，建立高标准工业互联网平台。

2021年12月29日，工信部公布《“十四五”智能制造发展规划》，提出“十四五”及未来相当长一段时期，推进智能制造，要立足制造本质，紧扣智能特征，以工艺、装备为核心，以数据为基础，依托制造单元、车间、工厂、供应链等载体，构建虚实融合、知识驱动、动态优化、安全高效、绿色低碳的智能制造系统，推动制造业实现数字化转型、网络化协同、智能化变革。

在国家大力支持的背景下，各省市依托本地产业优势和资源优势，相继出台了一系列相关政策。当前全国31个省市中，已有19个省市对机器视觉行业出台了相关的支持政策，其中上海、浙江、广东等地出台了以下政策：

1. 上海市于2021年6月发布《上海市战略性新兴产业和先导产业发展“十四五”规划》，其中提出重点发展人工智能产业，在“十四五”期间，人工智能产业规模年均增速达到15%左右。智能机器人领域，重点研发基于自主决策视觉控制器的智能工业机器人。而在2021年4月制定的《上海市国民经济和社会发展第十四个五年规划和二〇三五年远景目标纲要》，提出支持智能机器人研发及产业化应用，提升高端数控机床、增材制造装备等领域核心技术水平。建设人工智能领域国家级重大创新平台，在智能芯片、智能软件、智能驾驶、智能机器人等领域，持续落地一批重大产业项目。

2. 浙江省于2021年4月制定《浙江省国民经济和社会发展第十四个五年规划和二〇三五年远景目标纲要》，指出要实现智能装备产业链现代化，聚焦工业机器人、数控机床、航空航天等重点领域，突破关键核心部件和系统等技术，打造国内知名的智能装备产业高地。而早于2020年8月印发的《浙江省培育建设“未来工厂”试行方案》亦提出深度融合应用新一代信息技术，充分依托和发挥国家智能制造新模式、试点示范企业和省智能制造数字化车间/智能工厂的创建优势，从2020年起，每年探索培育建设10家左右“未来工厂”，示范引领浙江省制造业数字化、智能化、绿色化转型发展，成为制造业高质量发展和全球先进制造业基地的展示窗口。

3. 广东省于2021年4月公布的《广东省国民经济和社会发展第十四个五年规划和二〇三五年远景目标纲要》提及智能机器人产业集群，支持广州、深圳、珠海、佛山、东莞、中山等地开展机器人研发创新和生产，其他各城市积极开展产业配套。

国家通过各政府部门在不同方面发布的指导意见与规划，从智能制造、人工智能、智能机器人、智能装备、智能工厂等多个领域对机器视觉行业发展提供助力，为机器视觉产业链上下游企业和相关产品的研发及生产提供良好环境。

图表：机器视觉相关政策梳理

资料来源：各政府官网，中金公司研究部

（二）需求端驱动

1. 人口红利的衰退

随着我国老龄化程度的加剧以及人口红利的减弱，企业正在寻求智能化转型，人力资源紧张、劳动力成本提升等压力将推动企业寻找“降本增效”的代替方案，而机器视觉可以提升良率检测和产能利用率，并且降低成本，因此企业降本增效的巨大需求推动机器视觉应用的加速发展。

人口红利逐渐衰退，已成为当今中国无可争议的时代大趋势。近年来，我国大力引导帮扶企业“机器换人”，不断推动技术红利替代人口红利，实现减员、减能、减污和减耗，实现生产率和优质品率的大幅提升。以现代化、自动化的装备提升传统产业，推动技术红利替代人口红利，发展智能制造成为中国制造产业优化升级和经济持续增长的必由之路。

2. 制造业转型升级

经过改革开放40年的快速发展，我国装备制造业取得了令人瞩目的成就，形成了门类齐全、具有相当规模和技术水平的产业体系。《中国制造2025》指出，制造业是支撑我国世界大国地位的重要基础，然而与世界先进水平相比，我国制造业仍然“大而不强”，在自主创新能力、资源利用效率、产业结构水平、信息化程度、质量效益等方面差距明显，转型升级和跨越发展的任务紧迫而艰巨。

近年来，随着人工智能技术与制造业的加速融合，智能制造作为制造业转型升级的主要路径不断推进。工业智能化、自动化获得了长足的进步，作为AI+工业的主要应用，机器视觉也将在政策利好的背景下快速发展。另外，随着工业自动化、智能化转型的深入，以及民用产品对智能化需求的不断提升，机器视觉作为工业自动化、智能化转型的核心技术，有望形成更具规模化的产业，未来发展空间广阔。

3. 疫情下智能制造迎来新机遇

通过新冠疫情可以发现，我国大多数制造企业仍然是依靠巨大的人力进行运作，制造业真正意义上的复工依然困难重重，员工人手不足、产业链复工步调不均、订单积压产能不足等都成为制造业复工复产面临的主要问题，导致工作无法正常推进。而此时，智能制造企业正凭借智能化及工业互联网带来的生产线人数减少、自动化生产、网络协同和产出效率高等优势，已率先恢复产能，在当前企业复工复产中显现出优势。借助智能制造增强自身抗风险和修复能力，将疫情给企业带来的影响降至最低。依靠高科技发展的智能制造行业在疫情期间展现出强大的实力，通过无人化、智能化的技术支持和产品体系，多方面助力社会生产和疫情防控，例如机器人用于配送物流、餐饮零售、安防巡逻、医疗康复等领域。

因此，这次疫情将加快促进我国制造业向智能化、无人化转型升级。传统制造企业更要加快智能化转型，改变目前传统生产方式与产业形态，加强自动化、信息化和智能化生产体系的建设，降低对人员的依赖程度，摆脱传统人力的束缚，提高工作灵活性，保障生产不会因人员变动而产生较大影响。

4. 下游市场驱动机器视觉需求

机器视觉的下游应用领域广阔，包括消费电子行业、半导体产业、汽车制造业和工业机器人等，这类行业生产工艺的日渐精进和对产品质量要求的提高，对机器视觉行业产生巨大的需求。近年来，我国居民消费水平随着经济发展而逐渐提升，对于消费电子的需求日益增长。针对消费电子产品生命周期短、更新换代快的特征，在电子元器件的生产过程中应用机器视觉检测技术是趋势，能大大提高精确程度和工作效率；而半导体产业和汽车制造业，作为目前推动我国经济发展的两个重要产业，其市场规模近年迎来高速扩张，随着新型技术及工艺环节不断增加，行业对检测的技术方法与效率提出了更高的要求，机器视觉能够使生产过程更高效、产品质量更有保障、生产环境更安全可靠，机器视觉系统的需求也随之上升；工业机器人被各国视为推动产业转型升级的重要切入点，可广泛应用于各种行业。而机器视觉具有系统实时性好、定位精度高等优点，能有效地增加机器人的灵活性与智能化程度，是实现工业自动化和智能化的重要手段之一。

三、机器视觉前沿技术介绍

（一）计算机视觉模型

1. 基于Transformer的新视觉模型

不同于常见的卷积神经网络（CNN）模型，Transformer是Google在2017年提出的一种自然语言处理（NLP）经典模型，基于Transformer的超大规模预训练模型，例如BERT、GPT-3，在多个NLP任务中都大放异彩。Transformer模型使用了自注意力（Self-Attention）机制，使得模型可以并行化训练，而且能够拥有全局信息。从2020年开始，学界逐渐开始研究将Transformer应用到计算机视觉任务中，在模型设计和算法流程上取得了创新突破，并达到媲美甚至超越经典CNN模型的性能。基于Transformer模型或将CNN与Transformer结合的模型将会推动计算机影像识别到达新的高度，在计算机视觉领域的多个应用上都具有广阔发展前景。

2. 神经网络架构自动搜索（NAS，Neural Architecture Search）

神经网络架构（例如ResNet、DenseNet）的设计对深度模型的性能有重要影响，但当面临陌生或过于复杂的任务场景，或视觉任务涉及多个目标或多个硬件限制（这在工业应用中很常见，例如希望模型精度高/延时短/推理速度快/存储低）时，AI算法工程师往往无法手动设计出最优的神经网络架构。NAS旨在利用智能的机器学习算法来代替人类工程师，根据任务目标，高效自动地搜索出最优的神经网络架构，达到多目标之间的最优平衡。例如，利用NAS搜索设计的神经网络架构在图像分类、目标检测和语意分割等多个机器视觉任务上已经达到，甚至超越了人类专家设计的经典网络的性能。

（二）小样本学习

1. 迁移学习（Transfer Learning）

对于一个新的目标任务从头开始学习往往需要大量数据。迁移学习旨在把从相似的旧任务（Source Domain）上学到的知识迁移到新的目标任务（Target Domain）上, 从而大大降低我们对于在新任务上学习所需的数据量。例如，利用学习英语经历中得到的知识，就可以加快学习法语、意大利语的进度。迁移学习按照学习方式可分为基于样本的迁移、基于特征的迁移、基于模型的迁移，以及基于关系的迁移。其中，最为常见的是基于模型的迁移：通过在相似的旧任务数据上训练一个深度神经网络，将数据中学得的信息转换成神经网络相应的权重。在面对新任务时，将这些（部分）权重迁移到新任务的神经网络中，然后再用新任务的少量数据对这些神经网络权重进微调（fine-tune），就达到了“迁移”之前任务中学来的知识的目标，避免了在新任务上从零开始训练一个神经网络的问题；

2. 数据增广（Data Augmentation）

数据增广是深度学习中常用的技巧之一，主要通过变换现有训练数据样本来增加训练数据集，让数据集尽可能的多样化，使得训练的模型具有更强的泛化能力。常见的数据增广变换包括：水平/垂直翻转、旋转、缩放、裁剪、剪切、平移、对比度/色彩抖动/噪声等以及多个变换的组合；

3. 数据生成（Data Generation）

实际样本非常稀缺或采集成本很高时，可以利用AI算法来生成虚拟数据。数据生成利用深度学习模型从现有训练数据（通常是无监督/未标注数据）中学习数据结构和数据概率分布，然后直接生成以假乱真的虚拟数据，扩充训练数据集。常见的深度生成模型种类有变分自编码器Variational Auto-Encoder（VAE）、生成对抗网络Generative Adversarial Network（GAN）等。

（三）高效数据标注

1. AI辅助标注/预标注

纯人工从头标注大量的复杂数据需要耗费大量的人力成本和时间成本，并且容易因为错误标注或标注标准的不统一影响训练数据的质量。很多数据标注平台/工具会利用在公开数据集上预训练好的分类、检测、分割任务模型，对数据进行自动智能初步标注。人类标注员只需检查并微调初步智能标注的结果，避免从头检查标注过程而浪费大量时间。例如，先利用旧数据集或公开数据集上训练好的目标检测模型，定位并画框标记出每张新任务数据图片中的目标，人类标注员只需修改错误的标记或者调整目标检测框的尺寸。

2. 主动学习(Active Learning)

当采集到的数据量较大时，盲目地标注所有数据或者随机标注部分数据，会非常低效，并加大数据标注的成本和负担。主动学习旨在通过机器学习的方法，有选择性、迭代性地引导数据标注，将数据标注的优先级进行排序，即让AI算法提示标注哪几张数据能给目前被训练的模型带来最大的信息收获，保证每一次标注都能对被训练的AI模型带来最大的提升，减少数据标注的次数和成本。

四、行业发展现状

（一）市场规模

机器视觉搭上中国智能制造产业“快车”，复合增长率达25%，市场规模“百亿递增”。从整体来看，中国智能制造产值增速与机器视觉市场规模增速呈正相关，机器视觉2021年市场规模为178亿，到2026年预计超500亿。2022-2026年复合增长率为25%，行业整体发展增速快，行业将受技术突破影响较大。

图表：2016-2026年中国智能制造业产值规模

资料来源：甲子光年智库

图表：2016-2026年中国机器视觉市场规模及预测

资料来源：甲子光年智库

（二）产业链图谱

机器视觉的产业链较长，上游由机器视觉系统硬件、软件和算法构成。目前，中国在光源、镜头、工业相机等硬件和图像处理算法等方面已经成熟，但主要集中在中低端市场。具体来看：光源方面，光源的国产化率较高，国内有一批具有竞争力的公司，如奥普特（688686）、维朗光电、康视达等；工业镜头方面，中国的工业镜头高端市场被德国施耐德、日本CBC Computar等国外企业垄断，但近年来本土厂商迅速发展，从中低端市场切入，代表厂商有东正光学、普密斯等；工业相机方面，以大恒图像、海康威视（002415）为代表的中国企业在关键技术上有所突破；算法方面，国内视觉处理分析软件一般建立在OpenCV等开源视觉算法库上做二次开发，或直接采购Halcon（德国 MVTec公司）、Vision Pro（美国康耐视公司）等历经二十多年数据沉淀的第三方商业付费算法库。

中游是机器视觉二次开发的系统集成和软件服务商，主要根据上游产品以及下游需求进行集成整合，越来越多上游企业向中游业务拓展延伸，形成自有的完整解决方案。行业主要参与者为系统集成商、海内外机器视觉装备服务商，以及海外机器视觉品牌代理商等，其中有以天准科技（688003）、矩子科技（300802）为代表的产业链中游龙头企业。

机器视觉广泛应用于不同下游领域，包括电子及半导体、汽车制造业、食品包装、制药医疗等行业，其中电子及半导体领域占机器视觉总体分布的46.6%，汽车制造业占15.3%，是机器视觉工业应用的重点领域。半导体行业元器件尺寸较小，对产品精度、柔性化有较高的要求，如锡膏印刷机、贴片机、AOI检测这类的设备必须使用高性能机器视觉组件，因此机器视觉系统在半导体检测等各个方面得到广泛应用。3C产业具有技术革新迅速、产品迭代块、利润高等特性，整个产业始终保持着非常活跃的态势，在3C产业链上，机器视觉技术已经基本覆盖元器件、部件和成品的全制造环节的自动化及品质检测与测量。汽车制造业主要包括整车制造行业、汽车零部件及配件行业等子行业，机器视觉的应用包括从初始原料质量检测发展到汽车零部件100%在线测量，再对制造过程中的焊接、涂胶、冲孔等工艺流程进行把控，最后对车身总成、出厂的整车质量进行把关。

图表：机器视觉产业链图景

资料来源：各公司官网，中金公司研究部

（三）部分标定公司简介（公司简介、核心技术、主营业务、融资历史等）

1. 奥普特（688686）

奥普特成立于2006年，是中国机器视觉行业的领军企业之一,。公司最早从核心部件光源进入机器视觉市场，随后产品拓展至镜头、工业相机、视觉控制器、视觉处理软件等其他机器视觉部件，同时公司在3D激光传感器及深度学习产品方面也有布局。经过多年发展，公司已经成为具有前端核心零部件自主化能力的机器视觉系统解决方案提供商，是国内唯一一家产业链覆盖度可比肩基恩士的中国本土公司。

奥普特提供的机器视觉产品已广泛应用于3C电子、新能源、半导体、汽车等多个行业，与苹果、宁德时代、华为、欧姆龙、安费诺等行业龙头企业深度合作，具有较强的客户粘性。

融资历史：

2019年进行战略融资，投资方为晨道资本、大靖投资、国信证券、宁波超兴。

2020年科创板IPO上市。

2020年进行定向增发，投资机构为中国太平、青岛国信、海通开元、国泰君安。

2021年进行战略融资，投资机构为中信证券。

2. 天准科技（688003）

天准科技成立于2005年，最初从精密测量仪器起家，陆续针对消费电子、新能源、PCB等下游行业开发了视觉检测、制程装备及解决方案。同时，面向智能网联领域，提供智能驾驶、车路协同、通用AI计算单元等智能化解决方案。

公司下游应用以消费电子生产线为主，苹果公司是公司最大的客户，公司业务目前在一定程度上对苹果公司存在依赖性，但随着公司拓展产品矩阵、不断进入新行业，依赖情况有所改善。除消费电子外，公司也积极开拓光伏、半导体、PCB等新的应用场景。经过十多年的深耕与积累，公司累计服务全球5000余家中高端工业客户。

融资历史：

2010年进行天使轮融资，投资机构为苏高新金控。

2015年进行战略融资，投资机构为斐君资本，随后新三板挂牌上市。

2016年进行定向增发，金额为5250万人民币，投资机构为斐君资本。

2017年进行定向增发，金额为4250万人民币，投资机构为金沙江创投、元禾原点，随后因筹备IPO于新三板退市。

2019年科创板上市。

3. 矩子科技（300802）

矩子科技成立于2007年，是一家自动光学检测系统研发生产商。公司核心技术包括机器视觉算法、关键部件光学成像系统、运动控制技术等，在机器视觉检测领域，主要产品包括2D AOI、3D AOI、3D SPI、Mini LED AOI、LED AOI、半导体AOI等，其中3D AOI产品性能已达国际先进水平，实现了进口替代。公司重点布局PCB、Mini LED、半导体等业务板块，累计已服务超过700家海内外知名客户，目前已成为苹果、华为、小米、OPPO、VIVO等企业的机器视觉设备供应商。

融资历史：

2013年进行A轮融资，投资机构为领庆创投和凯风创投。

2019年创业板上市。

4. 精测电子（300567）

精测电子成立于2006年，公司从Module段电讯技术信号检测起家，目前已向前端Array制程和Module制程延伸，客户包括京东方、华星光电、中国电子、天马微、富士康、明基友达等。根据CINNO Research，2021年公司 AMOLED AOI检测设备（Cell、Module制程）在中国的市占率为15%，AMOLED 检测设备（Array制程）的市占率为3%。

公司于2018年成立子公司上海精测，向半导体领域延伸，专注于前道晶圆量测。目前，公司已推出存储芯片测试设备、膜厚量测、关键尺寸量测（OCD）等，产品型号已进行多次迭代。2018年设立武汉精能，布局新能源测试领域，主营产品包括锂电池和燃料电池检测设备等。后续，公司将加快推进锂电池和交直流电源及大功率电子负载检测的技术研发和市场开拓。

融资历史：

2007年进行天使轮融资，投资机构为硅谷天堂。

2011年进行A轮融资，融资金额400万人民币，投资机构为武汉科投、硅谷天堂。

2016年科创板IPO上市。

2021年进行定向增发，融资金额14.94亿人民币，投资机构为诺德基金、华夏基金、小米集团、海富通基金、国泰君安、瑞银集团。

5. 凌云光（688400）

凌云光成立于2002年，长期聚焦机器视觉及光通信业务，目前战略聚焦机器视觉业务，是可配置视觉系统、智能视觉装备与核心视觉器件的专业供应商。视觉产品下游应用广泛，消费电子、印刷包装、新型显示为主要应用领域，积累了多领域的优质客户资源，与苹果、华为、鸿海精密、歌尔股份、京东方、华星光电等业内领先公司建立了长期稳定的合作关系。在机器视觉方面，公司自主研发软件、算法与器件，全面掌握“光机电算软”底层技术。同时，公司是国内少有的拥有独立算法库的企业，拥有完全自主知识产权的机器视觉图像处理核心算法平台。

融资历史：

2012年进行天使轮融资，投资机构为中海投资。

2019年进行A轮融资，投资机构为达晨财智。

2020年进行B轮和B+轮融资，金额分别为2.5亿人民币和数亿元人民币，B轮投资机构为小米集团、富士康工业互联网；B+轮投资机构为国投创业、君度投资、同晟资本、深圳市裕展精密科技有限公司。

2022年进行战略融资，金额为2亿人民币，投资机构为国家制造业转型升级基金，随后科创板IPO上市。

6. 聚时科技

聚时科技成立于2018年，专注机器视觉、深度学习、机器人AI技术产品研发，公司从工业中最难的半导体场景作为突破口，通过尖端AI技术赋能高端制造。公司产品矩阵包括聚芯系列半导体缺陷检量测产品、半导体制程质量分析系统、半导体光伏等行业AI解决方案、机器人视觉AI控制与重型机器智能系统等，下游应用场景包括半导体先进制造、光伏新能源、汽车精密制造与无人港口等。

深度学习算法和软件研发能力是公司竞争壁垒之一。除此之外，公司具备跨界能力，具有经验丰富的精密机械控制与打光成像团队，可支撑聚时科技落地在高端制造领域并形成设备产品闭环。

融资历史：

2019年继续天使轮和Pre-A轮融资，天使轮投资机构为SBI Holdings、中科创星；Pre-A轮投资机构为国联集团。

2020年继续A轮融资，金额为1.1亿人民币，投资机构为南京江北产投集团、湖南高新投、兰璞资本、华兴源创。

2021年进行A+轮和A++轮融资，A+轮金额超亿元人民币，汇川技术领投，快克股份、云晖资本、敦行资本、中芯聚源投资和华成智讯跟投；A++轮金额约亿元人民币，韦豪创芯领投，宁波鋆之涌创业投资合伙企业（有限合伙）、宁波众芯投资合伙企业（有限合伙）、中芯聚源投资跟投。

2022年进行战略融资，投资机构为韦豪创芯。

7. 海康机器人（海康威视子公司）

海康机器人成立于2016年，是面向全球的机器视觉和移动机器人产品及解决方案提供商，业务聚焦于工业物联网、智慧物流和智能制造。海康机器人业务继承了海康多年来在软硬件、算法、营销体系等方面的优势积累，已成为行业中重要的供应商之一。海康机器人持续丰富和优化机器视觉产品，以VM（Vision Master）算法软件平台为核心，培育视觉应用生态，携手行业合作伙伴共同开发满足碎片化工业场景需求的应用。

融资历史：

2016年进行天使轮融资，投资机构为海康威视。

2021年进行Pre-A轮融资，投资机构为阡陌河滨。

8. 华睿科技（大华股份子公司）

华睿科技成立于2016年，是大华股份旗下的机器视觉子公司，专注于机器视觉与移动机器人，广泛应用于物流、汽车、3C、锂电、光伏和医药等行业。

华睿科技集相机、镜头、光源及软件算法于一身，为客户提供高性能硬件设备和通用可编程软件平台，逐渐弱化行业属性，让机器视觉全面服务于各行各业。公司机器视觉产品包含工业相机、线扫相机、智能相机、智能传感器、3D工业相机和镜头等系列产品，主要用于读码识别、缺陷检测、测量和定位。

公司2017年布局移动机器人，目前产品包含潜伏、牵引、叉取和分拣等机器人，主要用于机器视觉领域，与机器视觉深度融合，全面服务于制造、仓储、物流等领域。

融资历史：

2016年进行天使轮融资，投资机构为大华股份。

9. 思谋科技

思谋科技（SmartMore）成立于2019年，是领先的智能制造与数智创新企业，由机器视觉领域国际顶尖专家、香港中文大学终身教授贾佳亚创立，致力于将20年的机器视觉、深度学习等技术积累，通过自研的智能工业平台、智能传感器产品、智能一体化设备以及数智化解决方案，为客户提供一站式数字化与智能化服务。

思谋科技已服务卡尔蔡司、空客、博世、佳能、大陆集团、舍弗勒、宝洁、联合利华等来自全球的超过100家行业头部企业；此外，思谋还不断拓宽智造外延，基于“智造+”平台与数智化解决方案，逐步在交通、广电、文旅等多领域落地数智化服务。思谋科技机器视觉技术已惠及千万工业场景与产品产线，涵盖了高端消费电子、新能源、汽车、光学制造、半导体、广电文旅以及智能交通等行业，并与国内外多家世界500强企业达成合作，赋能产线数百条。公司已在香港、深圳、上海、北京、苏州、杭州、重庆，新加坡和日本东京等多地设有前沿技术研发和商务中心。

融资历史：

2020年进行天使轮，Pre-A，A轮融资，天使轮金额为数百万元人民币，投资机构为IDG资本；Pre-A轮金额为数千万美元，投资机构为IDG资本、真格基金、联想创投；A轮金额为超亿美元，投资机构为松禾资本、红杉中国、基石资本、闻天下投资、真格基金、联想创投、IDG资本。

2021年进行B轮融资，B轮金额为2亿美元，投资机构为IDG资本、基石资本、红杉中国、松禾资本、联想创投、真格基金、和喧资本、雄牛资本、绅湾资本。

10. 跨维智能

跨维智能成立于2021年，是一家专注于三维视觉软硬件产品研发的高科技人工智能企业。公司致力于将先进的三维几何深度学习技术应用于工业智能化领域，为客户提供AI视觉算法、3D智能相机和高性价比的软硬件一体化三维视觉解决方案，让机器人以灵活主动的方式完成复杂环境下基于三维视觉的定位、识别、引导等任务。公司以“成像感知一体机系列”和“3D数字孪生与混合智能（Mixed AI）”核心技术为牵引，给机器人装上眼睛和大脑，以灵活主动的方式解决复杂环境下基于三维视觉的检测、定位、识别、引导等任务，为智能制造、智慧物流、智能家居等垂直领域赋能。

融资历史：

2022年进行天使轮和Pre-A轮融资，天使轮金额为近千万美元，投资机构为松禾资本、真格基金；Pre-A轮金额为亿级人民币，投资机构为联创永宣。

五、对于机器视觉发展趋势的一些观点

由于人口红利逐渐褪去、政府政策持续助力等因素，伴随着科技突飞猛进的发展，中国制造业掀起了一股产线自动化与智能化改造的智能制造浪潮，机器视觉作为产线上的“眼睛”，赋予各类机器“看”与“认知”的能力，为智能制造中不可或缺的重要组成部分，发展空间广阔，但需深挖产业链价值链相关环节。

为更好的了解中国智能制造目前所处阶段以及未来发展趋势，本报告撰写团队在2022年第二、第三季度集中走访了位于珠三角、长三角以及东北等地区的不同行业的国企央企、上市公司、中小型科技创新企业等，并与企业管理、技术研发和生产销售团队均做了深入的交流沟通。以下是我们通过实地走访调研，针对机器视觉行业收集、整理、总结的一些行业观察与核心观点，供大家参考与指正。

1. 庞大的市场规模

机器视觉的市场天花板非常高，是典型的千亿级别赛道，所覆盖的行业领域极为宽泛，下游应用从3C消费电子与半导体（高精度制造与缺陷检测）、汽车（部件制造检测）、制药（药品外观与封装检测）到食品（封装与质量检测）、印刷（印刷质量检测）均有覆盖，其中消费电子的市场规模已超过万亿元人民币，而机器视觉在这些行业的渗透率还不高，成长空间很广，但一些行业内的客户集中度不高，较为分散，是典型的单一需求“小而散”的长尾市场。人口老龄化加剧、人口红利逐渐褪去、机器视觉先天优势、国产替代需求持续增长、政府政策大力支持智能制造等内外驱动力因素，持续助力中国机器视觉行业的发展。

2. 当前2D和3D视觉突破口

2D视觉起步早，发展时间长，市场相对成熟，行业上游已建立起一定的技术和市场壁垒，因此目前国内科创企业需要在视觉算法以及整体解决方案上寻找突破口。从技术层面来讲，3D视觉为2D视觉的进阶版，但具体技术体系框架不尽相同，由于发展时间较短，国内外市场均未有具备明显技术和/或市场优势的龙头企业，该行业还存在较大的机会。然而，由于智能制造行业中大部分场景都较为简单，对算法精度要求并不高，加上制造企业对3D视觉技术认知不足、付费意愿相对较低，导致部分算法技术领先但商务拓展能力欠佳的企业的生存空间进一步缩小，甚至会出现如3D工业相机的市场接受价格比2D工业相机还低的情况。因此，无论是2D还是3D视觉公司，都需要在选择和切入一个应用场景前，针对该应用场景所涉及的各方面信息，做较为深入的调研。通过调研去掌握终端用户的真实痛点、地区分布、付费意愿实际现状，以及这些行业痛点是否已被有效解决。充分了解终端用户需求后，可对自身技术或产品进行评估，如能与现有竞品形成较大差异化并形成明显的优势，同时能真正地解决用户痛点，则证明该应用场景下自身技术或产品存在发挥最大价值的潜力。根据需求来寻找技术产品发力方向，可事半功倍，而非根据技术产品来寻找不同的细分场景需求。

3. 国产替代大势所趋

目前，国内机器视觉市场无论硬件还是软件，大部分市场份额均被海外巨头所占据，但由于该领域海外巨头的产品售价昂贵以及本土化程度不足，国内许多正在进行或有计划进行智能制造改造升级的传统制造业企业都在积极寻求可替代的国产方案。同时，如Halcon，VisionPro这类传统机器视觉算法软件对国产机器人和工业相机等部件的适配度不高，软硬件无法有效协同，无法进一步发挥硬件设备的最大性能。基于以上两点，我们认为未来一段时间国内机器视觉行业的软硬件设备国产替代率将逐步上升，同时国产厂商可借助适配度更高的应用场景及零部件来提升国内市场的渗透率。

4. 非标产品逐渐走向标准化道路

国内机器视觉厂商起步较晚，产业基础与人才储备不足。同时，由于应用场景复杂，客户需求多样，而且大部分终端客户对机器视觉的认知不够深入，缺乏自主设计解决方案的能力，因此目前阶段，市面大部分产品或技术服务仍然以整套解决方案（非标准化业务）的方式呈现给终端客户。随着国内机器视觉领域的相关厂商不断细分且专业化发展，针对机器视觉系统中的各种相关零部件进行自主研发、组装，着重发展标准化产品（如相机、光源、读码器等），并且在交付非标准化解决方案的过程中不断打磨自身技术及产品，同时针对一些通用型应用场景研发普适性较高的标准化解决方案，我们认为企业的业务与服务模式将逐渐由非标准化转变为标准化方式。

5. 软硬件搭配销售，进一步提高利润空间

随着人工智能热潮席卷全球，近几年机器视觉行业也涌现出许多专注于研发机器视觉软件算法平台的企业，但该类型企业普遍遇到一个问题：难以明确一个满足供需双方的收费模式。一个主要的原因是：国内大部分终端客户在可以使用国外免费软件（含盗版情况）的情况下，他们仍然会选择使用这些免费软件。尽管这些国外免费软件在运算性能、版本升级、功能多样性、使用便捷性、与硬件适配度等诸多方面，不同程度的弱于许多国产自主可控的视觉算法软件，但由于企业的经营成本控制、正版软件付费习惯与意愿较低、相关认知储备不足等因素，他们仍然会选择免费的模式。对于缺乏整体解决方案研发与集成能力的终端客户，这种偏软件算法的机器视觉厂商可选择向产业链上游硬件部分延伸，通过为其提供集成式软硬件一体的解决方案（软件与硬件配套售卖，将自研软件集成至较为成熟的硬件设备上，将传统硬件厂商作为自身上游）来提高自身核心算法软件的附加价值和客户认可度与使用粘性。一种可能的思路是：设备销售早期阶段可采用自研软件免费试用的方式来提高客户早期整体付费及使用意愿，一定程度培养客户新的认知和习惯。随着用户数量的增加，同步通过社群效应提高用户粘性，为后续的软件付费阶段夯实基础。

6. 国内硬件厂商发展成熟，但软件部分相对落后

目前，国内已有许多机器视觉厂商开发出性能优越的硬件产品，但通过走访调研，我们发现大部分硬件厂商遇到了相同的问题：由于算法研发能力欠佳，自研算法软件的运算性能无法匹配得上自家的硬件算力需求，导致软硬件无法形成有效协同。一个主要原因是传统机器视觉厂商难以招聘到顶尖的算法类人才。因较为体面的薪资待遇、工作环境和职位职称等因素驱动，大多数软件算法类人才的就业首选是互联网大厂（如腾讯、字节跳动等）。因此，在软件门槛无法有效突破的情况下，机器视觉厂商只能利用硬件上的性能突破来弥补所匹配的软件算法方面的缺陷，但仍无法从根本上解决问题。对比之下，一些行业内新崛起的机器视觉软件算法类创业公司，其优秀的技术团队大多具有丰富的算法研发与产品应用经验，二者可形成良好的互补共生关系：硬件厂商提供成熟的硬件平台，软件厂商提供性能优异、适配度高的算法和软件，共同解决机器视觉行业内用户的真实需求痛点。