神经网络结构和算法

收藏整理关于神经网络结构、算法的介绍、论文等,用于学习神经网络设计思路、优化技巧

前馈神经网络(多层感知机MLP)

**介绍:**1. 最简单的神经网络,由输入层、隐藏层和输出层三层组成,每个神经元只与前一层的神经元相连,接收前一层的输出,并输出给下一层,各层间没有反馈。2. 能够学习任意非线性函数,因为激活函数将非线性特征引入网络中。

**缺点:**1. 用来解决图像分类问题,随着图像增大,可训练参数的数量会急剧增加,会丢失图像的空间特征。 2. 无法捕获处理序列数据所需的输入数据中的顺序信息。3. 存在梯度消失和爆炸问题。4. 随着神经网络层数的加深,优化函数越来越容易陷入局部最优解。


时序预测
维尼拉循环神经网络RNN

介绍:1. 是一种节点定向连接成环的反馈神经网络,上一个时刻的网络状态信息将会作用于下一个时刻的网络状态。2. 使用BPTT**训练算法。

**缺点:**1. 短期记忆问题(梯度消失问题),无法处理很长的输入序列。 2. 梯度爆炸的问题 3. 训练成本高。

长短期记忆网络LSTM

**介绍:**1. 由忘记门、输入门和输出门三个门来控制细胞状态,使其有能力将信息移除或添加。2. 极大的减轻了RNN的梯度消失问题。

门控循环单元网络GRU

**介绍:**1. 由重置门、更新门两个门来控制细胞状态。2. 相比LSTM参数更少,收敛速度更快,训练速度更快

Prophet

**介绍:**2017年由Facebook开源了一套时序预测工具,不是一个神经网络,不仅可以处理时间序列存在一些异常值的情况,也可以处理部分缺失值的情形,还能够几乎全自动地预测时间序列未来的走势,提供了 R 语言和 Python 语言的接口。
Github…

DCRNN

**介绍:**2017年由南加大李亚光等人提出,将模型用于交通预测。DCRNN使用双向随机行走来对空间依赖进行建模,使用encoder-decoder架构来对时间依赖进行建模(主要就是双向GCN考虑空间建模,GRU考虑时间维度建模)。
论文…

DA-RNN

**介绍:**2017年提出的一种基于注意力机制的seq2seq模型(Encoder-Decoder)。模型的第一部分,引入了输入注意力机制在每个时间步选择相应的输入特征;模型的第二部分,使用时间注意力机制在整个时间步长中选择相应的隐藏层状态。
论文…

GeoMAN

**介绍:**2018年京东金融城市计算业务部发表,GeoMAN基于Encoder-Decoder结构,在时空数据预测问题上首次引入了多层注意力机制,对各传感器之间的动态时空关联性进行建模,并通过在Decoder阶段融合传感器对应的兴趣点(POI)信息、传感器ID和天气预报数据等外部因素显著提升了模型的性能。该模型不仅在PM2.5预测上取得了成功,在自来水质预测上也有着同样的出色表现,是一个在地理传感器时间序列预测问题上通用的模型。
论文…

ConvLSTM

**介绍:**2015年由香港科技大学施行健提出,ConvLSTM是LSTM的变体,改变主要是W的权值计算变成了卷积运算,不仅可以像LSTM一样建立时序关系,而且可以像CNN一样刻画局部空间特征。
论文…

Trajectory GRU(TrajGRU)

**介绍:**2017年由香港科技大学施行健提出,将模型用于降雨量预测。基于ConvLSTM的模型中的卷积递归结构是位置不变的,而自然运动和变换(如旋转)通常是位置变化的,TrajGRU模型可以主动利用循环连接学习基于位置变化的结构。
论文…

ForecastNet

**介绍:**RNN和CNN通过在时间或空间上使用固定的参数重复一组固定的架构来使用参数共享,结果是,整个体系结构是时不变的(在空间域上是移位不变的)或固定不变的状态。ForecastNet被提出作为一种新的深度神经结构用于多步时间序列提前预测,该模型是时变的。
论文…
实现代码…

STGCN

**介绍:**2018年发布在IJCAI上,用于交通领域的时间序列预测。每个时空卷积块由两个时域卷积块和一个空域卷积块组成,每个时域卷积块和空域卷积块中都使用了残差连接。
论文…

ESGRN

**介绍:**1. 2019年被提出,使用演化状态图结构来表示时间序列数据内部因子之间的时变关系。2. 提出了进化状态图来表示时间序列的组合演化;设计并实现了一种新的(EGRN,Evolutionary Graph Recurrent Networks)方法来量化表示进化状态图的动态结构信息,然后将其加入到时间序列分类任务中。3. 基于6个真实世界的数据集,明显优于10个最先进的基线方法(MC-DCNN,GGSNN,RNN等)
Github…
论文…

MetNet

**介绍:**2020年由谷歌发布用于降水预报的神经网络。预测结果超越目前最好的基于物理模型的数值算法,网络架构以深度神经网络(DNNs)为基础,先使用一个共享的卷积神经网络,将输入图片降采样,然后再使用卷积 LSTM 网络处理输入图像的时间序列问题,最后一个模块是轴注意力 (Axial Attention) 网络,作用是对时空编码进行解码。
论文…

BHT-ARIMA

介绍: 华为诺亚方舟实验室2020年提出,借助多路延时变换技术将源时间序列数据增广为高阶张量,并巧妙将张量分解技术与经典时序预测模型ARIMA结合,进而提出了一种适用于多条时间序列的预测技术,尤其对于序列长度短、样本数量小的场景效果更佳。
论文…
实现代码…


图像识别
LeNet

**介绍:**1. 1998年, LeCun提出了第一个真正的卷积神经网络。2. 现在主要指的是 LeNet5或 LeNet-5,主要特征是将卷积层和下采样层相结合作为网络的基本机构,如果不计输入层,该模型共 7层,包括 2个卷积层, 2个下采样层, 3个全连接层。
论文…

AlexNet

介绍:1. 2012年 ILSVRC冠军。2. 有 5 个卷积层和 3 个最大池化层,本质上就是扩展 LeNet 的深度。3. 使用 ***ReLU激活函数、***LRN*局部响应归一化、重叠池化层(33的池化核)、使用多 GPU训练。4. 引入了大量的图像增广,如翻转、裁剪和颜色变化,从而进一步扩大数据集来缓解过拟合。5. 使用了dropout。
论文…

ZFNet

**介绍:**1. 2013年ILSVRC分类任务的冠军。2. 相比于AlexNet,主要区别是使用了更小的卷积核和步长,11x11的卷积核变成7x7的卷积核,stride从4变成了2。3. 发现第一层的卷积核影响大,对第一层的卷积核做了规范化。
论文…

OverFeat

介绍:1. 2013年ILSVRC定位任务的冠军,用一个共享的CNN来同时处理图像分类,定位,检测三个任务。2. 用CNN有效地实现了一个多尺度的,滑动窗口的方法,来处理任务。3. 提出通过累积预测**来求预测框bounding boxes(而不是传统的非极大值抑制)。
论文…

VGGNet

**介绍:**1. 2014年ILSVRC分类亚军,冠军是GoogLeNet,但VGG模型在多个迁移学习任务中的表现要优于googLeNet。2. 使用了小卷积核(3x3)。3. 使用了小池化核。相比AlexNet的3x3的池化核,VGG全部为2x2的池化核。4. 层数更深特征图更宽。5. 使用全连接转卷积。6. 常用的有 VGG16、 VGG19两种类型。
论文…

NIN

介绍:1. 使用了 ***全局平均池化层(global average pool)***替代全连接层(FC)**,即"卷积层+用1X1层”结构,大大降低了参数(全连接层不仅参数多,还容易过拟合),AlexNet网络参数大小是230M,NIN只需要29M。2. 使用了***mlpconv***提取更加抽象的特征,因为mlp是非线性的,能得到更高的抽象,泛化能力更强。
论文…

GoogLeNet

介绍:1. 2014年ILSVRC分类、检测冠军。2. 基于Inception v1**结构,共有22层,性能优越,且参数量仅为AlexNet的1/12。

  • Inception v1
    1.使用了***稀疏结构***和**Hebbian原理。2. 将卷积(11、33、55)和池化(33)堆叠,既增加了网络的宽度,也提高了对网络对尺寸的适应性。3. 引入了***辅助分类器***,以改善非常深的网络的收敛。
    论文…
  • Inception V2
    输入时增加了***BatchNormalization***,使训练起来收敛更快。
    论文…
  • Inception V3
    1.引入了分解,将一些77的卷积变成了17和71的两层串联,33的变成了13和31两层串联。这样加速了计算,还增加了网络的非线性,减小过拟合的概率。2. 使用了***RMSProp***优化器。3. 使用了Factorized 7x7 卷积。4. 辅助分类器使用了 BatchNorm。5. 标签平滑(添加到损失公式的一种正则化项,旨在阻止网络对某一类别过分自信,即阻止过拟合)。
    论文…
  • Inception V4
    主要是结合了ResNet,添加了残差单元。
    论文…
Xception

**介绍:**1. Xception 是 Google 继 Inception-v3 后提出的对 Inception的另一种改进。2. 卷积时将通道和空间卷积分离会更好,Inception的3x3的卷积同时作用于通道和空间,没有做到完全分离,而Xception的3x3卷积只作用于一个通道的特征图,从而实现了完全分离。
论文…

ResNet

介绍:1. 2015年ILSVRC分类、检测、定位冠军,由微软的何恺明等人提出,深度达到了152层。2. 使用了残差网络**,就是加上跳跃连接(skip connection),每两层增加一个捷径,构成一个残差块,从而优化了梯度消失问题,提高了深度。
论文…

ResNet V2

介绍: 与ResNet相比,将BN/ReLu这些activation操作挪到了Conv
论文…

ResNeXt

介绍: 1. 是一种ResNet和Inception V4的结合体,和Inception V4相比,它每一个分支都采用相同的拓扑结构,而不需要人工设计。2. 使用了***分组卷积***。
论文…

ResNeSt

介绍: 2020年亚马逊李沐团队提出的堪称“ResNet最强改进版”的网络,引入了模块化的分散注意力模块(Split-Attention),可以让注意力跨特征图组。
论文…

DenseNet

介绍: 1. 获得CVPR 2017的最佳论文奖。2. 使用了密集连接(dense connection),任何两层之间都有直接的连接,每一层的输入都是前面所有层输出的并集,密集连接提升了梯度的反向传播,使得网络更容易训练。3. 通过特征在channel上的连接来实现特征重用(feature reuse)。
论文…

RegNet

介绍: 1. 2020年何恺明团队提出,是一种网络设计新范式。2. 结合了手动设计网络和神经网络搜索 (NAS)的优点进行了新的网络设计:和手动设计网络一样,其目标是可解释性,可以描述一些简单网络的一般设计原则,并在各种设置中泛化;又和NAS一样,能利用半自动过程,来找到易于理解、构建和泛化的简单模型。3. 在类似的条件下,性能还要优于EfficientNet,在GPU上的速度还提高了5倍。

MobileNets

介绍: 1. 是Google于2017年针对移动端提出的一种CNN模型,重点在于压缩同时保证精度。2. 类似于VGG那种直通网络,没有跳跃连接。3. 使用***深度可分离卷积(depthwise convolution)***代替普通卷积。
论文…

MobileNets V2

介绍: 1. MobileNet V2是Google继V1之后提出的下一代轻量化网络,主要解决了V1在训练过程中非常容易特征退化的问题。2. 引入了反转残差结构。3. 进行depthwise之前先进行1x1的卷积增加feature map的通道数,实现feature maps的扩张。4. pointwise结束之后弃用relu激活函数,改用linear激活函数,来防止relu对特征的破坏。
论文…

MobileNets V3

介绍: 1. 使用***互补搜索技术***组合,由资源受限的NAS执行模块级搜索,NetAdapt执行局部搜索。2. 改进了网络结构,将最后一步的平均池化层前移并移除最后一个卷积层,引入***h-swish***激活函数。
论文…

ShuffleNet V1

介绍: 1. 是旷视科技(Face++)于2017年提出的一种移动端CNN模型。2. 主要使用Group convolution和Channel shuffle改进ResNet。
论文…

ShuffleNet V2

介绍: 1. 引入了channel split,在开始时先将输入特征图在通道维度分成两个分支,将两个分支concat一起,将结果进行channle shuffle,以保证两个分支信息交流。2. 下采样模块,不再使用channel split,而是每个分支都是直接copy一份输入,每个分支都有stride=2的下采样,最后concat在一起后,特征图空间大小减半,但是通道数翻倍。
论文…

GhostNet

介绍: 1. 华为诺亚方舟实验室于2020年提出的一种移动端CNN模型,在ImageNet分类任务,GhostNet在相似计算量情况下Top-1正确率达75.7%,高于MobileNetV3的75.2%。2. 使用了Ghost模块,基于原始的特征图应用了一系列线性变换,以很小的代价生成许多能从原始特征发掘所需信息的“幻影”特征图(Ghost feature maps)。
论文…


自然语言处理(NLP)
TextCNN

介绍: 1. 2014年Yoon Kim提出,将CNN应用到***文本分类***任务的一种神经网络。2. 通过一维卷积来自动获取句子中n-gram特征。3. 在短文本领域分类效果很好,长文本领域能力受限,且对语序不敏感。
论文…

Char-CNN

介绍: 1. TextCNN是单词级别,而Char-CNN是字符级别。2. 当训练集规模足够大时,CNN不需要单词层面的意义,也不需要语言的语法句法结构等信息就可以实现 start-of-art 的效果。
论文…

TextRNN

介绍: 1. TextCNN适合短句子文本,而TextRNN擅长捕获更长的序列信息。2. 将Word Embedding输入到双向LSTM中,然后对最后一位的输出输入到全连接层中,再对其进行softmax分类即可。
论文…

TextRCNN

介绍: 1. 将CNN的卷积层替换了双向RNN。2. 通过CNN可以获得重要的特征,但是CNN的窗口大小不易确定,过小易丢失重要信息,过大会使参数空间过大,使用双向RNN替换卷积层可大范围的保留词序,而池化层用来判别文本的重要部分。
论文…

BiLSTM

介绍:由前向LSTM与后向LSTM组合而成,常用于情感分类**

LSTM-CRF

*介绍:1. 将LSTM和CRF结合在一起,可以捕捉到输入的过去特征和句子级的标签信息。2. ***条件随机场(CRF),可以用于构造在给定一组输入随机变量的条件下, 另一组输出随机变量的条件概率分布模型。

DPCNN

**介绍:**1. 腾讯AI-lab于2017年提出了一种基于word-level级别的网络。2. TextCNN 不能通过卷积获得文本的长距离依赖关系,而DPCNN通过不断加深网络,可以抽取长距离的文本依赖关系。3. 使用了残差连接提高了深度。4. 使用了Region embedding,就是对一个文本区片段(比如3gram)进行一组卷积操作后生成的embedding。
论文…

HAN

**介绍:**通过将一个句子分割为几部分,每部分都使用双向RNN结合“注意力”机制将小句子映射为一个序列向量,对得到的向量再通过一层双向RNN结合“注意力”机制实现对文本的分类。
论文…

Transformer

介绍:1. 是一个由自注意力机制构建的Encoder-Decoder模型,共由6个相同编码器和6个相同解码器堆叠而成。2. 编码器由多头注意力、前馈神经网络两部分组成,解码器由多头注意力、前馈神经网络、Encoder-Decoder Attention三部分组成。3. 使用了自注意机制**,对一个词进行编码时,会考虑这个词上下文中的所有词和这些词对最终编码的贡献,从而关注到当前时刻的上下文中所有的信息。4. 引入了***位置编码(positional encoding)***,把Embedding和位置编码向量加起来作为模型的输入。5. 引入了***掩码***,对输入的向量或者矩阵中的一些特征值进行掩盖,使其不发挥作用。6. 使用了Layer normalization。
论文…

Reformer

介绍:1. 用于改善Transformer极其耗费算力和内存资源问题。2. 使用可逆残差**取代标准残差,在训练阶段只需要存储一层的激活结果而不是N层,消除了网络中N的倍数。3. 分离前馈全连接层的激活部分,分区块进行处理,消除对内存的消耗。4. 使用了***局部敏感哈希(LSH)***降低了计算attention复杂度。
论文…

ELMO预训练模型

**介绍:**1. 是NAACL18 Best Paper,由2层biLSTM组成,biLSTM层向量维度4096维,投影层词向量维度512维,最底层词嵌入层到第一层biLSTM输出层之间还有一个残差链接。2. 不同于以往的一个词固定对应一个向量,而是模型会根据上线文来推断每个词对应的词向量。3. 对于多义词,能够结合前后语境对多义词进行理解。
论文…

BERT预训练模型

**介绍:**1. Google于2018年的10月发布,功在 11 项 NLP 任务中取得 state of the art 的结果,全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder。2. 用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。
论文…

ALBERT预训练模型

**介绍:**1. 相比BERT参数量小,最小的参数只有十几M, 最大也就200多M。2. 将embedding的参数进行了因式分解。3. 跨层的参数实现了共享。4. 抛弃了原来的NSP任务,现在使用SOP任务。
论文…

ELECTRA预训练模型

**介绍:**1. LECTRA的性能明显优于BERT和XLNet。2. ELECTRA基于新颖的预训练框架,预训练框架包括Generator和Discriminator两部分,Generator是一个小的MLM,在[MASK]的位置预测原来的词,用于把输入文本做部分词的替换,Discriminator使用了替换 Token 检测 RTD取代了BERT的MLM,来判断输入句子中的每个词是否被替换(采用了类似GAN的思路),预训练阶段结束之后,只使用Discriminator作为下游任务精调的基模型。
论文…


目标检测
MMDetection

**介绍:**商汤科技和香港中文大学开源的一个基于Pytorch实现的深度学习目标检测工具箱,支持Faster-RCNN,Mask-RCNN,Fast-RCNN等主流的目标检测框架,后续会加入Cascade-RCNN以及其他一系列目标检测框架。
Github…

R-CNN

**介绍:**1. 2014年R-CNN作者将AlexNet在图像分类上的能力迁移到PASCAL VOC的目标检测上。2. 流程:给定一张图片,从图片中选出2000个独立的候选区域;将每个候选区域输入到预训练好的AlexNet中,提取一个固定长度的特征向量;每个目标(类别)训练一SVM分类器,识别该区域是否包含目标;训练一个回归器,修正候选区域中目标的位置:对于每个类,训练一个线性回归模型判断当前框是不是很完美。3. 缺点:训练步骤多繁琐、速度慢、产生特征文件大、SVM分类器、边框回归器训练,和CNN提取特征的过程分开,不能进行特征的学习更新。
论文…

SPP-net

介绍:1. 2014年Kaiming He对R-CNN的改进,提高了速度,最大区别是只需将原图输入一次,就可以得到每个候选区域的特征。2. 使用了空间金字塔池化**,CNN之所以需要固定输入大小,是因为全连接层需要固定尺寸,作者在最后的*卷积层和全连接层之间加入一层SPP层。
论文…

Fast R-CNN

介绍:1. 在2015年Ross Girshick推出,在PASCAL VOC上准确率与R-CNN相差不大,但训练速度和测试速度大幅度提升,且不需要R-CNN那样额外的存储特征。2. 使用了ROI池化层**解决了不同尺寸 proposal 的特征提取问题,直接用MxN的网格,将每个候选区域均匀分成M×N块,对每个块进行max pooling,从而将特征图上大小不一的候选区域转变为大小统一的特征向量。3. 特征提取时的参数共享。4. 将特征提取、目标分类与Bounding-box回归使用同一个CNN网络,采用多任务的方式来同时进行目标类别分类与窗口位置回归。5. 使用SVD对网络末尾中并行的全连接层进行分解,减少计算复杂度,提高检测速度。
论文…

Faster R-CNN

介绍:1. 在2016年Ross B. GirshickRoss B. Girshick提出,检测速度有了较大提高,甚至可用于实时物体检测,准确率也与原来的Fast-RCNN相差不多。2. 流程: 使用CNN提取图像特征,然后使用region proposal network(RPN)去提取出ROI,然后使用ROI pooling将这些ROI全部变成固定尺寸,再喂给全连接层进行Bounding box回归和分类预测。 3. 引入了区域提议网络RPN**,通过共享输入图像的卷积特征,快速生成 proposal,而之前的Fast R-CNN这些使用选择性搜索来生成建议窗口。
文章…
论文…

R-FCN

**介绍:**1. 在2016年由微软研究院提出,主要贡献在于解决了“分类网络的位置不敏感性”与“检测网络的位置敏感性”之间的矛盾,在提升精度的同时利用“位置敏感得分图”提升了检测速度,比 Faster R-CNN要快。2. 与Faster R-CNN相比R-FCN具有更深的共享卷积网络,是一个真正的全卷积的结构。
论文…

特征金字塔网络算法(FPN)

**介绍:**1. 在2017年由Facebook提出,主要解决的是物体检测中的多尺度问题,不是一种完整的目标检测神经网络,而是一种高效的CNN特征提取方法。2. FPN由自底向上和自顶向下两个路径组成,首先通过bottom-up pathway由浅到深提取特征(就是正常的网络结构),再通过top-down pathway和lateral connections生成在每个等级都有丰富语义的特征金字塔,上采样部分采用最近邻。
论文…

Mask R-CNN

介绍:1. 在2017年由何凯明提出,在Faster R-CNN基础上,在原本的两个分支上(分类+坐标回归)增加了一个分支进行语义分割。2. Faster R-CNN在目标检测领域表现较好,FCN在语义分割领域表现较好,作者将二者巧妙结合。3. 使用了ROI Align**,很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。
论文…

YOLO V1

**介绍:**1. 在2016年由华盛顿大学的 Joseph Redmon等人提出的一种one-stage目标检测算法。2. two-stage是先产生候选区域然后再进行CNN分类(RCNN系列),one-stage是直接对输入图像应用算法并输出类别和相应的定位(YOLO系列)。3. YOLO核心思想就是利用整张图作为网络的输入,直接在输出层回归 bounding box(边界框) 的位置及其所属的类别。4. 优点:速度极快、背景误识别率低、泛化性能好,缺点:尤其小目标的定位精度不够、对密集目标的识别存在不足、异常宽长比的目标识别不佳。
论文…

SSD

**介绍:**1. 在2016年由Wei Liu等人提出提出的一种one-stage目标检测算法,相比Faster RCNN有明显的速度优势,相比YOLO又有明显的mAP优势(不过已经被CVPR 2017的YOLO9000超越)。2. 从YOLO中继承了将detection转化为regression的思路,一次完成目标定位与分类;基于Faster RCNN中的Anchor,提出了相似的Prior box;加入基于特征金字塔(Pyramidal Feature Hierarchy)的检测方式。
论文…

YOLO V2

介绍:1. 在2016年12月25日发布,YOLO作者Joseph Redmon等人对YOLO V1进行了改进,弥补YOLO V1存在的有大量的定位错误和召回率较低的缺陷,提升了精度。2. 使用了联合训练算法**:同时在检测数据集和分类数据集上训练物体检测器,用监测数据集的数据学习物体的准确位置,用分类数据集的数据来增加分类的类别量、提升鲁棒性。3. 使用了***Batch Normalization***,改善网络的收敛性并抑制过拟合。4. 目标检测提取图像特征时,预训练的图像分辨率由224x224提高到了448x448。5. 使用了k-means聚类的box作为anchor box做坐标预测,而不是原来的全连接层。6. 使用了全新的Darknet-19基础网络。7. 使用了***passthrough***,把两个layer的feature map连成一个去做预测,改进了小目标预测不准确问题。8. Faster R-CNN 和 SSD 中,先验框都是手动设定的,带有一定的主观性,而YOLO V2 采用 k-means 聚类算法对训练集中的边界框做了聚类分析。9. 缺点:依旧没有解决重叠无法分类的问题。
论文…

Light-Head R-CNN

**介绍:**1. 是是旷视和清华大学在COCO 2017比赛拿到冠军的一种two-stage算法,主要是基于R-FCN的改进。2. two-stage算法第一步是生成第一步是生成ROI,第二步基于ROI的recognition过程(head),head一般都设计的很“重”,计算量大并耗时,导致检测速度很慢,Light-Head R-CNN要通过对head部分的修改减少了较多计算量。
论文…

Cascade R-CNN

**介绍:**1. 在2017年12月由Zhaowei Cai等人提出,主要目标检测中检测框不是特别准,容易出现噪声干扰的问题,即close false positive。2. 通过multi-stage网络提升IoU阈值训练级联检测器,可以使得检测器的定位精度更高。
论文…

RetinaNet(Focal Loss)

*介绍:1. 在2018年Facebook AI团队提出,改进了one-stage中存在的,类别不平衡导致检测精度低的问题。2. ***focal loss是一个能够动态缩放的cross entropy loss,当正确类别的置信度提高时缩放因子衰减为0,缩放因子可以自动降低easy例子在训练期间贡献loss的权重,使得模型注重hard部分。
论文…

YOLO V3

介绍:1. 在2018年华盛顿大学的 Joseph Redmon 和 Ali Farhadi 提出的 YOLO 的第三版改进 YOLO V3,精度和SSD相近,速度是SSD的3倍。2. 分类由softmax改为logistic。3. 使用FPN**架构来实现多尺度检测。3. 使用残差模型,构建更深的特征提取网络Darkent-53。
论文…

Mask Scoring R-CNN

**介绍:**1. 在2019年由华科和地平线提出,是对Mask R-CNN的改进。2. Mask R-CNN 由于沿用了 Faster RCNN 的 class和box,对应class是类别score,并不能代表mask的好坏,Mask Scoring R-CNN试图解决不配准的问题。3. Mask Scoring R-CNN在Mask head的基础上,加了一个分支,将ROI对齐后的特征与得到的Mask做了一个concat,然后通过卷积层+全连接层,得到IoU Score,最后通过score相乘得到最终的得分。
论文…

NAS-FPN

**介绍:**在2019年谷歌大脑团队提出,传统FPN人工设计不一定最优,而NAS-FPN采用神经架构搜索(NAS)的方式定制化地构建 FPN
论文…

EfficientDet

*介绍:1. 在2019年谷歌大脑团队提出,在COCO类似的准确率下,EfficientDet 的 FLOPS 仅为YOLO V3 的 1/28、RetinaNet 的 1/30、NASFPN 的 1/19。2. 使用了加权双向特征金字塔网络(BiFPN)***实现多尺度特征融合。3. 使用了新的目标检测器复合缩放方法,统一扩大所有主干网络、特征网络、边界框/类别预测网络的分辨率/深度/宽度。
论文…
Pytorch实现…

RDSNet

介绍:1. 2019年12月提出的一种统一目标检测和实例分割的新型网络。2. 设计了一个双流结构来共同学习目标级(BBox)和像素级(分割掩膜)特征,标级别的信息将实例和位移信息引入到了像素级别,而像素级别的信息则改善了目标级别上的定位精度。
Github…
论文…

ONCE

介绍: 2020 年三星提出的增量式少样本目标检测算法,在原CentreNet的基础上,采用基于特征的知识迁移策略,将网络分成类可知和类不可知模块进行增量式少样本学习。首先使用基类训练一个通用的特征提取器,然后基于meta-learning学习class code生成器,最后通过结合特征和class code进行目标定位。
论文…

YOLO V4

**介绍:**1. 曾经参与YOLO项目维护Alexey Bochkovskiy于2020年发布,结构为CSPDarkNet53+SPP+PANet(path-aggregation neck)+YOLOv3-head,速度超越EfficientDet,且更适合在单GPU上训练。2. 创新点:Mosaic数据增强;Self-Adversarial Training(自对抗训练);跨最小批的归一化(Cross mini-batch Normal),在CBN的基础上改进修改的SAM,从SAM的逐空间的attention,到逐点的attention; 修改的PAN,把通道从相加(add)改变为concat。
Github…
论文…


语义分割
FCN

介绍:1. 在2014年提出,是深度学习用于图像分割的鼻祖。2. FCN就是将传统分类网络的全连接层用反卷积层**替代,得到一个和图像大小一致的2维feature map,后接softmax获得每个像素点的分类信息。3. FCN使用了跳连的加操作。
论文…

U-Net

论文…

SegNet

**介绍:**1. 在2015由Vijay Badrinarayanan等人提出,在FCN的语义分割任务基础上,搭建编码器-解码器对称结构,实现端到端的像素级别图像分割。2. SegNet采用了VGG16,去掉全连接层,搭建对称模型。3. SegNet每个卷积层后+Batch Normlization层+ReLU激活层、使用Softmax 损失函数。4. SegNet 在解码器中使用去池化对特征图进行上采样。
论文…

Fully Convolutional DenseNet
E-Net
Mask R-CNN
PSPNet
RefineNet
G-FRNet
DecoupledNet
基于GANs
BiSenet V1

论文…

BiSenet V2
DFANet
SwiftNet

图像翻译
pix2pix

**介绍:**本文最大的贡献在于提出了一个统一的框架解决了图像翻译问题,使用CGAN处理了一系列的转换问题。使用加入GAN的Loss去惩罚模型解决模糊问题。
论文…
Github…

pix2pixHD

**介绍:**对pix2pix进行了改进,可以产生高分辨率的图像。提出了生成高分辨率图像的多尺度网络结构,包括生成器,判别器。提出了Feature loss和VGG loss提升图像的分辨率 - 通过学习隐变量达到控制图像颜色,纹理风格信息 - 通过Boundary map提升重叠物体的清晰度。
论文…
Github…

vid2vid

**介绍:**pix2pix, pix2pixHD的改进版本,重点解决了视频到视频转换过程中的前后帧不一致性问题,在pix2pixHD基础之上,加入时序约束,因此可以实现高分辨率视频生成。生成器加入光流约束、判别器加入光流信息、对前景、背景分别建模。
论文…
项目主页…

CycleGAN

**介绍:**2017年,加州大学伯克利分校的教授提出,CycleGAN使用循环一致性损失函数来实现训练,来完成将图片中一个域到另一个域的无缝转换。CycleGAN创新点就在于其能够在没有成对训练数据的情况下,将图片内容从源域迁移到目标域,解决了pix2pix 必须使用成对数据进行训练的问题。核心理念是,如果有一个图像风格转换器 G 可以将 X 域的图片转换为 Y 域的风格,而 F 可以将 Y 域的图片转换为 X 域的风格,那么 G 和 F 应该是互逆的。
论文…

U-GAT-IT

**介绍:**图像到图像的翻译旨在学习一种在两个不同域中映射图像的功能,在图像修复,超分辨率,灰度图着色,风格迁移等领域受到了广泛关注。U-GAT-IT提出了一种新的无监督图像到图像的翻译方法,该方法具有一个新的注意模块和一个新的归一化函数AdaLIN;注意模块根据辅助分类器获得的注意图,通过区分源域和目标域,帮助模型知道在哪里进行集中转换;AdaLIN功能帮助注意力导向模型灵活地控制形状和纹理的变化量,而无需修改模型架构或超参数。
论文…

StyleGAN

**介绍:**英伟达 2018 年底发布,StyleGAN提出了一个新的 generator architecture,号称能够控制所生成图像的高层级属性,如 发型、雀斑等;并且生成的图像在一些评价标准上得分不错;同时随论文开源了一个高质量数据集FFHQ,包括7w张1024 * 1024高清人脸。
**用途:**AI换脸
FFHQ人脸数据集…
论文…

StyleGAN2

**介绍:**英伟达 2019 年底发布的StyleGAN改进版,在解决了生成图像伪影的同时还能得到细节更好的高质量图像。改进:生成的图像质量明显更好(FID分数更高、artifacts减少);提出替代progressive growing的新方法,牙齿、眼睛等细节更完美;改善了Style-mixing;更平滑的插值(额外的正则化);训练速度更快
**用途:**AI换脸
Github…
论文…

ALAE

**介绍:**2020年发布,ALAE有两个自编码器:一个是基于MLP编码器,另一个基于StyleGAN对抗神经网络的生成模型,也可以称之为StyleALAE。ALAE的作者们将这两种体系结构的结合。结果表明,StyleALAE在各方面的性能都优于上一代的StyleGAN,且在相同分辨率下还可以生成更真实的人脸重构信息。
**用途:**AI换脸
Github…
论文…

其他
GAN-TTS

**介绍:**使用 GAN生成原始波形图来进行语音合成,证明了对抗网络前馈生成器的确能够生成高保真的语音音频,并解决了前人模型中缺乏并行性的缺陷。
**用途:**语音合成
论文…

ManTra-net

**介绍:**入选2019年CVPR篡改类论文,ManTra-net可以处理任意尺寸的图像和多种篡改类型,类型为拼接,copy-move,removal,enhancement等,此网络不需要额外预处理和后处理且是全卷积网络。
**用途:**检查图片是否被ps
论文…

Hi-CMD

**介绍:**1. 提出了种一种新颖的VI-ReID行人跨模态识别方法:Hi-CMD,与传统的模型方法相比,该模型通过区分ID-discriminative和可见红外图像中的ID-excluded两种因素,有效地减少了跨模态和模态内的差异。2. 利用ID-PIG网络,避免可能因训练数据不足而带来的问题。
**用途:**行人检测
论文…

MaskFlownet

**介绍:**2020年微软亚洲研究院提出了一种可学习遮挡掩模的非对称特征匹配模块 ,它可以被轻松结合到端到端的基础网络中,无需任何额外数据和计算开销就可以学习到遮挡区域,从而显著改进光流预测的结果。
**用途:**图片光流预测
Github…
论文…

CenterTrack

**介绍:**1. 2020年德克萨斯奥斯汀分校和英特尔研究院的研究人员提出一种基于点的同时检测和跟踪方法,该方法比当前最优技术更加简单、快速、准确。2. CenterTrack 很容易扩展到单目 3D 跟踪,只需恢复额外的 3D 属性即可。3. 使用了近期提出的 CenterNet 检测器来定位目标中心。
**用途:**目标跟踪
Github…
论文…

Bringing Old Photos Back to Life

**介绍:**1. 2020 年香港城市大学、微软亚洲研究院、微软云+ AI、中国科学技术大学提出,可以处理更接近真实场景的结构化和非结构化的复杂的混合降质。2. 研究者训练了两个变分的自动编码器(VAEs),可将图像变换到隐空间,并在隐空间进行图像修复操作。
**用途:**旧照片修复
项目主页…
论文…


参考

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!