发布信息

一种编码单元划分的快速决策方法与流程

作者:admin      2022-07-29 22:39:18     861



电子通信装置的制造及其应用技术1.本发明属于视频编码处理技术领域,尤其涉及一种编码单元划分的快速决策方法。背景技术:2.随着视频市场的发展,超高清视频和虚拟现实视频因为可以提供更逼真的感知质量变得越来越受欢迎。相对应地,uhd和vr视频由于其高分辨率和亮度的动态范围广泛,导致数据量急剧增加,hevc(high efficiency video coding)视频编码标准已不足以满足未来市场所需的压缩能力。联合视频探索小组(joint video exploration team,jvet)正在开发下一代标准vvc(versatile video coding)。为了进一步提高帧内预测的编码性能,在vvc中提出了多种新颖的编码技术,例如于非正方形块的广角帧内预测、多参考线帧内预测和帧内子分区。相较于hevc这些技术的引入都显著地增强了编码器的性能,但与此同时编码器的复杂度也急剧增加。帧内模式下,vvc的编码复杂度平均是hevc的18倍,所以研究视频帧内模式下的快速编码算法是很有必要的。3.hevc中,编码单元的划分采用四叉树结构,编码单元(coding unit,cu)大小的决策占据了大部分的编码时间,而vvc中编码单元划分采用四叉树加多类型树(quad tree plus multi-type tree,qtmt)结构,不仅可以将cu划分为正方形,而且可以将其划分为矩形,这使vvc的cu能够适应视频内容的更多纹理模式,同时计算量也更大。在视频编码标准中,通过蛮力率失真优化(rate distortion optimization,rdo)先检查所有可能的cu的rd成本,然后选择具有最小rd成本的cu的组合作为ctu划分结果。如果能快速确定ctu的划分结果,避免蛮力搜索全过程,将会大幅缩短编码器的编码时间,从而降低编码器复杂度。另一方面,设计快速的ctu划分决策算法具有挑战性,如果只专注于时间的缩短,划分算法不够精确导致做出错误的决策过多,将会导致编码性能下降。因此视频帧内编码下的快速ctu划分决策算法还需进一步探索,以实现编码时间和编码性能间的平衡。4.通过对国内外文献的研究,帧内编码的快速ctu划分决策算法主要分为启发式方法和数据驱动方法两大类。启发式方法是在编码过程中提取中间特征,例如:纹理同质性、空间相关性,建立统计模型,通过这些模型尽早确定ctu的划分决策,提前终止rdo搜索过程,以跳过ctu划分过程中不必要的搜索来缩短编码器的编码时间;在数据驱动的方法中,把帧内模式下的cu大小决策问题视为一个多分类问题,使用深度学习模型从足够多的数据中自动学习ctu的划分方式,避免了启发式方法中严重依赖于手工提取特征的缺点,但由于复杂的网络计算,也给编码器增加了计算负担。技术实现要素:5.本发明实施例的目的在于提供一种编码单元划分的快速决策方法,能够降低编码过程的复杂度及对应所耗费的编码时间。6.本发明实施例是这样实现的:7.一种编码单元划分的快速决策方法,包括以下步骤:8.当前编码单元(cu)开始遍历所有模式前,先对其尺寸进行辨别;9.如果其宽度和高度不相等,则进行原始的率失真优化遍历方法选取最优的划分模式;10.如果其宽度和高度相等,则获取当前编码单元(cu)的局部二值模式(lbp)特征;11.如果局部二值模式(lbp)特征值小于阈值th1,则当前编码单元(cu)纹理特性简单,跳过多类型树的划分;12.如果局部二值模式(lbp)特征值大于或等于阈值th1,则当前编码单元(cu)纹理特性复杂,进一步获取当前编码单元(cu)各子块像素方差的方差,选取最大的方差相对应的划分方式作为其最优的划分方式;其中,阈值th1为预设值,所述划分方式为水平二叉树划分方式、水平三叉树划分方式、竖直二叉树划分方式或竖直三叉树划分方式;13.具体的,依据局部二值模式(lbp)特征值中1的个数来判断当前编码单元(cu)的复杂纹理是水平方向还是竖直方向,如果是水平方向,则选择水平二叉树划分方式或者水平三叉树划分方式,如果是竖直方向,则选择竖直二叉树划分方式或者竖直三叉树划分方式。14.本发明在vvc中,图片是以块为单位编码的。在对图像进行编码时,对于均匀区域中的cu块,倾向于选择较大的cu块,对于质地丰富的cu块,倾向于选择较小的cu块。对于纹理简单或一致的纹理,通过一种帧内预测模式可以准确预测纹理中的像素值。本发明将原始视频编码器中通过自上而下计算rd成本和自下而上搜索比较确定最优ctu划分的过程变成了只有自上而下的过程,对于启发式算法,经过对编码单元纹理复杂度的计算来决定是否进行下一步划分,如果不划分就可以提前终止ctu的划分过程,如果划分,进一步决定使用哪一种划分模式;对于数据驱动算法,在正式编码之前先预测cu划分的概率,若大于阈值则进行划分,若小于该阈值则不划分,提前终止ctu划分过程,从而降低编码过程的复杂度及对应所耗费的编码时间。将ctu整体划分过程看成多层分类问题来解决,每个深度上划分模式的选择是一个分类问题。附图说明15.图1是vvc中ctu划分示例图;16.图2是本发明的编码单元划分方式决策模型流程图;17.图3是本发明采用的多类型树划分方式示意图。具体实施方式18.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。19.与上一代编码技术h.265/hevc相比,h.266/vvc编码框架仍由块划分、预测、变换量化、环路滤波、嫡编码等多个模块组成,但在每个模块中都添加了提高视频编码效果的关键技术,具体如下:20.1、块划分21.对于编码单元的划分问题,在hevc标准中,ctu在其每个cu深度上要么选择不分割,要么通过四叉树拆分成更小的方形cu,编码单元具有64×64,32×32,16×16,8×8四种不同大小,分别对应深度值0,1,2,3。而在vvc标准中,ctu采用的划分结构为qtmt结构。ctu首先可以选择不分割或用四叉树分割成更小的cu,然后在其每个cu深度上可以用四叉树或多类型树进一步分割成更小的cu,其中多类型树包括二叉树和三叉树,且每种树结构具有水平和竖直两种模式。一旦cu选择使用多类型树进行分割,后续将不能再使用四叉树进行划分。对于某阶段,最多可以有六种划分模式供选择(即非分裂,四叉树,水平二叉树,竖直二叉树,水平三叉树和竖直三叉树),直到满足cu的最小宽度或高度为4。默认ctu的大小为128×128,最小的cu为4×4,这种划分结构下cu的形状可能是方形,也可能是矩形,可以灵活地适应更多纹理。如图1所示,是vvc中ctu划分示例图。22.在视频编码标准中,ctu划分的全过程分为自下而上和自上而下两个过程。首先从ctu自顶向下检查所有划分方式可能得到的cu大小的rd成本,然后自下而上地比较每一层cu的rd成本与其子cu的rd成本之和,选取最小的rd成本作为当前最优成本,直到最上层遍历整个划分树,将得到的ctu最小rd成本对应的cu组合作为ctu的最终划分结果。其中,vvc中由于cu划分模式更多、划分更细致,导致编码复杂度比hevc高得多。对于hevc中的每个ctu,在编码过程中需要检查85个cu,而在vvc中,此数目增加到5781个。实际上,在hevc中最终分区结果中仅存在于小部分已检查的cu(最少1个cu,最多64个cu),而vvc中最终划分结果cu个数最少为1个,最多为1024个。如果可以预先对整个ctu的划分结果进行准确预测,在hevc中可以避免最多84个cu(即85-1)和至少21个cu(即85-64)的率失真成本计算;在vvc中可以避免最多5780个cu(即5781-1)和至少4757个cu(即5781-1024)的预编码,可以很大程度上缩短编码器的编码时间。因此,想要实现视频帧内模式下的快速编码,可以从减少ctu划分计算过程的冗余入手。23.不同于hevc帧内模式下对所有颜色通道都使用相同的cu分区,vvc帧内模式下对亮度分量和色度分量的ctu采取独立划分策略。因为相较于色度分量,亮度分量携带了大量的细节信息,为了保持编码性能,亮度分量cu的划分应该更细,也因此亮度分量的cu划分占据了编码器编码过程的大部分时间。本发明专注于视频亮度分量的ctu划分决策。在视频编码中,由于ctu的划分是层层递进的,且每个深度值上cu都有多种划分模式选择,对于整个ctu就有多种划分结果,所以如果直接将ctu划分问题看成是多分类问题来处理的话,由于分类情况较多将难以处理。本发明将ctu整体划分过程看成多层二分类问题来解决。24.cu大小与视频内容的纹理高度相关,纹理简单较平均的区域往往会覆盖较大尺寸的cu,而复杂纹理区域始终会分成较小的cu。因此,一个快速划分策略是对ctu划分过程提前终止。如果当前cu被检测为平坦区域时,则当前cu不用划分到下个深度,提前终止整个ctu划分。但是,对于vvc来说平坦区域并不常见,因此还不足以大大减少计算负担,因为仍然有大量的cu需要递归执行所有分区模式。因此,如果可以跳过几种划分模式,则可以实现更多的复杂性降低。由于划分模式中分水平和竖直两种方向划分,我们还可以对不平坦cu进一步计算其水平方向和竖直方向的复杂度,进而选择对应方向的划分模式,避免不必要的划分模式下cu的rd成本(率失真成本)的计算。25.那么特征及每层划分阈值的选取将是一个决定编码效果的关键点,本发明选用lbp(local binary patterns,局部二值模式),lbp是一种用来描述图像局部纹理特征的算子,将3*3窗口中心的像素点作为中心,该像素点的像素值作为阈值。然后将周围8个像素点的灰度值与该阈值进行比较,若周围某像素值减中心像素值的差值大于某阈值时,则该像素点位置被标记为1;反之,该像素点标记为0。如此这样,该窗口的8个点可以产生8位的无符号数,这样就得到了该窗口的lbp值。将lbp值中1的个数作为指标与阈值相比,判断该cu是否为复杂纹理区域。接下来分别依据不同位置上lbp的1的个数来判断cu的复杂纹理是水平方向还是竖直方向的,进而选择水平二叉树划分、水平三叉树划分或竖直二叉树划分、竖直三叉树划分。注意,当cu被多类型树划分后,无法在用四叉树进行划分。26.2、预测27.视频编码中预测模块是指利用视频图像帧中或相邻图像帧之间,像素与像素之间存在极强的像素相关性的原理,来剔除时域和空域中的数据冗余,而预测模块又分为帧内预测技术和帧间预测技术。帧内预测是指考虑到图像块中存在空域冗余的特性(即一帧图像内相邻像素之间存在较强的相似性),使用当前图像块的邻近己编码处理过的像素块预测出当前块像素值的过程。在新一代视频编码h.266/vvc帧内预测中新增了许多技术,如更多角度方向预测、非正方形的广角帧内预测(wide-angle intra prediction for non-square blocks,waip)、位置决定的帧内预测组合(position dependent intra prediction combination,pdpc)、帧内子块划分技术(intra sub-partitions,isp)、跨分量线性模型预测(cross-component linear model prediction,cclm)、多参考行帧内预测(multi-line intra prediction,mlip),矩阵加权帧内预测(matrix based intra prediction,mip)等技术。28.3、变换量化29.变换是通常指将经过预测后的残差值进行离散变换(discrete transform,dt)由于图像大概率会具有简单纹理且平整的区域,经过变换处理后,将空域上较为分散的这些区域的数据较为集中在变换域某个区域中,从而有效减少视频图像的数据冗余。通常情况下,经过变换处理后的dt系数往往都处在一个较大的连续取值范围。为了减少dt系数的取值范围,对连续的变换系数进行量化,实现进一步减少数据量的目的,仅会损失一定的数据精度。在h.266/vvc中为了提高变换和量化的计算速度,在编码时仍同时执行变换和量化。除了h.265/hevc中己有的dct2变换核外,还新添加了dst7,dct8变换核,通过根据不同的预测模式选择适合的变换核,以达到最佳的变换效果。30.4、墒编码31.在信息论中,嫡编码是一种通用的无损数据编码压缩技术,该技术用二进制流代替了图像数据信息。嫡编码与变换和量化相结合,可显著减小视频图像数据。嫡编码将承载视频图像信息的数据(如运动矢量信息、变换量化系数等)变化为可以进行存储或传输的二进制数据流,原始视频经过嫡编码处理后便是压缩后的码流。32.5、滤波及补偿33.由于h.266/vvc视频编码是通过对cu进行块划分后再预测的,所以经过h.266/vvc视频编码后的视频会出现图像方块效应、振铃效应、图像质量差等失真现象。为了减少视频失真现象所带来的不好视觉体验,h.266/vvc编码中采用去方块滤波(de-blocking filter,dbf)减少方块效应,并在dbf中参考重建的亮度分量的水平来决定滤波器的强度,使得滤波效果更好。h.266/vvc针对存在的振铃效应现象,继续采用样本自适应补偿滤波进行削弱。同时,还应用了基于块的自适应环路滤波(adaptive loop filter,alf)以提高图像的主观质量评价的同时提高h.266/vvc编码效率。34.以下结合具体实施例对本发明的具体实现进行详细描述:35.本发明的一种编码单元划分的快速决策方法,包括以下步骤:36.当前编码单元(cu)开始遍历所有模式前,先对其尺寸进行辨别;37.如果其宽度和高度不相等,则进行原始的率失真优化遍历方法选取最优的划分模式;38.如果其宽度和高度相等,则获取当前编码单元(cu)的局部二值模式(lbp)特征;39.如果局部二值模式(lbp)特征值小于阈值th1,则当前编码单元(cu)纹理特性简单,跳过多类型树的划分;40.如果局部二值模式(lbp)特征值大于或等于阈值th1,则当前编码单元(cu)纹理特性复杂,进一步获取当前编码单元(cu)各子块像素方差的方差,选取最大的方差相对应的划分方式作为其最优的划分方式;其中,阈值th1为预设值,可以根据不同的情况赋值,即:根据经验和处理的不同情况进行参数调整,所述划分方式为水平二叉树划分方式、水平三叉树划分方式、竖直二叉树划分方式或竖直三叉树划分方式;41.具体的,依据局部二值模式(lbp)特征值中1的个数来判断当前编码单元(cu)的复杂纹理是水平方向还是竖直方向,如果是水平方向,则选择水平二叉树划分方式或者水平三叉树划分方式,如果是竖直方向,则选择竖直二叉树划分方式或者竖直三叉树划分方式。42.在vvc中,图片是以块为单位编码的。在对图像进行编码时,对于均匀区域中的cu块,倾向于选择较大的cu块,对于质地丰富的cu块,倾向于选择较小的cu块。对于纹理简单或一致的纹理,通过一种帧内预测模式可以准确预测纹理中的像素值。本发明将原始视频编码器中通过自上而下计算rd成本和自下而上搜索比较确定最优ctu划分的过程变成了只有自上而下的过程,对于启发式算法,经过对编码单元纹理复杂度的计算来决定是否进行下一步划分,如果不划分就可以提前终止ctu的划分过程,如果划分,进一步决定使用哪一种划分模式;对于数据驱动算法,在正式编码之前先预测cu划分的概率,若大于阈值则进行划分,若小于该阈值则不划分,提前终止ctu划分过程,从而降低编码过程的复杂度及对应所耗费的编码时间。将ctu整体划分过程看成多层分类问题来解决,每个深度上划分模式的选择是一个分类问题。43.对于第一部分(块划分),选取lbp(local binary patter,局部二值模式)特征作为判断划分的依据,判断是否进行划分,以及如果划分,进而计算划分子块像素方差的方差进一步判断是哪种方向上的划分,从而可以跳过部分不必要的cu划分以及减少了率失真损失的计算次数,从而能够有效地降低视频帧内编码的复杂度。实际效果的评价指标是相对于原始编码器节省编码时间的百分比(体现编码复杂度)、编码所需的码率bd-br和峰值信噪比bd-psnr(体现编码性能),在保证bd-br和bd-psnr较小的情况下节省时间较多即达到目标。提出的基于lbp和方差特征的划分方式快速决策方法,以实现编码单元的划分方式快速决策,主要的依据是编码单元的划分与其纹理特征的分布息息相关,框架结构如图2所示,是本发明的编码单元划分方式决策模型流程图。44.架构主要分为两个部分,即判断当前块是否需要划分和若为多类型叉树划分决策其最佳划分模式。策略是提前跳过或决策h.266/vvc中没有必要进行的四叉树及多类型树划分。当检测待编码cu为简单平缓区域时,可以执行提前终止嵌套多类型树划分的决策。然而,由于平坦区域并不普遍,因此,它不足以大大降低计算量,因为仍然有大量的cu需要递归地执行所有的划分模式。因此,如果可以借助图像块的纹理复杂性提前决策当前cu的划分方式,从而减少率失真优化的过程,则可以降低更多的复杂性,提高编码的效率。每次当前cu开始遍历所有模式前,我们首先对其尺寸进行辨别,如果其宽度和高度不相等,则进行原始的率失真优化遍历方法选取最优的划分模式,如果相等,则计算当前cu的lbp特征,如果值小于阈值th1,则说明该编码单元纹理特性简单,可以跳过多类型树的划分,否则计算各子块方差的方差,选取最大的方差相对应的划分方式作为其最优的划分方式。主要目的是跳过不必要的率失真计算次数,从而缩短编码时间。本发明中,竖直二叉树方向、水平二叉树方向、竖直三叉树方向、水平三叉树方向的划分方式如图3所示。45.psnr是一种全参考的图像质量评价指标,它基于当前图像和参考图像之间的均方误差,是一种被广泛使用的图像客观评价指标。由于它是一种基于误差敏感的图像质量评价,并未考虑到人眼的视觉特性(人眼对空间频率较低的对比差异敏感度较高,人眼对亮度对比差异的敏感度较色度高,人眼对一个区域的感知结果会受到其周围邻近区域的影响等)。因而,经常出现评价结果与人的主观感觉不一致的情况。以bd-psnr、bddr(%)和dt(%)作为评估算法性能指标。其中,bdbr(%)表示在同样客观的客观质量下,两种方法的码率节省情况,优化算法通常会导致bdbr的增加,bdbr越大,说明编码效果越差。46.本发明将所有序列的bdbr都会取平均值以反映出完整的编码质量;bdpsnr是指相同码率下,相较于原始算法,两种方法psnr-y的差异即优化后的算法的图像客观质量的变化。bdpsnr为正时,代表优化算法提升了算法的编码性能,反之,代表着编码性能的下降。dt(%)是指所提算法相比于vtm原始算法节省的编码时间,其计算方式为:[0047][0048]其中,t1表示所提算法(或改进算法)的编码时间,tr表示参考软件vtm6.0的编码时间。[0049]综上,本发明的技术关键点在于,将lbp特征用于判断ctu划分与否及划分模式的依据,当判断为复杂纹理时才进行下一步划分;将子编码单元的方差的方差作为判断哪一种多类型树的依据,具体是进行水平二叉树方向、水平三叉树方向还是竖直二叉树方向、竖直三叉树方向的划分。否则,提前终止划分过程,减少遍历及对应的率失真计算次数,降低编码器复杂度。[0050]以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部