云式博客

SSIMULACRA检测压缩相关人工制品的心理视觉冲击

通过 Jun 142017

SSIMULACRA

丢失图像压缩是减缩图像文件大小的好方法,这有助于提高网站或应用性能并降低带宽成本万一进展顺利没人能分辨出差错万一顺利

损耗压缩不顺利时,压缩人工品变得可见或甚至完全毁损图像JPEG图像编码压缩过强

连环画

8x8块结构JPEG格式变得显性(阻塞性)和多量化DCT系数导致“halos”(也称gosts或echoes)出现在锐边缘(squito噪声)和Steckle色素子采样导致颜色混淆相邻像素(colorblemation)和染色体通道量化会降色梯度

换句话说:损失是好的,只要我们不损失太多

问题在于,在问题出现前,我们可应用多少压缩法?人性化假设安全化假设中, 人性化保存图像时可自解题 : 只使用最低质量设置, 仍然看似良好。但如果你是一个计算机 — — 或需要保存大片图像的人 — — 方法有问题仅使用固定压缩设置所有图像也不是好策略:有些图像似乎以极强压缩而逃脱,而另一些图像则需要更高质量避免可见人工品

正因如此,云形应用了 q_auto特征自动选择质量设置,实现压缩密度和视觉质量之间的正确平衡但它如何工作幕后

q_auti工作需要自动方法算法比照原创判断压缩图像视觉质量算法被称为概念度量双输入图像原版和损耗版概念度量计算数字分表示两者之间的视觉差如果量化输出低数值,图像可能视觉不可分化,压缩可以接受(或低质量设置可以试用)。如果输出高数,图像之间差别很大 — — 可能足以可视化 — — 因此应使用更好的压缩质量等式评分是q_ato魔术核心成份深挖点

概念度量

外头有许多感知度量最简单度量称PSNR峰值信号对噪比.基本比较两个图像的数值像素值,并随着差值增大而分值下降-更精确地说,当平均方差变大时分差值会更高

简单度量像 PSNR不真的考虑人感知很容易被“阻塞 ” : 比原创略为亮度或暗度差分(因为所有像素有误),而它能给与原创完全相同的图像优分除小区外 — — 人最肯定会注意到的东西

PSNR很容易计算, 并在一定程度上表示图像忠真性, 所以它过去和现在都广泛用于图像和视频压缩研究中

光谱的另一端有像Google的度量Butteaugli计算难度大得多(因此得分需要很长时间),但算法确实考虑到人类心理视觉感知Buteaugli使用Google幕后盖兹利JPEG编码器

Buteaugli(和Guetzli)目前只对高质量图像有效 — — 专为那些刚接近极隐蔽可见文物的图像优化,当仔细比较压缩图像和原创时。guetzli不允许您保存质量小于84JPEG但在网络上,你通常想比图像优化时多点进取性归根结底,您的访问者不会细心比较-他们甚至无法访问原创非压缩图像他们只想要一图像看好并快速加载

介于这两个极端-PSNR和Bitaugli-之间-有已知概念度量SSIM系统结构相似性需要考虑人感知的一个重要方面:像素之间的空间关系,即结构图像PSNR忽略图像中像素位置,SSSIM不关注绝对误差,而是关注相邻像素之间的相对误差

SSIM变式称MSSIMssIM分析不光全分辨率图像,还从缩放版分析,从而产生更精确的整体度量MSSIM良好和普及实施Kornel LesenskiDSSIMd表示计算异差分数低比高,不同于原创SSIM,高比高)。

Kornel的DSSIM算法从几方面提高原创ssIM算法:它不看灰度或RGB像素值,而是用调色空间作比较CIEL*a*b*更贴近人们感知颜色

SSIM仍然可能被图片蒙骗最终评分仍然基于平均评分照片合情合理, 但不是所有图片都纯粹是图片eCommerce等常用做法是删除图像后台并代之以固色(通常是白色)。固态背景很容易压缩,所以即使是主动压缩背景也会非常接近原创光取平均度量全图像将分优于应分,因为图因背景人工夸大,而图重要部分-前台对象-可能根本不确定。

说明性: 猫头鹰 原创图像压缩图像质量极差SSIM热映射图像大区(后台)几乎完美化,总体评分就会膨胀

概念度量是q_aut的关键构件,我们决定执行我们自己基于SSIM的度量以更好地检测压缩人工品的心理视觉冲击(相对于图像可能有的其他类型失真,如不正确的相机标定)。处理非纯图片也更好SSIMULACRA:结构性SIMLILIA

SSIMULACRA工作方式

测试基础是CIEL*a*b*颜色空间中标准多级SSIM实现产生数张热图和色通道组合地图显示图像每一部分问题多深标准SSIM实施中,最后评分取加权和量度对每个尺度和色通道平均值-luma通道比chroma通道(a*和b*)增权值,因为它从概念上看更重要,而更多缩放尺度则增权值,因为它们的误差作用更大

说明:SSIM热映射JPEG压缩图像各种属性只显示全尺度热映射绿色匹配luma错误,红色和蓝匹配chroma错误

简单取平均值并不完全正确误差集中在图像的某个区域,而其他区域接近完美,平均值可能过于乐观。这可能对有固态或模糊背景的图片产生问题,正如上文所讨论的那样。

为了避免这类问题,我们添加本地人工检测物,寻找本地错误块并相应调整测量结果而不考虑整体误差(全局均值),我们也考虑最坏误差(局部minima)。

模拟热映射阻塞检测最差图像格式编译块图例,例如JPEG使用块8x8像素低质量设置时,块结构变得可见阻塞似乎是最难看的压缩文物之一 — — 正因如此,WebP和JPEG2000等现代格式明确试图避免阻塞,例如使用所谓的阻塞滤波器

阻塞显示SSIM热映射成块边缘误差网格SSIMULACRA检测到网格的存在并再次相应调整评分

归根结底,还有一件事我们加到测量上: 冗余边缘检测难解释

多损图像格式使用频率域某种量化法,这是压缩人工制品的主要来源量化结果之一模糊化(因为高频细节去除)。另一种可能的结果是引入假边缘和小斑点(环形和蚊虫人工制品)。后一种常发生近强边缘原创图像,例如文字周围

这两种手工艺 — — 模糊和铃声 — — 并不产生相同的心理视觉效果。一般来说,人们似乎比铃声更容疑, 特别是当他们无法获取原创图像时模糊甚至可产生理想副作用消除原创中存在的传感器噪声相片部分因艺术原因失焦点并不少见,声工品总像不受欢迎的压缩工品

检测冗余边缘 说明:检测冗余边缘

正因如此, 我们用不同方式处理模糊性(移位边缘应该存在 ) 与处理铃声方式不同(引入边缘不应该存在 ) 。边缘在扭曲图像中, 但不在原创中, 帮助加分,我们称此处罚冗余边缘检测帮助批注动画蚊子噪声阻塞和色带

顺便说一下,这是唯一非对称度量度部分:关键是两个输入图像中的哪一个是原创其余计算(包括原型SSIM算法)完全对称:图像A和图像B的异差与图像B和图像A之差相同SSIMULACRA因冗余边缘检测而不再是这种情况

表现如何

视觉度量目标精确预测人们如何评分图像质量测量度量性能时, 需要看它与人的观点有多么相联

坦佩雷图像数据库(TID)是最大公开数据集之一,可用于评价概念度量由25张原创图像组成,以24种不同方式失真,分5级失真,共3000张反真图像近千人被要求分数变换图像总计超过50万次比较结果:3000变形图像平均评分然后,为了测量像SSIMULACRA这样的概念度量的精度,你可以检验度量和MOS之间的相互关系允许我们评估比较度量并得出结论像: 多级SSIM表现优于PSNR

一开始,我们想用TID2013数据集验证ssmULACRA初步结果相当令人失望原因吗广网覆盖多类扭曲 SSIMULACRA只关注损图像压缩引入的失真TID大都与图像压缩无关:24变换中,只有2对应图像压缩(JPEG和JPEG2000)其余则与摄取、传输或显示图像时可能出现的问题相关观察者总能比较原创图像与扭曲图像,网络上你得到的只是压缩图像, 是一个略微不同的环境

於是我们决定自己做实验与TID2013相比,我们的实验体积比较小,但焦点比较集中。八大图像原创编译格式和四大压缩密度(文件尺寸)-这样我们可以公平比较不同格式,但在后文中更多比较使用图像格式如下:Lepton(MozJPEG再压缩lepton)、WebP、JPEG2000、JPEGXR(亏损)FLIF、BPG、Daala和PNG8

然后我们允许人们比较一对图片, 并问他们认为哪两个图像最美从两个图像A和B中,5种可能的响应可选择 :A比B好得多,A比B好点,I不能说哪个最优,B比A好点,B比A好点

原创图像对每种压缩图像(不说原创图像)和两对压缩图像(不同图像格式)相同压缩密度每一次比较多次并同时排序-AvsB和BsA

我们使用比例化API执行实验那样,我们不必担心找人做所有这些比较我们迫不得已创建比较任务提供指令列表回复和所有图像配对的 URLsScallAPI透明分配小比较任务到人才库-他们称之为算法员人类观察者通过ScapeaAPI筛选并接受微额支付,每次完成比较提交ScaleAPI的每一次比较中, 都实际内部分配到至少两个不同的Assers并汇总响应最终结果从ScaleAPI返回是高质量有效响应总和而言之,我们提交四千多对比ScaleAPI保证我们做至少4 单片SOSAPI请求

观察各种概念度量方法捕捉人的意见, 我们先平均人对AB对从-10到10中我们表示平均判断值, 即10表示大家都说A比B高得多, 和-10表示大家都说B比A高得多如果评分接近零,可能是因为受访者意见弱或有冲突意见:例如评分为0,因为每个人都说“我不能说哪个最优”,但也有可能有一半观察者说A优于B,另一半表示相反。归根结底得分绝对值表示人类判断中“信任度”

后每种AB配方可使用概念度量计算2分:1A比原创,2B比原创公尺表示A优于B 公尺表示A优于B

sulracra插图

良好的概念度量应同人判断一致,特别是在高度信任判断方面然而我们不能期望它完全认同人类判断人都是怪生物部分结果出人意料在有些情况下,人们认为压缩图像比原创要好点人类偏好似乎非透明化:例如,人们说30KBWEP图像比30KBDaala图像要好点,同Daala图像比30KBLepton压缩JPEG图像要好点期望偏向传递, 表示WebP比JPEG至少看好一点(或可能更好点)。都表示JPEG看起来稍好点

当我们用感知度量比较两张图像原创时,结果总是传递式的,原创图像总比扭曲图像好正因如此,我们不能期望感知度与人完全一致幸运的是人类的怪异判断相对稀有

有682对图像平均人判断非零有偏差(强弱)两种图像中哪一种看起来最优对这些配方而言,我们研究各种概念度量是否与人类偏好一致随机猜想应该已经给出约50%协议, 幸运地所有尺度我们认为优于此性能人判断力增强后,所有都提高以下是我们结果的图解

整体而言,PSNR只对67%的案件表示“更正”。Butteraugli正确处理80%案例,DSSIM正确处理82%案例(我们使用Kornel实施DSSIM系统,这是我们所知道的最佳方法)。新度量系统SSIMULACRA同意人类判断 87%光看高信人判断-例如那些平均(绝对)值为6或以上判断-即图片比图比图比图比图比图比图比图比图比图78%协议-PSR约78%协议,Buteaugli约91%协议和DSSIM约91%协议,SSMULACRA近98%协议

免费开源

SSIMULACRA发布为免费软件表示您可以使用它自己的项目实验, 或甚至建建并进一步改进代码相对简单短(感谢OpenCV)Github提供https://github.com/cloudinary/ssimulacra.自由试一试

分享数据集和ScaleAPI人类比较结果-在我们看来,更多数据集公开提供越好数据集除对验证感知度值有用外,还使我们能够直接比较各种压缩密度的不同图像格式或GoogleWebP问题解答(和许多其他解答)将发布在即将到来的博客文集中, 我们将测试各种损损图像压缩格式, 小型使用人(SACUAPI实验),大规模使用SSIMULARARARA保持监听