标签归档:算法

以图搜图:找到相似图片的技术原理

识别图片的技术原理是什么?计算机怎么知道两张图片相似呢?

其实原理非常简单易懂,我们可以用一个快速算法,就达到基本的效果。

以图搜图:找到相似图片的技术原理插图

这个关键技术叫做”感知哈希算法”(Perceptual hash algorithm),它的作用是对每张图片生成一个”指纹”(fingerprint)字符串,然后比较不同图片的指纹。结果越接近,就说明图片越相似。

下面是一个最简单的实现流程:

第一步,缩小尺寸。

将图片缩小到8×8的尺寸,总共64个像素。这一步的作用是去除图片的细节,只保留结构、明暗等基本信息,摒弃不同尺寸、比例带来的图片差异。

第二步,简化色彩。

将缩小后的图片,转为64级灰度。也就是说,所有像素点总共只有64种颜色。

第三步,计算平均值。

计算所有64个像素的灰度平均值。

第四步,比较像素的灰度。

将每个像素的灰度,与平均值进行比较。大于或等于平均值,记为1;小于平均值,记为0。

第五步,计算哈希值。

将上一步的比较结果,组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。组合的次序并不重要,只要保证所有图片都采用同样次序就行了。

得到指纹以后,就可以对比不同的图片,看看64位中有多少位是不一样的。在理论上,这等同于计算”汉明距离”(Hamming distance)。如果不相同的数据位不超过5,就说明两张图片很相似;如果大于10,就说明这是两张不同的图片。

继续阅读

关于算法“作恶”,国家有规定了!

国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》(以下简称《规定》),自2022年3月1日起施行。

关于算法“作恶”,国家有规定了!插图

《互联网信息服务算法推荐管理规定》

近年来,算法应用在给政治、经济、社会发展注入新动能的同时,算法歧视、“大数据杀熟”、诱导沉迷等算法不合理应用导致的问题也深刻影响着正常的传播秩序、市场秩序和社会秩序,给维护意识形态安全、社会公平公正和网民合法权益带来挑战。

出台《规定》,旨在规范互联网信息服务算法推荐活动,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益,促进互联网信息服务健康发展。

——

算法是如何辅助人做决策的呢?

以前我们看网络电影的时候,需要自己搜索影片内容。现在有了算法的帮助,会推荐适合每个人的电影;以前,我们自驾去很远的地方旅行,需要不停地查地图,如今利用GPS导航,可以智能推荐路线,智能避开拥堵,这也是算法在帮助做选择。

继续阅读

季风算法

季风算法1.0

时间:2018年6月

核心内容:

领域与内容严重不匹配主要指的是两个领域:注册领域不是健康领域,也没有医疗资质,却发布医疗内容;不是财经领域,没有财经专业资质,却发布财经类内容。

石榴算法

石榴算法1.0

时间:2013年5月17日

核心内容:

打击不良广告、弹窗等影响用户体验的行为。

优化建议:

网站上不放弹窗广告,减少和优化广告投放数量。

绿萝算法

绿萝算法1.0

时间:2013年2月19日

核心内容:

打击买卖链接的行为,包括超链中介、出卖链接的网站、购买链接的网站。

优化建议:

以友情链接代替购买外链。

#

绿萝算法2.0

时间:2013年7月1日

核心内容:

1.加大力度过滤软文中的外链及惩罚发软文的站点。

2.打击链接交易。链接交易平台、长期出售外链和购买外链的网站被降权。

优化建议:

以友情链接代替购买外链。

白杨算法

百度移动搜索对用户的行为研究发现, 用户在移动搜索的行为开始表现出来对于本地或附近结果的强烈需求,餐饮娱乐、服务、生活信息等需求下,用户更倾向于选择当地站点。

为更好满足用户地域化(LBS)需求,也更好扶持各种地方特色类站点,百度移动搜索推出白杨算法。

#

白杨算法1.0

时间:2014年12月

核心内容:

为更好满足用户地域化需求,也更好扶持各种地方特色类站点,对符合百度地域优化标准的优质站点进行优先展现。

#

白杨算法2.0

时间:2019年10月

核心内容:

在1.0的基础上进行了升级,从只影响移动搜索的结果升级为手机端和电脑端都会受到地域的影响,不同的区域的搜索结果会出现地域化的影响。

优化建议:

标题、描述、关键词的地区词会对其影响比较大,可以通过在META标签中添加地理位置来获得更多流量。

(58同城、携程旅行、链家等网站,迎来了春天。)

冰桶算法

冰桶算法1.0

时间:2014年8月22日

核心内容:

移动端网页中,具有强行弹窗app下载、用户登录、大面积广告等影响用户正常浏览体验的页面,尤其以必须下载app才能正常使用的站点为代表。

#

冰桶算法2.0

时间:2014年11月18日

核心内容:

移动端网页中,具有全屏下载、在狭小的手机页面布设大面积广告遮挡主体内容、强制用户登录才可以使用等问题。

#

冰桶算法3.0

时间:2016年7月15日

核心内容:

在移动端网页中,严厉打击在百度移动搜索中,打断用户完整搜索路径的调起行为。这里解释一下所谓调起的行为是指,当用户通过百度搜索进入某站点时,某站点强行的让用户打开了自己的app,也包含强制下载。

#

冰桶算法4.0

时间:2016年9月19日

核心内容:

针对广告过多页面进行整改,优化页面广告布局,控制每屏广告的占比率,以保障用户浏览体验,以免被策略命中影响网站流量。

#

冰桶算法4.5

时间:2016年10月26日

核心内容:

针对发布恶劣诱导类广告的页面进行打击,降低其在百度搜索系统中的评价。在此提醒各位站长,请尽快下线恶劣的诱导类广告,以免被策略命中影响网站排序。

#

冰桶算法5.0

时间:2018年11月12日

核心内容:

本次算法升级以白皮书4.0为标准,覆盖百度APP内存在的落地页广告、APP调起、展开全文功能等问题,对存在问题的搜索结果页进行违规内容过滤或限制搜索展现的处理。

延伸阅读:

《百度移动搜索落地页体验白皮书4.0》

天网算法

天网算法1.0

时间:2016年8月10日

核心内容:

针对网页搜索发现部分站点存在盗取用户隐私的行为进行打击。主要表现为网页嵌恶意代码(多为JS代码),用于盗取网民的QQ号、手机号。

蓝天算法

蓝天算法1.0

时间:2016年11月21日

核心内容:

打击新闻类站点售卖软文、目录行为。

优化建议:

新闻源站点自查网站内容是否违规,有则改之无则加勉。

#

蓝天算法2.0

时间:2021年7月

核心内容:

站点构造目录发布低质、虚假等与站点主题无关内容

优化建议:

请开发者尽快展开自查,避免站点被算法覆盖带来损失。

烽火算法

烽火算法1.0

时间:2017年2月

核心内容:

1.未经用户允许恶意窃取用户等隐私数据的行为。

2.恶意劫持百度流量的行为。

优化建议:

1.对网站进行HTTPS改造,加强网站安全性,可参考《HTTPS改造全解析》;

2.推动第三方站点改造HTTPS或者自查,跟第三方资源提供者充分沟通,保证网站统计、网站优化、推广广告等使用的第三方资源不存在恶意劫持的情况。

延伸阅读:

《HTTPS建设全解析》

#

烽火算法2.0

时间:2018年5月

核心内容:

    1. 未经用户允许恶意窃取用户手机号码等隐私数据的行为。
    2. 恶意劫持百度流量的行为,主要表现在:

(1)搜索用户通过百度移动搜索到达网站后,完成阅读要离开网站页面时,通过浏览器返回上一级页面被劫持到虚假的百度搜索结果页中;

(2)搜索用户通过百度移动搜索到达网站后,完成阅读要离开网站页面时,通过浏览器始终无法返回上一级百度搜索结果页,搜索用户会一直被困在站点内。

优化建议:

1.对于网站被植入恶意代码等原因导致的劫持问题,尽快通过HTTPS改造来提升网站的安全性。

2.对于网页中自己主动放置恶意代码的问题,请尽快清理问题页面。

延伸阅读:

《网站劫持问题排查指南》

#

烽火算法3.0

时间:2021年8月

为了保障用户的搜索体验,烽火算法将于进行升级,针对回退按钮失效的情况扩大了覆盖范围,加大了控制力度。

问题列举:

1.用户点击回退按钮无法回退,页面无任何反应,内容无变化,用户会一直被困在站点内。

2.用户点击回退按钮后页面跳转到网站的首页或列表页,而非用户浏览的上一级页面。

3.用户点击回退按钮后页面跳转到用户之前没有访问过的色情、作弊、广告等低质页面。