杂的数据中找到了规律。
终于他在无数纷杂的数据中找到了一个个异常值,再次归类,宁为发现所有这些找出的异常数据在一定情况下,满足正态分布特点。
这次终于有眉目了。
对比数据的特点,宁为终于发现所有发生错误的数据同时指向算法回归部分的一个问题。
湍流算法在读取异常数据流的时候需要经过多层判定,并对初筛出的疑似爬虫或恶意连接信号做出一个预标记,并导入自己的数据库,进行下阶段的数据比对。
比如最浅层的对不合规浏览器头,或者包含了爬虫信息的浏览器头的判定,以及对某类ip一定时间内访问次数的判定等……
而在数以亿次的处理正常连接请求之后,记录下当数据对流时产生的数据特征,再跟数据库内异常数据进行比对,尝试放入,再比对,发出验证码,再比对,这一过程中,最后反馈给算法的是数据流的异常特征码,对符合异常特征码的信号进行标记,而不是标记具体的ip。
问题就出在这里,在某次次递归过程中,极少数正常的请求在比对并自动记录特征码的过程中,反馈时出了异常,这就导致同一类特性的数据全部被系统错误判定。
这个时候就体现出文档做得足够细致带来的好处了。
找到了实验室测试误判率无法降低的原因所在,修改了思路,然后只需要查阅文档,很快便精准的找到了需要修改的部分。
编程快抢手的绝对是名不虚传。
只花了三个小时,宁为便将程序更新完毕,然后传回了实验室。
虽然时间已经比较晚了,但他还是又给余兴伟打了个电话。
“喂,余哥!”
“小宁总,还有什么吩咐?”
刚才两人已经通过电话,再打过来肯定有事。
“我刚才把湍流算法重新更新了一下,发到实验室里了,明天你去处理一下,重新第二轮测试。”
“嗯?”
余兴伟愣了愣,随后由衷的说道:“小宁总,我服了你了,今天这么多乱七八糟的事情,你竟然还有心情改代码。”
“嗯,乱七八糟的事的确有点多,这不是我还没反应过来,就解决了吗?”
听起来真心很有道理的样子,直让余兴伟羡慕嫉妒恨。
“小宁总,你身上又多了一条让我崇拜的特质。”
“额?有吗?”
“有啊,您真会凡尔赛!”
本章未完,请点击下一页继续阅读!