这是可以使用我们的多个免费在线工作站之一(例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器)在 OnWorks 免费托管服务提供商中运行的命令 simhash
程序:
您的姓名
simhash - 文件相似度哈希工具
概要
模拟哈希 [ -s 带状疱疹 ] [ -f 功能 ] [ 文件 ]
模拟哈希 [ -s 带状疱疹 ] [ -f 功能 ] -w 文件 ...
模拟哈希 [ -s 带状疱疹 ] [ -f 功能 ] -m 文件 ...
模拟哈希 -c 哈希文件 哈希文件
商品描述
该程序用于计算和比较文件的相似性哈希。 相似性哈希
是一块数据,它具有以下属性:文件之间的某些距离度量是
与散列之间的某个距离度量成正比。 通常相似性哈希
将比文件本身小得多。
使用的算法 模拟哈希 是 Manassas 的“shingleprinting”算法(见书目
下面):取每个的散列 m-byte 文件的子序列,并保留 n 这些
数字上最小的散列。 散列集的交集的大小
两个文件在统计上很好地估计了文件作为一个整体的相似性。
在其默认模式下, 模拟哈希 将计算其文件参数的相似性哈希(或
stdin) 并将此散列写入其标准输出。 当用 -w 参数(见
以下), 模拟哈希 将在“批处理”中计算其所有文件参数的相似性哈希
模式”。当用 -m 参数(见下文), 模拟哈希 将比较所有给定的
在“匹配模式”中使用相似性哈希的文件。 最后,当用 -c 论点
(见下文), 模拟哈希 将报告两个散列之间的相似程度。
配置
-f 特征计数
计算相似度hash时,最多保留 特征计数 重要的哈希值
从目标文件。 默认值为 128 个特征。 更大的特征计数将
为文件之间的差异提供更高的分辨率,将增加文件的大小
相似度散列与特征计数成正比,并会增加相似度
散列计算时间略。
-s 木瓦大小
在计算相似性哈希时,使用由以下组成的样本的哈希 木瓦大小
从目标文件中提取的连续字节。 默认为 8 个字节,最小
是 4 个字节。 较大的木瓦尺寸将更加强调文件之间的差异
并且会与木瓦大小成比例地减慢相似性哈希计算。
-c 哈希文件1 哈希文件2
显示相似度哈希之间的距离(归一化到范围 0..1)
存储在 哈希文件1 以及存储在的相似性哈希 哈希文件2.
-w 文件 ...
写出每个的相似度哈希 文件 参数 文件.sim.
-m 文件 ...
计算每个的相似度哈希 文件 参数,并输出相似度
这些文件的矩阵。
使用 onworks.net 服务在线使用 simhash