simhash - 云端在线

通过 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器在 OnWorks 免费托管服务提供商中运行 simhash

这是可以使用我们的多个免费在线工作站之一（例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器）在 OnWorks 免费托管服务提供商中运行的命令 simhash

在 Ubuntu 中运行在 Fedora 中运行在 Windows Sim 中运行在 MACOS Sim 中运行

程序：

您的姓名

simhash - 文件相似度哈希工具

概要

模拟哈希 [ -s 带状疱疹 ] [ -f 功能 ] [ 文件 ]
模拟哈希 [ -s 带状疱疹 ] [ -f 功能 ] -w 文件 ...
模拟哈希 [ -s 带状疱疹 ] [ -f 功能 ] -m 文件 ...
模拟哈希 -c 哈希文件哈希文件

商品描述

该程序用于计算和比较文件的相似性哈希。相似性哈希
是一块数据，它具有以下属性：文件之间的某些距离度量是
与散列之间的某个距离度量成正比。通常相似性哈希
将比文件本身小得多。

使用的算法模拟哈希是 Manassas 的“shingleprinting”算法（见书目
下面）：取每个的散列 m-byte 文件的子序列，并保留 n 这些
数字上最小的散列。散列集的交集的大小
两个文件在统计上很好地估计了文件作为一个整体的相似性。

在其默认模式下，模拟哈希将计算其文件参数的相似性哈希（或
stdin) 并将此散列写入其标准输出。当用 -w 参数（见
以下），模拟哈希将在“批处理”中计算其所有文件参数的相似性哈希
模式”。当用 -m 参数（见下文），模拟哈希将比较所有给定的
在“匹配模式”中使用相似性哈希的文件。最后，当用 -c 论点
（见下文），模拟哈希将报告两个散列之间的相似程度。

配置

-f 特征计数
计算相似度hash时，最多保留特征计数重要的哈希值
从目标文件。默认值为 128 个特征。更大的特征计数将
为文件之间的差异提供更高的分辨率，将增加文件的大小
相似度散列与特征计数成正比，并会增加相似度
散列计算时间略。

-s 木瓦大小
在计算相似性哈希时，使用由以下组成的样本的哈希木瓦大小
从目标文件中提取的连续字节。默认为 8 个字节，最小
是 4 个字节。较大的木瓦尺寸将更加强调文件之间的差异
并且会与木瓦大小成比例地减慢相似性哈希计算。

-c 哈希文件1 哈希文件2
显示相似度哈希之间的距离（归一化到范围 0..1）
存储在哈希文件1 以及存储在的相似性哈希哈希文件2.

-w 文件 ...
写出每个的相似度哈希文件参数文件.sim.

-m 文件 ...
计算每个的相似度哈希文件参数，并输出相似度
这些文件的矩阵。

使用 onworks.net 服务在线使用 simhash