Đây là lệnh mô phỏng có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS
CHƯƠNG TRÌNH:
TÊN
simhash - công cụ băm tương tự tệp
SYNOPSIS
simhash [ -s bệnh zona ] [ -f tính năng ] [ hồ sơ ]
simhash [ -s bệnh zona ] [ -f tính năng ] -w hồ sơ ...
simhash [ -s bệnh zona ] [ -f tính năng ] -m hồ sơ ...
simhash -c tệp băm tệp băm
MÔ TẢ
Chương trình này được sử dụng để tính toán và so sánh các hàm băm tương tự của các tệp. Một hàm băm tương tự
là một đoạn dữ liệu có thuộc tính là một số chỉ số khoảng cách giữa các tệp là
tỷ lệ với một số chỉ số khoảng cách giữa các băm. Điển hình là hàm băm tương tự
sẽ nhỏ hơn nhiều so với chính tệp.
Thuật toán được sử dụng bởi simhash là thuật toán "shingleprinting" của Manassas (xem BIBLIOGRAPHY
dưới đây): lấy một hàm băm của mỗi m-byte phân đoạn con của tệp và giữ lại n trong số này
hàm băm nhỏ nhất bằng số. Kích thước của phần giao nhau của các bộ băm của
hai tệp đưa ra một ước tính tốt về mặt thống kê về sự giống nhau của các tệp nói chung.
Ở chế độ mặc định, simhash sẽ tính toán hàm băm tương tự của đối số tệp của nó (hoặc
stdin) và ghi hàm băm này vào đầu ra tiêu chuẩn của nó. Khi được gọi với -w đối số (xem
phía dưới), simhash sẽ tính toán các hàm băm tương tự của tất cả các đối số tệp của nó trong "batch
chế độ ". Khi được gọi với -m đối số (xem bên dưới), simhash sẽ so sánh tất cả những gì đã cho
các tệp sử dụng hàm băm tương tự trong "chế độ đối sánh". Cuối cùng, khi được gọi với -c đối số
(xem bên dưới), simhash sẽ báo cáo mức độ giống nhau giữa hai hàm băm.
LỰA CHỌN
-f tính năng
Khi tính toán một hàm băm tương tự, hãy giữ lại tối đa tính năng băm đáng kể
từ tệp đích. Mặc định là 128 tính năng. Số lượng tính năng lớn hơn sẽ
cung cấp độ phân giải cao hơn về sự khác biệt giữa các tệp, sẽ làm tăng kích thước của
hàm băm tương tự tỷ lệ thuận với số lượng đối tượng và sẽ làm tăng độ tương đồng
thời gian tính toán băm một chút.
-s kích thước ván lợp
Khi tính toán một hàm băm tương tự, hãy sử dụng hàm băm của các mẫu bao gồm kích thước ván lợp
các byte liên tiếp được rút ra từ tệp đích. Giá trị mặc định là 8 byte, mức tối thiểu
là 4 byte. Kích thước ván lợp lớn hơn sẽ nhấn mạnh sự khác biệt giữa các tệp nhiều hơn
và sẽ làm chậm quá trình tính toán băm tương tự tỷ lệ thuận với kích thước ván lợp.
-c tệp băm1 tệp băm2
Hiển thị khoảng cách (chuẩn hóa thành phạm vi 0..1) giữa hàm băm tương tự
được lưu trữ trong tệp băm1 và băm tương tự được lưu trữ trong tệp băm2.
-w hồ sơ ...
Viết hàm băm tương tự của mỗi hồ sơ đối số với tập tin.sim.
-m hồ sơ ...
Tính toán hàm băm tương tự của mỗi hồ sơ các đối số và xuất ra một điểm tương đồng
ma trận cho các tệp đó.
Sử dụng simhash trực tuyến bằng các dịch vụ onworks.net