SWISH-FAQ - Trực tuyến trên đám mây

Chạy SWISH-FAQ trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks trên Ubuntu Online, Fedora Online, trình mô phỏng trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS

Đây là lệnh SWISH-FAQ có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình mô phỏng trực tuyến Windows hoặc trình mô phỏng trực tuyến MAC OS

Chạy trong Ubuntu Chạy trong Fedora Chạy trong Windows Sim Chạy trong MACOS Sim

CHƯƠNG TRÌNH:

TÊN

SWISH-FAQ - Câu hỏi thường gặp về Swish-e. Câu trả lời cho các câu hỏi thường gặp

TỔNG QUAN

Danh sách các câu hỏi thường gặp và trả lời. Vui lòng xem lại tài liệu này trước khi hỏi
các câu hỏi trong danh sách thảo luận Swish-e.

Tổng quan Câu hỏi

Điều gì is Swish-e?

Swish-e là Snhỏ bé Web Ilập chỉ mục Shệ thống cho Humans - Eđược nhấn mạnh. Với nó, bạn có thể nhanh chóng và
dễ dàng lập chỉ mục các thư mục của tập tin hoặc các trang web từ xa và tìm kiếm các chỉ mục được tạo cho
từ và cụm từ.

Vì vậy, is Swish-e a Tìm kiếm động cơ?

Vâng, vâng. Có lẽ ứng dụng phổ biến nhất của Swish-e là cung cấp công cụ tìm kiếm cho web
các trang web. Bản phân phối Swish-e bao gồm các tập lệnh CGI có thể được sử dụng cùng với nó để thêm một
Tìm kiếm động cơ cho trang web của bạn. Các tập lệnh CGI có thể được tìm thấy trong ví dụ thư mục của
gói phân phối. Xem README tập tin để biết thông tin về các kịch bản.

Nhưng Swish-e cũng có thể được sử dụng để lập chỉ mục tất cả các loại dữ liệu, chẳng hạn như email, dữ liệu
được lưu trữ trong hệ thống quản lý cơ sở dữ liệu quan hệ, tài liệu XML hoặc các tài liệu như
Tài liệu Word và PDF -- hoặc bất kỳ sự kết hợp nào của các nguồn đó cùng một lúc. Tìm kiếm
có thể được giới hạn trong các trường hoặc MetaNames trong một tài liệu hoặc giới hạn ở các khu vực trong một
Tài liệu HTML (ví dụ: nội dung, tiêu đề). Các chương trình khác ngoài ứng dụng CGI có thể sử dụng Swish-e,
là tốt.

Nếu I nâng cấp if Tôi là Đã chạy a trước phiên bản of Swish-e?

Một số lượng lớn các sửa lỗi, bổ sung tính năng và sửa lỗi logic đã được thực hiện trong phiên bản
2.2. Ngoài ra, tốc độ lập chỉ mục đã được cải thiện đáng kể (báo cáo về thời gian lập chỉ mục
thay đổi từ bốn giờ thành 5 phút) và các phần chính của trình phân tích cú pháp lập chỉ mục và tìm kiếm
đã được viết lại. Có các tùy chọn gỡ lỗi tốt hơn, định dạng đầu ra nâng cao, hơn thế nữa
dữ liệu meta tài liệu (ví dụ: ngày sửa đổi lần cuối, tóm tắt tài liệu), các tùy chọn để lập chỉ mục từ
nguồn dữ liệu bên ngoài và tìm kiếm nhanh hơn chỉ để nêu tên một số thay đổi. (Xem THAY ĐỔI
để biết thêm thông tin.

Vì đã có rất nhiều nỗ lực dành cho phiên bản 2.2 nên việc hỗ trợ cho các phiên bản trước sẽ
có lẽ bị hạn chế.

Có có nhị phân Phân phối có sẵn cho Swish-e on nền tảng foo?

Foo? Vâng, có một số bản phân phối nhị phân có sẵn. Vui lòng xem trang web Swish-e
trang web cho một danh sách tại http://swish-e.org/.

Nói chung, bạn nên xây dựng Swish-e từ nguồn nếu có thể.

Do I nhu cầu đến giới thiệu lại my website mỗi thời gian I nâng cấp đến a mới Swish-e phiên bản?

Đôi khi điều đó có thể không thực sự cần thiết, nhưng vì bạn không thực sự biết liệu có điều gì không.
trong chỉ mục đã thay đổi, đó là một quy tắc tốt để lập chỉ mục lại.

Có gì các lợi thế of sử dụng các libxml2 thư viện cho phân tích cú pháp HTML?

Swish-e có thể được liên kết với libxml2, một thư viện để làm việc với các tài liệu HTML và XML.
Swish-e có thể sử dụng libxml2 để phân tích tài liệu HTML và XML.

Trình phân tích cú pháp libxml2 là trình phân tích cú pháp tốt hơn trình phân tích cú pháp HTML tích hợp của Swish-e. Nó cung cấp nhiều hơn
các tính năng và nó thực hiện công việc trích xuất văn bản từ trang web tốt hơn nhiều. TRONG
Ngoài ra, bạn có thể sử dụng cài đặt cấu hình "ParserWarningLevel" để tìm cấu trúc
các lỗi trong tài liệu của bạn có thể (và có thể xảy ra với trình phân tích cú pháp HTML của Swish-e) gây ra các tài liệu
được lập chỉ mục không chính xác.

Libxml2 không bắt buộc nhưng được khuyến khích sử dụng để phân tích tài liệu HTML. Của nó
cũng được đề xuất để phân tích cú pháp XML vì nó cung cấp nhiều tính năng hơn Expat nội bộ
trình phân tích cú pháp xml.c.

Trình phân tích cú pháp HTML nội bộ sẽ có sự hỗ trợ hạn chế và có một số lỗi. Vì
Ví dụ: các thực thể HTML không phải lúc nào cũng được chuyển đổi chính xác và các thuộc tính không có
các thực thể được chuyển đổi. Trình phân tích cú pháp nội bộ có xu hướng bị nhầm lẫn khi phân tích cú pháp HTML không hợp lệ
nơi trình phân tích cú pháp libxml2 không thường xuyên bị nhầm lẫn. Cấu trúc được phát hiện tốt hơn
với trình phân tích cú pháp libxml2.

Nếu bạn đang sử dụng mô-đun Perl (giao diện C của thư viện Swish-e), bạn có thể muốn
xây dựng hai phiên bản Swish-e, một phiên bản có thư viện libxml2 được liên kết ở dạng nhị phân và một phiên bản có
không có và xây dựng mô-đun Perl dựa trên thư viện không có mã libxml2. Đây là
để tiết kiệm không gian trong thư viện. Hy vọng một ngày nào đó thư viện sẽ sớm được tách thành
lập chỉ mục và mã tìm kiếm (hoan nghênh tình nguyện viên).

Liệu Swish-e bao gồm a CGI giao diện?

Đúng. Đại loại thế.

Có hai tập lệnh CGI mẫu được bao gồm, swish.cgi và search.cgi. Cả hai đều được cài đặt tại
tiền tố $/lib/swish-e.

Cả hai đều yêu cầu một chút công việc để thiết lập và sử dụng. Swish.cgi có lẽ là thứ mà hầu hết mọi người sẽ thích
muốn sử dụng vì nó chứa nhiều tính năng hơn. Search.cgi dành cho những người muốn bắt đầu
một đoạn script nhỏ và tùy chỉnh nó để phù hợp với nhu cầu của họ.

Một ví dụ về việc sử dụng swish.cgi được đưa ra trong trang man CÀI ĐẶT và đó là swish.cgi
tài liệu. Giống như thường lệ, nó sẽ dễ sử dụng hơn nếu bạn đọc lần đầu tiên
tài liệu hướng dẫn.

Vui lòng thận trọng với các tập lệnh CGI được tìm thấy trên Internet khi sử dụng với Swish-e. Một số thì
không an toàn.

Các tập lệnh CGI mẫu đi kèm được thiết kế có tính đến bảo mật. Dù sao đi nữa, bạn là
được khuyến khích nhờ chuyên gia Perl địa phương của bạn xem xét nó (và tất cả các tập lệnh CGI khác mà bạn sử dụng)
trước khi đưa vào sản xuất. Đây chỉ là một chính sách tốt để làm theo.

Làm thế nào an toàn is Swish-e?

Chúng tôi biết rằng không có vấn đề bảo mật nào khi sử dụng Swish-e. Sự chú ý cẩn thận đã được thực hiện với
liên quan đến các vấn đề bảo mật phổ biến như lỗi tràn bộ đệm khi lập trình Swish-e.

Vấn đề bảo mật có thể xảy ra nhất với Swish-e là khi nó được chạy qua CGI được viết kém
giao diện. Điều này không giới hạn ở các tập lệnh CGI được viết bằng Perl, vì nó rất dễ thực hiện.
viết tập lệnh CGI không an toàn bằng C, Java, PHP hoặc Python. Một nguồn thông tin tốt là
được bao gồm trong bản phân phối Perl. Nhập "perldoc perlsec" tại dấu nhắc cục bộ của bạn để biết thêm
thông tin. Một tài liệu phải đọc khác được đặt tại
"http://www.w3.org/Security/faq/wwwsf4.html".

Lưu ý rằng có rất nhiều tự do nhưng vẫn có các tập lệnh CGI không an toàn và được viết kém --
thậm chí một số được thiết kế để sử dụng với Swish-e. Vui lòng xem xét cẩn thận bất kỳ tập lệnh CGI nào bạn sử dụng.
Miễn phí không phải là một mức giá tốt khi máy chủ của bạn bị hack...

Nếu I chạy Swish-e as các superuser (nguồn gốc)?

Không bao giờ.

Điều gì các tập tin làm Swish-e viết?

Tất nhiên, Swish ghi tệp chỉ mục. Điều này được chỉ định bằng "IndexFile"
chỉ thị cấu hình hoặc bằng chuyển đổi dòng lệnh "-f".

Tệp chỉ mục thực chất là một tập hợp các tệp, nhưng tất cả đều bắt đầu bằng tên tệp
được chỉ định bằng lệnh "IndexFile" hoặc chuyển đổi dòng lệnh "-f".

Ví dụ: tệp kết thúc bằng .prop chứa các thuộc tính của tài liệu.

Khi tạo các tệp chỉ mục, Swish-e sẽ thêm phần mở rộng .nhân viên bán thời gian vào tên tệp chỉ mục.
Khi việc lập chỉ mục hoàn tất, Swish-e sẽ đổi tên .nhân viên bán thời gian các tập tin vào các tập tin chỉ mục được chỉ định bởi
"Tệp chỉ mục" hoặc "-f". Điều này được thực hiện sao cho các chỉ mục hiện tại vẫn được giữ nguyên cho đến khi nó
hoàn tất việc lập chỉ mục.

Swish-e cũng ghi các tệp tạm thời trong một số trường hợp trong quá trình lập chỉ mục (ví dụ: "-s http", "-s
prog" với các bộ lọc), khi hợp nhất và khi sử dụng "-e"). Các tệp tạm thời được tạo bằng
các mkstemp(3) chức năng (với quyền 0600 trên các hệ điều hành giống unix).

Các tệp tạm thời được tạo trong thư mục được chỉ định bởi các biến môi trường
"TMPDIR" và "TMP" theo thứ tự đó. Nếu những điều đó không được đặt thì swish sẽ sử dụng cài đặt
cài đặt cấu hình TmpDir. Nếu không, tập tin tạm thời sẽ nằm ở
thư mục hiện tại.

Có thể I chỉ số PDF và MS Word các tài liệu?

Có, bạn có thể sử dụng Lọc để chuyển đổi tài liệu trong khi lập chỉ mục hoặc bạn có thể sử dụng chương trình
"cung cấp" tài liệu cho Swish-e đã được chuyển đổi. Xem "Lập chỉ mục" bên dưới.

Có thể I chỉ số tài liệu on a web người phục vụ?

Có, Swish-e cung cấp hai cách để lập chỉ mục tài liệu (nhện) trên máy chủ web. Nhìn thấy
"Nhện" bên dưới.

Swish-e có thể truy xuất tài liệu từ hệ thống tệp hoặc từ máy chủ web từ xa. Nó có thể
cũng thực thi một chương trình trả lại tài liệu cho nó. Chương trình này có thể truy xuất
tài liệu từ cơ sở dữ liệu, lọc các tập tin tài liệu nén, chuyển đổi tập tin PDF, trích xuất
dữ liệu từ kho lưu trữ thư hoặc các trang web từ xa.

Có thể I thực hiện từ khóa in my các tài liệu?

Có, Swish-e có thể liên kết các từ với MetaNames trong khi lập chỉ mục và bạn có thể giới hạn
tìm kiếm các MetaName này trong khi tìm kiếm.

Trong các tệp HTML của mình, bạn có thể đặt từ khóa vào thẻ META HTML hoặc trong các khối XML.

Thẻ META có thể có hai định dạng trong tài liệu nguồn của bạn:

Và ở định dạng XML (cũng có thể được sử dụng trong tài liệu HTML khi sử dụng libxml2):

Một số nội dung

Sau đó, để thông báo cho Swish-e về sự tồn tại của tên meta trong tài liệu của bạn, hãy chỉnh sửa
dòng trong tập tin cấu hình của bạn:

MetaNames DC.chủ đề meta1 meta2

Khi tìm kiếm, giờ đây bạn có thể giới hạn một số hoặc tất cả các cụm từ tìm kiếm trong MetaName đó. Ví dụ,
để tìm kiếm các tài liệu có chứa từ táo và cũng có trái cây hoặc nấu ăn trong
thẻ meta DC.subject.

Điều gì đang tài liệu của cải?

Thuộc tính tài liệu thường là dữ liệu mô tả tài liệu. Ví dụ,
các thuộc tính có thể bao gồm tên đường dẫn của tài liệu, ngày sửa đổi lần cuối, tiêu đề hoặc
kích cỡ. Swish-e lưu trữ các thuộc tính của tài liệu trong tệp chỉ mục và chúng có thể được báo cáo
trở lại trong kết quả tìm kiếm.

Swish-e cũng sử dụng các thuộc tính để sắp xếp. Bạn có thể sắp xếp kết quả của mình theo một hoặc nhiều
thuộc tính theo thứ tự tăng dần hoặc giảm dần.

Các thuộc tính cũng có thể được xác định trong tài liệu của bạn. Các tệp HTML và XML có thể chỉ định các thẻ
(xem câu hỏi trước) làm thuộc tính. Các nội dung sau đó các thẻ này có thể được trả lại
với kết quả tìm kiếm. Các thuộc tính do người dùng xác định này cũng có thể được sử dụng để sắp xếp tìm kiếm
kết quả.

Ví dụ: nếu bạn có thông tin sau trong tài liệu của mình

và "người tạo" được định nghĩa là thuộc tính (xem "Tên thuộc tính" trong SWISH-CONFIG) Swish-e có thể
trả về "bộ phận kế toán" kèm theo kết quả cho tài liệu đó.

swish-e -w foo -p người sáng tạo

Hoặc để sắp xếp:

swish-e -w foo -s người sáng tạo

Có gì các sự khác biệt giữa MetaNames và Tên thuộc tính?

MetaNames cho phép tìm kiếm từ khóa trong tài liệu của bạn. Nghĩa là, bạn có thể sử dụng MetaNames để
hạn chế tìm kiếm chỉ trong một phần tài liệu của bạn.

Mặt khác, PropertyNames xác định văn bản có thể được trả về cùng với kết quả và có thể
dùng để sắp xếp.

Cả hai đều sử dụng meta thẻ tìm thấy trong tài liệu của bạn (như được hiển thị trong hai câu hỏi trên) để xác định
văn bản bạn muốn sử dụng làm thuộc tính hoặc tên meta.

Bạn có thể định nghĩa một thẻ là cả hai một thuộc tính và một tên meta. Ví dụ:

được đặt trong tài liệu của bạn và sau đó sử dụng cài đặt cấu hình của:

Người tạo tên thuộc tính
Người tạo MetaNames

sẽ cho phép bạn giới hạn tìm kiếm của mình trong các tài liệu được tạo bởi kế toán:

swish-e -w 'foo và người sáng tạo=(kế toán)'

Điều đó sẽ tìm thấy tất cả các tài liệu có từ "foo" cũng có thẻ meta người tạo
có chứa từ "kế toán". Đây là sử dụng MetaNames.

Và bạn cũng có thể nói:

swish-e -w foo -p người sáng tạo

sẽ trả về tất cả tài liệu có từ "foo", nhưng kết quả cũng sẽ bao gồm
nội dung của thẻ meta "người tạo" cùng với kết quả. Đây là sử dụng thuộc tính.

Bạn cũng có thể sử dụng các thuộc tính và tên meta cùng một lúc:

swish-e -w Creator=(kế toán hoặc tiếp thị) -p Creator -s Creator

Chỉ tìm kiếm trong "người sáng tạo" meta tên cho một trong hai từ "kế toán" hoặc
"tiếp thị", in ra nội dung trong nội dung của "người sáng tạo" tài sản, và sắp xếp
kết quả của "người sáng tạo" tài sản tên.

(Xem thêm công tắc định dạng đầu ra "-x" trong SWISH-RUN.)

Có thể Swish-e chỉ số nhiều byte nhân vật?

Không. Điều này sẽ đòi hỏi nhiều nỗ lực để thay đổi. Tuy nhiên, Swish-e hoạt động với các ký tự 8 bit,
rất nhiều bộ ký tự có thể được sử dụng. Lưu ý rằng nó gọi ANSI-C tolower () chức năng
điều này phụ thuộc vào cài đặt ngôn ngữ hiện tại. Nhìn thấy miền địa phương(7) để biết thêm thông tin.

Lập chỉ mục

Làm thế nào do I vượt qua Swish-e a of các tập tin đến mục lục?

Hiện tại, không có chỉ thị cấu hình nào để bao gồm tệp chứa danh sách
của các tập tin để lập chỉ mục. Tuy nhiên, có một lệnh để bao gồm một tệp cấu hình khác.

Bao gồmConfigFile /path/to/other/config

Và trong "/path/to/other/config" bạn có thể nói:

Tệp IndexDir1 tệp2 tệp3 tệp4 tệp5 ...
Tệp IndexDir20 tệp21 tệp22

Bạn cũng có thể chỉ định nhiều tệp cấu hình trên dòng lệnh:

./swish-e -c config_one config_two config_ba

Một tùy chọn khác là tạo một thư mục có các liên kết tượng trưng của các tệp để lập chỉ mục và
lập chỉ mục thư mục đó.

Làm thế nào làm Swish-e Biết cái nào phân tích cú pháp đến sử dụng?

Swish có thể phân tích các tài liệu HTML, XML và văn bản. Trình phân tích cú pháp được thiết lập bằng cách liên kết một tệp
tiện ích mở rộng bằng trình phân tích cú pháp theo lệnh "IndexContents". Bạn có thể đặt trình phân tích cú pháp mặc định
bằng chỉ thị "DefaultContents". Nếu một tài liệu không được chỉ định một trình phân tích cú pháp, nó sẽ
mặc định cho trình phân tích cú pháp HTML (HTML2 nếu được xây dựng bằng libxml2).

Bạn có thể sử dụng Bộ lọc hoặc chương trình bên ngoài để chuyển đổi tài liệu sang HTML, XML hoặc văn bản.

Có thể I giới thiệu lại và Tìm kiếm at các tương tự thời gian?

Đúng. Bắt đầu với phiên bản 2.2 Swish-e lập chỉ mục cho các tệp tạm thời, sau đó đổi tên
các tập tin khi lập chỉ mục hoàn tất. Trên hầu hết các hệ thống đổi tên là nguyên tử. Nhưng, kể từ khi Swish-e
cũng tạo ra nhiều tệp trong quá trình lập chỉ mục, sẽ có một khoảng thời gian rất ngắn
thời gian giữa việc đổi tên các tệp khác nhau khi chỉ mục không đồng bộ.

Cài đặt trong src/config.h kiểm soát một số tùy chọn liên quan đến các tệp tạm thời và việc sử dụng chúng
trong quá trình lập chỉ mục.

Có thể I chỉ số cụm từ?

Các cụm từ được lập chỉ mục tự động. Để tìm kiếm một cụm từ chỉ cần đặt dấu ngoặc kép
xung quanh cụm từ.

Ví dụ:

swish-e -w 'miễn phí và "công cụ tìm kiếm nhanh"'

Làm thế nào có thể I ngăn chặn cụm từ từ phù hợp ngang qua câu?

Sử dụng chỉ thị cấu hình BumpPositionCounterCharacters.

Swish-e không phải lập chỉ mục a nhất định lời or thành ngữ.

Có một số tham số cấu hình kiểm soát những gì Swish-e coi là
"word" và nó có tính năng gỡ lỗi để giúp xác định bất kỳ vấn đề nào về lập chỉ mục.

Chỉ thị tệp cấu hình (SWISH-CONFIG) "WordCharacters", "BeginCharacters",
"EndCharacters", "IgnoreFirstChar" và "IgnoreLastChar" là các cài đặt chính mà Swish-
e sử dụng để định nghĩa một "từ". Xem SWISH-CONFIG và SWISH-RUN để biết chi tiết.

Swish-e cũng sử dụng mặc định thời gian biên dịch cho nhiều cài đặt. Chúng nằm ở
src/config.h tập tin.

Việc sử dụng các đối số dòng lệnh "-k", "-v" và "-T" rất hữu ích khi gỡ lỗi các đối số này
các vấn đề. Sử dụng "-T INDEXED_WORDS" trong khi lập chỉ mục sẽ hiển thị từng từ như cũ
được lập chỉ mục. Bạn nên chỉ định một tệp khi sử dụng tính năng này vì nó có thể tạo ra rất nhiều
của đầu ra.

./swish-e -c my.conf -i problem.file -T INDEXED_WORDS

Bạn cũng có thể muốn lập chỉ mục một tệp có chứa các từ được hoặc không được lập chỉ mục
như bạn mong đợi và sử dụng -T để xuất thông tin gỡ lỗi về chỉ mục. Một hữu ích
lệnh có thể là:

./swish-e -f index.swish-e -T INDEX_FULL

Khi bạn thấy cách Swish-e phân tích cú pháp và lập chỉ mục các từ của mình, bạn có thể điều chỉnh
cài đặt cấu hình được đề cập ở trên để kiểm soát những từ nào được lập chỉ mục.

Một lệnh hữu ích khác có thể là:

./swish-e -c my.conf -i problem.file -T PARSED_WORDS INDEXED_WORDS

Điều này sẽ hiển thị các từ có khoảng trắng được phân tích cú pháp từ tài liệu (PARSED_WORDS) và cách chúng
các từ được chia thành các từ riêng biệt để lập chỉ mục (INDEXED_WORDS).

Làm thế nào do I giữ Swish-e từ lập chỉ mục những con số?

Swish-e lập chỉ mục các từ được xác định bằng cài đặt "WordCharacters", như được mô tả ở trên. Vì thế
để tránh lập chỉ mục các số, bạn chỉ cần xóa các chữ số khỏi cài đặt "WordCharacters".

Ngoài ra còn có một số cài đặt trong src/config.h kiểm soát những "từ" nào được lập chỉ mục. Bạn
có thể định cấu hình swish để không bao giờ lập chỉ mục các từ có tất cả các chữ số, nguyên âm hoặc phụ âm hoặc
chứa nhiều hơn một số chữ số, nguyên âm hoặc phụ âm liên tiếp. TRONG
nói chung, bạn sẽ không cần thay đổi các cài đặt này.

Ngoài ra, còn có một tính năng thử nghiệm tên là "IgnoreNumberChars" cho phép bạn
xác định một tập hợp các ký tự mô tả một số. Nếu một từ được tạo thành từ có thể những
ký tự nó sẽ không được lập chỉ mục.

Swish-e tai nạn và bỏng on a nhất định tập tin. Điều gì có thể I Làm gì?

Điều này không nên xảy ra. Nếu có, vui lòng đăng chi tiết lên danh sách thảo luận Swish-e
vì vậy nó có thể được sao chép bởi các nhà phát triển.

Trong lúc này, bạn có thể sử dụng lệnh "FileRules" để loại trừ tên tệp cụ thể,
hoặc tên đường dẫn, hoặc tiêu đề của nó. Nếu có vấn đề nghiêm trọng trong việc lập chỉ mục một số loại
các tệp, chúng có thể không có văn bản hợp lệ trong đó (ví dụ: chúng có thể là tệp nhị phân). Bạn
có thể sử dụng NoContents để loại trừ loại tệp đó.

Swish-e sẽ đưa ra cảnh báo nếu tìm thấy ký tự null được nhúng trong tài liệu. Cái này
cảnh báo sẽ là dấu hiệu cho thấy bạn đang cố gắng lập chỉ mục dữ liệu nhị phân. Nếu bạn cần
lập chỉ mục các tệp nhị phân cố gắng tìm một chương trình sẽ trích xuất văn bản (ví dụ: dây(1)
catdoc(1) pdftotext(1)).

Làm thế nào đến I ngăn chặn lập chỉ mục of một số các tài liệu?

Khi sử dụng hệ thống tệp để lập chỉ mục các tệp của mình, bạn có thể sử dụng lệnh "FileRules".
Ngoài "Tiêu đề FileRules", "FileRules" chỉ hoạt động với hệ thống tệp ("-S fs")
phương pháp lập chỉ mục, không phải bằng "-S prog" hoặc "-S http".

Nếu bạn đang theo dõi một trang web mà bạn có quyền kiểm soát, hãy sử dụng robots.txt tập tin trong tài liệu của bạn
nguồn gốc. Đây là một cách tiêu chuẩn để loại trừ các tệp khỏi công cụ tìm kiếm và hoàn toàn
được hỗ trợ bởi Swish-e. Nhìn thấy http://www.robotstxt.org/

Nếu tìm kiếm một trang web có bao gồm nhện.pl chương trình sau đó thêm bất kỳ bài kiểm tra cần thiết nào vào
tập tin cấu hình của nhện. Kiểu trong thư mục "prog-bin" cho
chi tiết hoặc xem tài liệu về nhện trên trang web Swish-e. Hãy tìm phần trên
chức năng gọi lại.

Nếu sử dụng thư viện libxml2 để phân tích cú pháp HTML (có thể là như vậy), bạn cũng có thể sử dụng
Loại trừ Meta Robots trong tài liệu của bạn:

Xem chỉ thị tuân theoRobotsNoIndex.

Làm thế nào do I ngăn chặn lập chỉ mục các bộ phận of a tài liệu?

Để ngăn Swish-e lập chỉ mục cho đầu trang, chân trang hoặc thanh điều hướng chung VÀ bạn
sử dụng libxml2 để phân tích cú pháp HTML, sau đó bạn có thể sử dụng thẻ HTML giả xung quanh văn bản bạn muốn
bỏ qua và sử dụng lệnh "IgnoreMetaTags". Điều này sẽ tạo ra một thông báo lỗi nếu
"ParserWarningLevel" được đặt là HTML không hợp lệ.

"IgnoreMetaTags" hoạt động với các tài liệu XML (và tài liệu HTML khi sử dụng libxml2 làm
trình phân tích cú pháp), nhưng không phải với các tài liệu được phân tích cú pháp bằng trình phân tích cú pháp văn bản (TXT).

Nếu bạn đang sử dụng trình phân tích cú pháp libxml2 (HTML2 và XML2) thì bạn có thể sử dụng cách sau
nhận xét trong tài liệu của bạn để ngăn chặn việc lập chỉ mục:

và/hoặc những thứ này cũng có thể được sử dụng:

Làm thế nào do I sửa đổi các con đường or URL of các lập chỉ mục các tài liệu.

Sử dụng chỉ thị cấu hình "ReplaceRules" để viết lại tên đường dẫn và URL. Nếu bạn là
bằng cách sử dụng phương thức nhập "-S prog", bạn có thể đặt đường dẫn đến bất kỳ chuỗi nào.

Làm thế nào có thể I chỉ số dữ liệu từ a cơ sở dữ liệu?

Sử dụng phương pháp lập chỉ mục nguồn tài liệu "prog". Viết chương trình để giải nén
dữ liệu từ cơ sở dữ liệu của bạn và định dạng nó dưới dạng XML, HTML hoặc văn bản. Xem các ví dụ trong
thư mục "prog-bin" và câu hỏi tiếp theo.

Làm thế nào do I chỉ số my PDF, Word, và nén các tài liệu?

Swish-e chỉ có thể phân tích nội bộ các tệp HTML, XML và TXT (văn bản), nhưng có thể thực hiện
sử dụng bộ lọc sẽ chuyển đổi các loại tệp khác như tài liệu MS Word, PDF hoặc
đã nén các tệp vào một trong các loại tệp mà Swish-e hiểu được.

Vui lòng xem SWISH-CONFIG và các ví dụ trong bộ lọc và thùng lọc thư mục để biết thêm
thông tin.

Xem câu hỏi tiếp theo để tìm hiểu về các tùy chọn lọc với Swish-e.

Làm thế nào do I lọc các tài liệu?

Thuật ngữ "bộ lọc" trong Swish-e có nghĩa là sự chuyển đổi một loại tài liệu (một loại
swish-e không thể lập chỉ mục trực tiếp) thành một loại mà Swish-e có thể lập chỉ mục, cụ thể là HTML, thuần túy
văn bản hoặc XML. Để thêm vào sự nhầm lẫn, có một số cách để thực hiện điều này trong
Swish-e. Vì vậy, đây là một chút thông tin cơ bản.

Lệnh FileFilter đã được thêm vào swish trước tiên. Tính năng này cho phép bạn chỉ định một
chương trình để chạy các tài liệu phù hợp với phần mở rộng tệp nhất định. Ví dụ, để lọc
Tệp PDF (tệp có đuôi .pdf), bạn có thể chỉ định cài đặt cấu hình của:

FileFilter .pdf pdftotext "'%p' -"

có nội dung là chạy chương trình "pdftotext" và chuyển cho nó tên đường dẫn của tệp (%p) và một
dấu gạch ngang (thông báo cho pdftotext xuất ra thiết bị xuất chuẩn). Sau đó, với mỗi tệp .pdf, Swish-e sẽ chạy
chương trình này và đọc tài liệu đã lọc từ đầu ra của chương trình lọc.

Điều này có ưu điểm là dễ cài đặt - chỉ một dòng trong tệp cấu hình là đủ
cần thiết để thêm bộ lọc vào Swish-e. Nhưng nó cũng có một số vấn đề. Vì
Ví dụ: nếu bạn sử dụng tập lệnh Perl để lọc thì tốc độ có thể rất chậm vì
tập lệnh lọc phải được chạy (và do đó được biên dịch) cho mỗi tài liệu được xử lý. Đây là
trở nên trầm trọng hơn khi sử dụng phương thức -S http vì phương thức -S http cũng sử dụng tập lệnh Perl
được chạy cho mọi URL được tìm nạp. Ngoài ra, khi sử dụng phương thức nhập -S prog (đọc
đầu vào từ một chương trình) bằng FileFilter có nghĩa là Swish-e trước tiên phải đọc tệp từ
chương trình bên ngoài và sau đó ghi tệp ra một tệp tạm thời trước khi chạy
lọc.

Với -S prog, việc lọc tài liệu trong chương trình sẽ có ý nghĩa hơn nhiều.
tìm nạp tài liệu hơn là yêu cầu swish-e đọc tệp vào bộ nhớ, ghi nó vào
tập tin tạm thời và sau đó chạy một chương trình bên ngoài.

Bản phân phối Swish-e chứa một vài chương trình prog -S mẫu. nhện.pl là một
nhện web có đầy đủ tính năng hợp lý cung cấp nhiều tùy chọn hơn phương pháp -S http.
Và nó cũng nhanh hơn nhiều so với việc chạy -S http.

Con nhện có tệp cấu hình Perl, nghĩa là bạn có thể thêm logic lập trình ngay
vào tập tin cấu hình mà không cần chỉnh sửa chương trình nhện. Một chút logic đó là
được cung cấp trong tệp cấu hình của nhện là chức năng "gọi lại" cho phép bạn
lọc nội dung. Nói cách khác, trước khi con nhện chuyển tài liệu web được tìm nạp tới
swish để lập chỉ mục cho con nhện có thể gọi một chương trình con đơn giản trong cấu hình của con nhện
tập tin chuyển tài liệu và loại nội dung của nó. Chương trình con sau đó có thể xem xét
loại nội dung và quyết định xem tài liệu có cần được lọc hay không.

Ví dụ: khi xử lý tài liệu thuộc loại "application/msword", lệnh gọi lại
chương trình con có thể gọi mô-đun perl doc2txt.pm và một tài liệu thuộc loại "appliation/pdf"
có thể sử dụng mô-đun pdf2html.pm. Các prog-bin/SwishSpiderConfig.pl tập tin cho thấy điều này
sử dụng.

Hệ thống này hoạt động khá tốt nhưng cũng có nghĩa là cần nhiều công việc hơn để thiết lập
bộ lọc. Trước tiên, bạn phải kiểm tra rõ ràng các loại nội dung cụ thể và sau đó gọi phương thức
mô-đun Perl thích hợp và thứ hai, bạn phải biết mỗi mô-đun phải được gọi như thế nào và
mỗi cái trả về nội dung có thể được sửa đổi như thế nào.

Có SWISH::Filter.

Để làm cho mọi việc dễ dàng hơn, mô-đun SWISH::Filter Perl đã được tạo. Ý tưởng của mô-đun này
là có một giao diện được sử dụng để lọc tất cả các loại tài liệu. Vì vậy thay vì
kiểm tra các loại nội dung cụ thể mà bạn chỉ cần chuyển loại nội dung và tài liệu tới
mô-đun SWISH::Filter và nó trả về một loại nội dung và tài liệu mới nếu nó được
được lọc. Các bộ lọc thực hiện công việc thực tế được thiết kế với giao diện chuẩn và
hoạt động giống như bộ lọc "plug-in". Thêm bộ lọc mới có nghĩa là chỉ cần tải bộ lọc xuống
thư mục và không cần thay đổi tệp cấu hình của nhện. Tải xuống bộ lọc
cho Postscript và lần tiếp theo bạn chạy lập chỉ mục các tệp Postscript của bạn sẽ được lập chỉ mục.

Vì các bộ lọc đã được chuẩn hóa nên hy vọng khi bạn có nhu cầu lọc tài liệu
của một loại cụ thể sẽ có sẵn một bộ lọc để bạn sử dụng.

Bây giờ, hãy lưu ý rằng các mô-đun Perl có thể thực hiện hoặc không thực hiện chuyển đổi thực sự của một tài liệu.
Ví dụ: mô-đun chuyển đổi PDF gọi các chương trình pdfinfo và pdftotext. Những thứ kia
các chương trình (một phần của gói Xpfd) phải được cài đặt riêng biệt với các bộ lọc.

Tệp cấu hình nhện kiểm tra SwishSpiderConfig.pl cho biết cách sử dụng
SWISH::Mô-đun bộ lọc để lọc. Tập tin này được cài đặt tại
$prefix/share/doc/swish-e/examples/prog-bin, trong đó tiền tố $ thường là / usr / local trên unix-
loại máy móc.

Phương pháp lọc SWISH::Filter cũng có thể được sử dụng với phương pháp -S http của
lập chỉ mục. Theo mặc định nhện vung chương trình (tập lệnh trợ giúp Perl tìm nạp
tài liệu từ web) sẽ cố gắng sử dụng mô-đun SWISH::Filter nếu nó có thể được tìm thấy trong
Đường dẫn thư viện Perls. Đường dẫn này được đặt tự động cho Spider.pl nhưng không dành cho swishspider
(vì nó sẽ làm chậm một phương thức vốn đã chậm và nên sử dụng Spider.pl
phương thức -S http).

Do đó, tất cả những gì cần thiết để sử dụng hệ thống này với -S http là thiết lập mảng @INC
để trỏ đến thư mục bộ lọc.

Ví dụ: nếu bản phân phối swish-e được giải nén thành ~/swish-e:

PERL5LIB=~/swish-e/bộ lọc swish-e -c conf -S http

sẽ cho phép phương thức -S http sử dụng mô-đun SWISH::Filter.

Lưu ý rằng nếu bạn không sử dụng mô-đun SWISH::Filter, bạn có thể muốn chỉnh sửa
nhện vung chương trình và vô hiệu hóa việc sử dụng mô-đun SWISH::Filter bằng cách sử dụng cài đặt này:

sử dụng hằng số USE_FILTERS => 0; # vô hiệu hóa SWISH::Filter

Điều này ngăn chương trình cố gắng sử dụng mô-đun SWISH::Filter cho mọi thứ không phải
URL văn bản được tìm nạp. Tất nhiên, nếu bạn quan tâm đến tốc độ lập chỉ mục, bạn nên
đang sử dụng phương pháp -S prog với Spider.pl thay vì -S http.

Nếu bạn không đang tìm kiếm nhưng vẫn muốn sử dụng mô-đun SWISH::Filter cho
lọc, bạn có thể sử dụng chương trình DirTree.pl (bằng $prefix/lib/swish-e). Đây là một cách đơn giản
chương trình duyệt qua hệ thống tệp và sử dụng SWISH::Filter để lọc.

Dưới đây là hai ví dụ về cách chạy chương trình lọc, một ví dụ sử dụng "FileFilter" của Swish-e
lệnh khác, lệnh khác sử dụng chương trình phương thức nhập liệu "prog". Xem SwishSpiderConfig.pl hồ sơ
để biết ví dụ về cách sử dụng mô-đun SWISH::Filter.

Những bộ lọc này chỉ đơn giản là sử dụng chương trình "/ bin / cat" làm bộ lọc và chỉ lập chỉ mục các tệp .html.

Đầu tiên, bằng cách sử dụng phương thức "FileFilter", đây là toàn bộ tệp cấu hình (swish.conf):

IndexDir .
Chỉ mục .html
Bộ lọc tệp .html "/ bin / cat" "'%P'"

và lập chỉ mục bằng lệnh

swish-e -c swish.conf -v 1

Bây giờ, điều tương tự với việc sử dụng phương thức nhập nguồn tài liệu "-S prog" và Perl
chương trình có tên catfilter.pl. Bạn có thể thấy rằng nó hiệu quả hơn nhiều so với việc sử dụng
Phương pháp "FileFilter" ở trên nhưng cung cấp một nơi để thực hiện xử lý bổ sung. Trong này
ví dụ: phương pháp "prog" chỉ nhanh hơn một chút. Nhưng nếu bạn cần một tập lệnh Perl để
chạy dưới dạng FileFilter thì "prog" sẽ nhanh hơn đáng kể.

#!/usr/local/bin/Perl -w
Sử dụng nghiêm ngặt;
sử dụng Tệp::Tìm; # để đệ quy cây thư mục

$ / = undef;
tìm thấy(
{ muốn => \&wanted, no_chdir => 1, },
'.',
);

phụ muốn {
trả về nếu -d;
trả lại trừ khi /\.html$/;

$mtime của tôi = (stat)[9];

$child của tôi = open( FH, '-⎪' );
die "Không thể fork $!" trừ khi được xác định $child;
thi hành/ bin / cat', $_ trừ khi $child;

nội dung $ của tôi = ;
$size của tôi = chiều dài $content;

in <
Độ dài nội dung: $size
Lần cuối cùng: $mtime
Tên đường dẫn: $_

EOF

in ;
}

Và lập chỉ mục bằng lệnh:

swish-e -S prog -i ./catfilter.pl -v 1

Ví dụ này có thể sẽ không hoạt động trong Windows do phím '-⎪' mở. Một đường ống đơn giản
open cũng có thể hoạt động tốt:

Tức là thay thế:

$child của tôi = open( FH, '-⎪' );
die "Không thể fork $!" trừ khi được xác định $child;
thi hành/ bin / cat', $_ trừ khi $child;

Với cái này:

mở( FH, "/ bin / cat $_ ⎪" ) hoặc chết $!;

Perl sẽ cố gắng tránh chạy lệnh thông qua shell nếu không có ký tự meta
được chuyển sang mở. Xem "perldoc -f open" để biết thêm thông tin.

Hở, nhưng I chỉ muốn đến Biết làm thế nào đến chỉ số PDF các tài liệu!

Xem các ví dụ trong conf thư mục và các bình luận trong SwishSpiderConfig.pl tập tin.

Xem câu hỏi trước để biết chi tiết về lọc. Phương pháp bạn quyết định sử dụng sẽ
tùy thuộc vào tốc độ bạn muốn lập chỉ mục và mức độ thoải mái của bạn khi sử dụng các mô-đun Perl.

Bất kể bạn sử dụng phương pháp lọc nào, bạn sẽ cần cài đặt các gói Xpdf
Sẵn có từ http://www.foolabs.com/xpdf/.

Tôi là sử dụng Windows và không thể được Bộ Lọc or các ăn xin đầu vào phương pháp đến công việc!

Cả phương thức nhập và bộ lọc "-S prog" đều sử dụng lệnh gọi hệ thống "popen()" để chạy
chương trình bên ngoài. Ví dụ: nếu chương trình bên ngoài của bạn là tập lệnh Perl, bạn phải
bảo Swish-e chạy Perl, thay vì tập lệnh. Swish-e sẽ chuyển đổi dấu gạch chéo về phía trước thành
dấu gạch chéo ngược khi chạy trong Windows.

Ví dụ: bạn cần chỉ định đường dẫn đến Perl là (giả sử đây là nơi Perl
trên hệ thống của bạn):

IndexDir e:/perl/bin/perl.exe

Hoặc chạy một bộ lọc như:

FileFilter .foo e:/perl/bin/perl.exe 'myscript.pl "%p"'

Việc cài đặt Linux thường dễ dàng hơn.

Làm thế nào do I chỉ số không phải tiếng Anh từ ngữ?

Swish-e chỉ lập chỉ mục các ký tự 8 bit. Đây là bộ ký tự Latin-8859 ISO 1-1 và
bao gồm nhiều chữ cái (và ký hiệu) không phải tiếng Anh. Miễn là chúng được liệt kê trong
"WordCharacters" chúng sẽ được lập chỉ mục.

Trên thực tế, bạn có thể lập chỉ mục bất kỳ bộ ký tự 8 bit nào, miễn là bạn không trộn lẫn
bộ ký tự trong cùng một chỉ mục và không sử dụng libxml2 để phân tích cú pháp (xem bên dưới).

Lệnh "TranslateCharacters" (SWISH-CONFIG) có thể dịch các ký tự trong khi lập chỉ mục
và tìm kiếm. Bạn có thể chỉ định việc ánh xạ một ký tự này sang ký tự khác bằng
Chỉ thị "Dịch ký tự".

"TranslateCharacters :ascii7:" là tập hợp các ký tự được xác định trước sẽ dịch
ký tự 7 bit thành ký tự ascii7. Ví dụ: sử dụng quy tắc ":asciiXNUMX:" sẽ
dịch "Ääç" sang "aac". Điều này có nghĩa là: tìm kiếm "Çelik", "çelik" hoặc "celik" sẽ
khớp với cùng một từ.

Lưu ý: Khi sử dụng libxml2 để phân tích cú pháp, các tài liệu được phân tích cú pháp sẽ được chuyển đổi nội bộ (trong
libxml2) sang UTF-8. Điều này được chuyển đổi thành ISO 8859-1 Latin-1 khi lập chỉ mục. Trong trường hợp
một chuỗi không thể được chuyển đổi từ UTF-8 sang ISO 8859-1 (vì nó không chứa 8859-1
ký tự), chuỗi sẽ được gửi tới Swish-e ở dạng mã hóa UTF-8. Điều này sẽ dẫn đến
một số từ được lập chỉ mục không chính xác. Đặt "ParserWarningLevel" thành 1 hoặc nhiều hơn sẽ hiển thị
cảnh báo khi chuyển đổi UTF-8 sang 8859-1 không thành công.

Có thể I thêm bớt các tập tin từ an mục lục?

Hãy thử xây dựng swish-e bằng tùy chọn "--enable-incremental".

Phần còn lại của Câu hỏi thường gặp này áp dụng cho định dạng swish-e mặc định.

Swish-e hiện không có cách nào để thêm hoặc xóa các mục khỏi chỉ mục của nó. Tuy nhiên, chỉ số Swish-e
nhanh đến mức thường có thể lập chỉ mục lại toàn bộ tập tài liệu khi một tập tin cần
được thêm vào, sửa đổi hoặc loại bỏ. Nếu bạn đang tìm kiếm một trang web từ xa thì hãy xem xét
tài liệu bộ nhớ đệm được nén cục bộ.

Việc bổ sung gia tăng có thể được xử lý theo một số cách, tùy thuộc vào tình huống của bạn.
Có lẽ cách dễ nhất là tạo một chỉ mục chính mỗi đêm (hoặc mỗi tuần), sau đó
tạo chỉ mục chỉ cho các tệp mới giữa các công việc lập chỉ mục chính và sử dụng tùy chọn "-f"
để chuyển cả hai chỉ mục tới Swish-e trong khi tìm kiếm.

Bạn có thể hợp nhất các chỉ mục thành một chỉ mục (thay vì sử dụng -f), nhưng điều đó không rõ ràng
điều này có bất kỳ lợi thế nào khi tìm kiếm nhiều chỉ mục.

Làm cách nào để tạo chỉ mục gia tăng?

Một phương pháp là sử dụng khóa chuyển "-N" để chuyển đường dẫn tệp tới Swish-e khi lập chỉ mục. Nó
sẽ chỉ lập chỉ mục các tệp có ngày sửa đổi cuối cùng "mới hơn" so với tệp được cung cấp
bằng công tắc "-N".

Tùy chọn này có nhược điểm là Swish-e phải xử lý mọi file trong mọi thư mục
như thể chúng sắp được lập chỉ mục (việc kiểm tra "-N" được thực hiện lần cuối ngay trước khi lập chỉ mục
của nội dung tệp bắt đầu và sau khi tất cả các thử nghiệm khác trên tệp đã được hoàn thành) --
tất cả chỉ để tìm một vài tập tin mới.

Ngoài ra, nếu bạn sử dụng tệp chỉ mục Swish-e làm tệp được chuyển tới "-N" thì có thể có các tệp
được thêm vào sau khi bắt đầu lập chỉ mục nhưng trước khi tệp chỉ mục được ghi. Đây có thể
dẫn đến một tập tin không được thêm vào chỉ mục.

Một lựa chọn khác là duy trì một cây thư mục song song chứa các liên kết tượng trưng trỏ tới
các tập tin chính. Khi một tập tin mới được thêm vào (hoặc thay đổi) vào cây thư mục chính, bạn
tạo một liên kết tượng trưng đến tệp thực trong cây thư mục song song. Sau đó chỉ cần lập chỉ mục
thư mục liên kết tượng trưng để tạo chỉ mục gia tăng.

Tùy chọn này có nhược điểm là bạn cần có một chương trình trung tâm để tạo ra
các tệp mới cũng có thể tạo liên kết tượng trưng. Tuy nhiên, việc lập chỉ mục khá nhanh vì Swish-e
chỉ cần nhìn vào các tập tin cần được lập chỉ mục. Khi bạn chạy lập chỉ mục đầy đủ, bạn
chỉ cần hủy liên kết (xóa) tất cả các liên kết tượng trưng.

Cả hai phương pháp này đều có vấn đề trong đó tệp có thể xuất hiện ở cả hai chỉ mục hoặc tệp bị
bị loại khỏi một chỉ mục. Sử dụng khóa tệp trong khi lập chỉ mục và tra cứu hàm băm trong khi tìm kiếm
có thể giúp ngăn chặn những vấn đề này.

I chạy ra of trí nhớ cố gắng đến chỉ số my các tập tin.

Đúng là việc lập chỉ mục có thể chiếm rất nhiều bộ nhớ! Swish-e cực kỳ nhanh
lập chỉ mục, nhưng điều đó phải trả giá bằng bộ nhớ.

Câu trả lời tốt nhất là cài đặt thêm bộ nhớ.

Một tùy chọn khác là sử dụng khóa chuyển "-e". Điều này sẽ cần ít bộ nhớ hơn, nhưng việc lập chỉ mục sẽ
mất nhiều thời gian hơn vì không phải tất cả dữ liệu sẽ được lưu trữ trong bộ nhớ khi lập chỉ mục. Bộ nhớ ít hơn bao nhiêu
và bao nhiêu thời gian nữa tùy thuộc vào tài liệu bạn đang lập chỉ mục và phần cứng
bạn đang sử dụng.

Đây là ví dụ về lập chỉ mục tất cả các tệp .html trong /usr/doc trên Linux. Ví dụ đầu tiên này là
không có "-e" và sử dụng khoảng 84M bộ nhớ:

270279 từ duy nhất được lập chỉ mục.
23841 tệp được lập chỉ mục. Tổng số 177640166 byte.
Thời gian đã trôi qua: 00:04:45 Thời gian CPU: 00:03:19

Đây là với "-e" và sử dụng khoảng 26M hoặc bộ nhớ:

270279 từ duy nhất được lập chỉ mục.
23841 tệp được lập chỉ mục. Tổng số 177640166 byte.
Thời gian đã trôi qua: 00:06:43 Thời gian CPU: 00:04:12

Bạn cũng có thể xây dựng một số chỉ mục nhỏ hơn rồi hợp nhất lại với nhau bằng "-M". sử dụng
"-e" trong khi hợp nhất sẽ tiết kiệm bộ nhớ.

Cuối cùng, nếu bạn xây dựng một số chỉ mục nhỏ hơn, bạn có thể chỉ định nhiều chỉ mục
khi tìm kiếm bằng cách sử dụng khóa chuyển "-f". Sắp xếp các tập hợp kết quả lớn theo một thuộc tính sẽ
chậm hơn khi chỉ định nhiều tệp chỉ mục trong khi tìm kiếm.

"cũng vậy nhiều mở các tập tin" khi nào lập chỉ mục với -e tùy chọn

Một số nền tảng báo cáo "quá nhiều tệp đang mở" khi sử dụng tùy chọn -e nền kinh tế. -e
tính năng này sử dụng nhiều tệp tạm thời (chẳng hạn như 377) cùng với các tệp chỉ mục và điều này có thể
vượt quá giới hạn của hệ thống của bạn.

Tùy thuộc vào nền tảng của bạn, bạn có thể cần đặt "ulimit" hoặc "unlimit".

Ví dụ: trong shell bash Linux:

$ ulimit -n 1024

Hoặc dưới một Sparc cũ

% không giới hạn tệp mở

My hệ thống quản trị viên nói Swish-e sử dụng quá nhiều of các CPU!

Đó là một điều tốt! CPU đắt tiền đó được cho là đang bận.

Việc lập chỉ mục tốn rất nhiều công sức -- để lập chỉ mục nhanh chóng, phần lớn công việc được thực hiện trong bộ nhớ
giúp giảm lượng thời gian Swish-e chờ trên I/O. Nhưng có hai điều bạn
có thể thử:

Tùy chọn "-e" sẽ chạy Swish-e ở chế độ tiết kiệm, sử dụng đĩa để lưu trữ dữ liệu trong khi
lập chỉ mục. Điều này khiến Swish-e chạy chậm hơn một chút nhưng cũng sử dụng ít bộ nhớ hơn. Vì nó là
việc ghi vào đĩa thường xuyên hơn sẽ tốn nhiều thời gian chờ đợi vào I/O hơn và ít thời gian hơn cho
CPU. Có lẽ.

Một điều nữa là chỉ cần hạ thấp mức độ ưu tiên của công việc bằng cách sử dụng tốt đẹp(1) lệnh:

/bin/nice -15 swish-e -c search.conf

Nếu lo ngại về thời gian tìm kiếm, hãy đảm bảo bạn đang sử dụng nút chuyển -b và -m thành chỉ
trả lại một trang tại một thời điểm. Nếu bạn biết rằng tập hợp kết quả của bạn sẽ lớn và bạn
muốn trả về kết quả từng trang một và thường là nhiều trang giống nhau
truy vấn sẽ được yêu cầu, bạn có thể khôn ngoan khi yêu cầu tất cả các tài liệu ngay lần đầu tiên
yêu cầu, sau đó lưu kết quả vào một tệp tạm thời. Mô-đun perl Tệp::Cache
làm cho việc này trở nên rất đơn giản để thực hiện.

Thêu thùa

Làm thế nào có thể I chỉ số tài liệu on a web người phục vụ?

Nếu có thể, hãy sử dụng phương pháp hệ thống tệp "-S fs" để lập chỉ mục các tài liệu trong trang web của bạn
khu vực của hệ thống tập tin. Điều này tránh được chi phí cho việc dò tìm máy chủ web và rất nhiều
nhanh hơn. ("-S fs" là phương thức mặc định nếu "-S" không được chỉ định).

Nếu điều này là không thể (máy chủ web không phải là cục bộ hoặc tài liệu được chuyển động
được tạo ra), Swish-e cung cấp hai phương pháp nhện. Đầu tiên, nó bao gồm phương thức http
lập chỉ mục "-S http". Một số chỉ thị cấu hình đặc biệt có sẵn
kiểm soát hoạt động nhện (xem "Chỉ thị dành cho Phương thức truy cập HTTP" trong SWISH-CONFIG). MỘT
tập lệnh trợ giúp Perl (swishspider) được bao gồm trong src thư mục hỗ trợ nhện
máy chủ web. Có các cấu hình ví dụ cho nhện trong conf thư mục.

Kể từ Swish-e 2.2, có nguồn tài liệu "prog" cho mục đích chung nơi chương trình có thể
cung cấp tài liệu cho nó để lập chỉ mục. Một số chương trình ví dụ có thể được tìm thấy trong
thư mục "prog-bin", bao gồm một chương trình dành cho máy chủ mạng nhện. Spider.pl được cung cấp
chương trình có đầy đủ tính năng và dễ dàng tùy chỉnh.

Ưu điểm của tính năng nguồn tài liệu "prog" so với phương pháp "http" là
chương trình chỉ được thực thi một lần, trong đó chương trình swishspider.pl được sử dụng trong "http"
phương thức được thực thi một lần cho mỗi tài liệu được đọc từ máy chủ web. Sự rẽ nhánh của
Swish-e và biên dịch tập lệnh Perl có thể khá tốn kém và tốn thời gian.

Ưu điểm khác của chương trình "spider.pl" là việc thêm đơn giản và hiệu quả
lọc (chẳng hạn như đối với tài liệu PDF hoặc MS Word) ngay trong cấu hình của Spider.pl và
nó bao gồm các tính năng như kiểm tra MD5 để ngăn chặn việc lập chỉ mục trùng lặp, các tùy chọn để tránh
thu thập thông tin một số tập tin hoặc lập chỉ mục nhưng tránh thu thập thông tin. Và vì đây là một chương trình perl nên có
không có giới hạn về các tính năng bạn có thể thêm.

Tại sao làm huênh hoang báo cáo "./swishspider: không thành lập"?

Liệu tập tin nhện vung tồn tại nơi thông báo lỗi hiển thị? Nếu không, hãy đặt
tùy chọn cấu hình SpiderDirectory để trỏ đến thư mục chứa nhện vung
chương trình được tìm thấy, hoặc đặt nhện vung chương trình trong thư mục hiện tại khi chạy
swish-e.

Nếu bạn đang chạy Windows, hãy đảm bảo "Perl" nằm trong đường dẫn của bạn. Hãy thử gõ perl từ một
dấu nhắc lệnh.

Nếu bạn không chạy windows, hãy đảm bảo rằng dòng Shebang (dòng đầu tiên của
chương trình swishspider bắt đầu bằng #!) trỏ đến vị trí chính xác của Perl.
Thông thường điều này sẽ / usr / bin / perl or / usr / local / bin / perl. Ngoài ra, hãy đảm bảo rằng bạn
có quyền thực thi và đọc trên nhện vung.

Sản phẩm nhện vung Tập lệnh Perl chỉ được sử dụng với phương pháp lập chỉ mục -S http.

Tôi là sử dụng các nhện.pl chương trình đến nhện my web trang web, nhưng một số lớn các tập tin đang không
được lập chỉ mục.

Chương trình "spider.pl" có giới hạn mặc định là kích thước tệp 5MB. Điều này có thể được thay đổi với
cài đặt tham số "max_size". Xem "perldoc Spider.pl" để biết thêm thông tin.

I vẫn còn không nghĩ tất cả các my web trang đang được được lập chỉ mục.

Sản phẩm nhện.pl chương trình có một số công tắc gỡ lỗi và có thể khá dài dòng trong
cho bạn biết điều gì đang xảy ra và tại sao. Xem "perldoc Spider.pl" để được hướng dẫn.

nước chảy ào ào is không nhện Javascript liên kết!

Swish không thể theo dõi các liên kết được tạo bởi Javascript vì chúng được tạo bởi trình duyệt
và không phải là một phần của tài liệu.

Làm thế nào do I nhện khác trang web và kết hợp it với my riêng (hệ thống tập tin) mục lục?

Bạn có thể hợp nhất "-M" hai chỉ mục thành một chỉ mục duy nhất hoặc sử dụng "-f" để chỉ định thêm
hơn một chỉ mục trong khi tìm kiếm.

Bạn sẽ có kết quả tốt hơn với phương pháp "-f".

Tìm kiếm

Làm thế nào do I hạn chế tìm kiếm đến chỉ các bộ phận of các mục lục?

Nếu bạn có thể xác định "các phần" của chỉ mục của mình bằng tên đường dẫn, bạn có hai tùy chọn.

Các tùy chọn đầu tiên là lập chỉ mục đường dẫn tài liệu. Thêm phần này vào cấu hình của bạn:

swishdocpath MetaNames

Bây giờ bạn có thể tìm kiếm các từ hoặc cụm từ trong tên đường dẫn:

swish-e -w 'foo VÀ swishdocpath=(bán hàng)'

Vì vậy, nó sẽ chỉ tìm thấy các tài liệu có từ "foo" và nơi chứa đường dẫn của tệp
"việc bán hàng". Tuy nhiên, điều đó có thể không hoạt động tốt như bạn muốn vì cả hai đường dẫn này sẽ
trận đấu:

/web/bán hàng/sản phẩm/index.html
/web/accounting/private/sale_we_messed_up.html

Điều này có thể được giải quyết bằng cách tìm kiếm bằng một cụm từ (giả sử "/" không phải là Ký tự từ):

swish-e -w 'foo VÀ swishdocpath=("/web/sale/")'
swish-e -w 'foo AND swishdocpath=("web sales")' (điều tương tự)

Tùy chọn thứ hai mạnh hơn một chút. Với lệnh "ExtractPath" bạn có thể sử dụng
biểu thức chính quy để trích xuất một tập hợp con của đường dẫn và lưu nó dưới dạng meta riêng biệt
tên:

Bộ phận MetaNames
Regex bộ phận ExtractPath !^/web/([^/]+).+$!$1/

Có nội dung khớp với đường dẫn bắt đầu bằng "/web/" và trích xuất mọi thứ sau đó
đến, nhưng không bao gồm "/" tiếp theo và lưu nó vào biến $1, sau đó khớp mọi thứ
từ "/" trở đi. Sau đó thay thế toàn bộ chuỗi khớp bằng $1. Và điều đó được
được lập chỉ mục dưới dạng tên meta "bộ phận".

Bây giờ bạn có thể tìm kiếm như:

swish-e -w 'foo VÀ bộ phận=bán hàng'

và đảm bảo rằng bạn sẽ chỉ khớp các tài liệu trong đường dẫn /www/sale/*. Lưu ý rằng
bạn có thể ánh xạ các khu vực hoàn toàn khác nhau trong hệ thống tệp của mình tới cùng một tên meta:

# gắn cờ các trang tiếp thị cụ thể
Regex của bộ phận ExtractPath !^/web/(marketing⎪sale)/.+$!tiếp thị/
Regex bộ phận ExtractPath !^/internal/marketing/.+$!marketing/

# gắn cờ các trang của bộ phận kỹ thuật
Regex bộ phận ExtractPath !^/web/(tech⎪bugs)/.+$!công nghệ/

Cuối cùng, nếu bạn gặp điều gì đó phức tạp hơn, hãy sử dụng "-S prog" và viết chương trình Perl hoặc
sử dụng bộ lọc để đặt thẻ meta khi xử lý từng tệp.

Làm thế nào is xếp hạng tính toán?

Giá trị thuộc tính "swishrank" được tính toán dựa trên Sơ đồ xếp hạng (hoặc thuật toán) nào
Bạn đã chọn. Trong cuộc thảo luận này, bất cứ lúc nào từ ưa thích đang được sử dụng, bạn nên tham khảo
mã thực tế để biết thêm chi tiết. Rốt cuộc thì nó là nguồn mở.

Những điều bạn có thể làm để ảnh hưởng đến thứ hạng:

Xếp hạng MetaNames
Bạn có thể định cấu hình chỉ mục của mình để thiên vị các giá trị metaname nhất định nhiều hơn hoặc ít hơn các giá trị khác.
Xem tùy chọn cấu hình "MetaNamesRank" trong SWISH-CONFIG.

Bỏ quaTotalWordCountKhiXếp hạng
Đặt thành 1 (mặc định) hoặc 0 trong tệp cấu hình của bạn. Xem SWISH-CẤU HÌNH. LƯU Ý: Bạn phải thiết lập
này thành 0 để sử dụng Sơ đồ xếp hạng IDF.

cấu trúc
Vị trí của mỗi thuật ngữ trong mỗi tài liệu HTML được cho một giá trị cấu trúc dựa trên
ngữ cảnh mà từ đó xuất hiện. Giá trị cấu trúc được sử dụng để thổi phồng một cách giả tạo
tần suất của mỗi thuật ngữ trong tài liệu cụ thể đó. Những giá trị cấu trúc này
được định nghĩa trong cấu hình.h:

#xác định RANK_TITLE 7
#xác định RANK_HEADER 5
#xác định RANK_META 3
#xác định RANK_COMMENTS 1
#xác định RANK_EMPHASIZED 0

Ví dụ: nếu từ "foo" xuất hiện trong tiêu đề của tài liệu, Lược đồ sẽ
coi tài liệu đó như thể "foo" xuất hiện thêm 7 lần nữa.

Tất cả các Đề án đều có chung các đặc điểm sau:

VÀ tìm kiếm
Giá trị xếp hạng được tính trung bình cho tất cả các cụm từ AND. Các thuật ngữ trong một tập hợp dấu ngoặc đơn ()
được tính trung bình dưới dạng một thuật ngữ duy nhất (đây là một điểm yếu được thừa nhận và nằm trong TODO
danh sách).

HOẶC tìm kiếm
Giá trị xếp hạng được tính tổng rồi nhân đôi cho mỗi cặp thuật ngữ OR. Kết quả này trong
xếp hạng cao hơn cho các tài liệu có nhiều thuật ngữ OR.

xếp hạng theo tỷ lệ
Sau khi tính điểm xếp hạng thô của tài liệu, điểm xếp hạng cuối cùng sẽ được tính
sử dụng hàm "log()" ưa thích. Tất cả các tài liệu sau đó được chia tỷ lệ theo điểm cơ bản
là 1000. Do đó, tài liệu được xếp hạng cao nhất sẽ luôn có giá trị "swishrank" là
1000.

Dưới đây là tổng quan ngắn gọn về cách hoạt động của các Đề án khác nhau. Số trong ngoặc đơn
sau tên là giá trị để gọi lược đồ đó bằng "swish-e -R" hoặc "RankScheme()".

Mặc định (0)
Sơ đồ xếp hạng mặc định xem xét số lần một thuật ngữ xuất hiện trong tài liệu
(tần số), MetaNamesRank và giá trị cấu trúc. Thứ hạng có thể được tóm tắt
như:

DocRank = Tổng của (cấu trúc + metabias)

Hãy xem xét đầu ra này với biến DEBUG_RANK được đặt tại thời điểm biên dịch:

Sơ đồ xếp hạng: 0
Mục từ 0 ở vị trí 6 có cấu trúc 7
Mục từ 1 ở vị trí 64 có cấu trúc 41
Mục từ 2 ở vị trí 71 có cấu trúc 9
Mục từ 3 ở vị trí 132 có cấu trúc 9
Mục từ 4 ở vị trí 154 có cấu trúc 9
Mục từ 5 ở vị trí 423 có cấu trúc 73
Mục từ 6 ở vị trí 541 có cấu trúc 73
Mục từ 7 ở vị trí 662 có cấu trúc 73
Số tập tin: 1104. Xếp hạng thô: 21. Tần suất: 8 xếp hạng tỷ lệ: 30445
Kiểm kê cơ cấu:
struct 0x7 = số lượng 1 (TỆP TIÊU ĐỀ) x bản đồ xếp hạng 8 = 8

struct 0x9 = số lượng 3 ( BODY FILE ) x bản đồ xếp hạng 1 = 3

struct 0x29 = số lượng 1 (TỆP NỘI DUNG TIÊU ĐỀ) x bản đồ xếp hạng 6 = 6

struct 0x49 = số lượng 3 ( EM BODY FILE ) x bản đồ xếp hạng 1 = 3

Mỗi trường hợp từ bắt đầu với điểm cơ bản là 1. Sau đó, với mỗi trường hợp của bạn
từ, tổng hiện hành được lấy từ giá trị cấu trúc của vị trí từ đó cộng với bất kỳ
thiên vị bạn đã cấu hình. Trong ví dụ trên, thứ hạng thô là "1 + 8 + 3 + 6 + 3 =
21 ".

Hãy xem xét dòng này:

struct 0x7 = số lượng 1 (TỆP TIÊU ĐỀ) x bản đồ xếp hạng 8 = 8

Điều đó có nghĩa là có một trường hợp từ của chúng tôi xuất hiện trong tiêu đề của tệp. Đó là bối cảnh
đã ở trong bộ thẻ, bên trong . <title> là cụ thể nhất
cấu trúc, do đó nó nhận được điểm RANK_TITLE: 7. Xếp hạng cơ bản là 1 cộng với cấu trúc
điểm 7 bằng 8. Nếu có hai trường hợp của từ này trong tiêu đề thì
tỷ số sẽ là "8 + 8 = 16".

IDF (1)
IDF là viết tắt của Tần số tài liệu nghịch đảo. Đó là biệt ngữ xếp hạng ưa thích để sử dụng
tính đến tổng tần suất của một thuật ngữ trên toàn bộ chỉ mục, bên cạnh
tần số của thuật ngữ trong một tài liệu. Xếp hạng của IDF cũng sử dụng mật độ tương đối của
từ trong tài liệu để đánh giá mức độ liên quan của nó. Những từ xuất hiện thường xuyên hơn trong tài liệu
thứ hạng của tài liệu đó cao hơn và tài liệu dài hơn không được đánh giá cao hơn tài liệu ngắn hơn.

Sơ đồ IDF có thể được tóm tắt như sau:

DocRank = Tổng của (mật độ * idf * (cấu trúc + metabias))

Hãy xem xét kết quả đầu ra này từ DEBUG_RANK:

Sơ đồ xếp hạng: 1
Số tập tin: 1104 Số từ Điểm: 1 Tần suất: 8 Tổng số tập tin: 1451
Tổng tần số từ: 108 IDF: 2564
Tổng số từ: 1145877 Các từ được lập chỉ mục trong tài liệu này: 562
Số từ trung bình: 789 Mật độ: 1120 Trọng lượng từ: 28716
Mục từ 0 ở vị trí 6 có cấu trúc 7
Mục từ 1 ở vị trí 64 có cấu trúc 41
Mục từ 2 ở vị trí 71 có cấu trúc 9
Mục từ 3 ở vị trí 132 có cấu trúc 9
Mục từ 4 ở vị trí 154 có cấu trúc 9
Mục từ 5 ở vị trí 423 có cấu trúc 73
Mục từ 6 ở vị trí 541 có cấu trúc 73
Mục từ 7 ở vị trí 662 có cấu trúc 73
Xếp hạng sau trọng số IDF: 574321
thứ hạng tỷ lệ: 132609
Kiểm kê cơ cấu:
struct 0x7 = số lượng 1 (TỆP TIÊU ĐỀ) x bản đồ xếp hạng 8 = 8

struct 0x9 = số lượng 3 ( BODY FILE ) x bản đồ xếp hạng 1 = 3

struct 0x29 = số lượng 1 (TỆP NỘI DUNG TIÊU ĐỀ) x bản đồ xếp hạng 6 = 6

struct 0x49 = số lượng 3 ( EM BODY FILE ) x bản đồ xếp hạng 1 = 3

Nó tương tự như Lược đồ mặc định, nhưng hãy chú ý tổng số tệp trong
chỉ mục và tổng tần số từ (ngược lại với tần số tài liệu) đều
một phần của phương trình.

Xếp hạng là một chủ đề phức tạp. SWISH-E cho phép phát triển nhiều Sơ đồ xếp hạng hơn
và thử nghiệm bằng cách sử dụng tùy chọn -R (từ lệnh swish-e) và RankScheme
(xem tài liệu API). Thử nghiệm và chia sẻ những phát hiện của bạn thông qua danh sách thảo luận.

Làm thế nào có thể I hạn chế tìm kiếm đến các chức vụ, thân hình, or nhận xét?

Sử dụng công tắc "-t".

I không thể hạn chế tìm kiếm đến tiêu đề/nội dung/nhận xét.

Hoặc, I không thể Tìm kiếm với meta tên, tất cả các các tên đang lập chỉ mục as "đơn giản".

Kiểm tra tệp config.h xem #define INDEXTAGS có được đặt thành 1 hay không. Nếu có, hãy đổi nó thành 0,
biên dịch lại và lập chỉ mục lại. Khi INDEXTAGS là 1, TẤT CẢ các thẻ được lập chỉ mục dưới dạng văn bản thuần túy,
đó là bạn lập chỉ mục "tiêu đề", "h1", v.v. VÀ chúng mất ý nghĩa lập chỉ mục. Nếu như
INDEXTAGS được đặt thành 0, bạn vẫn sẽ lập chỉ mục các thẻ meta và nhận xét, trừ khi bạn có
được chỉ định khác trong tệp cấu hình người dùng bằng chỉ thị IndexComments.

Ngoài ra, hãy kiểm tra cài đặt "UnknownMetaTags" trong tệp cấu hình của bạn.

tôi có cố gắng chạy các bao gồm CGI kịch bản và I được a "Nội bộ của chúng tôi Lỗi"

Việc gỡ lỗi các tập lệnh CGI nằm ngoài phạm vi của tài liệu này. Lỗi máy chủ nội bộ
về cơ bản có nghĩa là "kiểm tra nhật ký của máy chủ web để tìm thông báo lỗi", vì nó có thể có nghĩa là xấu
shebang (#!), thiếu mô-đun Perl, lỗi truyền FTP hoặc đơn giản là lỗi trong
chương trình. Kịch bản CGI swish.cgi trong ví dụ thư mục chứa một số lỗi
gợi ý. Nhập "perldoc swish.cgi" để biết thông tin.

Ngoài ra còn có rất nhiều câu hỏi thường gặp về CGI trên Internet. Một tìm kiếm trên web nhanh chóng nên
đề nghị giúp đỡ. Phương án cuối cùng là bạn có thể yêu cầu quản trị viên web của mình trợ giúp...

Thời Gian I thử đến lượt xem các swish.cgi trang I xem các nội dung of các Perl chương trình.

Máy chủ web của bạn không được cấu hình để chạy chương trình dưới dạng tập lệnh CGI. Vấn đề này là
được mô tả trong "perldoc swish.cgi".

Làm thế nào do I làm cho Swish-e làm nổi bật từ in Tìm kiếm các kết quả?

Câu trả lời ngắn:

Sử dụng các tập lệnh swish.cgi hoặc search.cgi được cung cấp nằm trong ví dụ thư mục.

Câu trả lời dài:

Swish-e không thể vì nó không có quyền truy cập vào tài liệu nguồn khi quay lại
tất nhiên là có kết quả. Tuy nhiên, chương trình giao diện người dùng do bạn sáng tạo có thể làm nổi bật các thuật ngữ. Của bạn
chương trình có thể mở các tài liệu nguồn và sau đó sử dụng các biểu thức chính quy để thay thế
cụm từ tìm kiếm với các từ được đánh dấu hoặc in đậm.

Tuy nhiên, điều đó sẽ thất bại với tất cả ngoại trừ những tài liệu nguồn đơn giản nhất. Đối với tài liệu HTML,
ví dụ: bạn phải phân tích tài liệu thành các từ và thẻ (và nhận xét). Một lời thôi bạn
muốn làm nổi bật có thể trải rộng trên nhiều thẻ HTML hoặc là một từ trong URL và bạn muốn
đánh dấu toàn bộ văn bản liên kết.

Các mô-đun Perl như HTML::Parser và XML::Parser giúp cho việc trích xuất từ có thể thực hiện được. Kế tiếp,
bạn cần lưu ý rằng Swish-e sử dụng các cài đặt như WordCharacters, BeginCharacters,
EndCharacters, IgnoreFirstChar và IgnoreLast, char để xác định một "từ". Tức là bạn
không thể coi một chuỗi ký tự có khoảng trắng mỗi bên là một từ.

Sau đó, những thứ như TranslateCharacters và HTML Entities có thể chuyển đổi một từ nguồn thành
một cái gì đó khác, theo như Swish-e có liên quan. Cuối cùng, tìm kiếm có thể bị giới hạn bởi
tên meta, vì vậy bạn có thể cần giới hạn việc đánh dấu của mình chỉ ở các phần của nguồn
tài liệu. Đưa các cụm từ tìm kiếm và mật khẩu vào phương trình và bạn có thể thấy rằng đó là
không phải là một vấn đề tầm thường để giải quyết.

Mọi hy vọng đều không bị mất đi, tôi nghĩ, vì Swish-e có cung cấp một số trợ giúp. Sử dụng tùy chọn "-H"
nó sẽ trả về trong tiêu đề cài đặt chỉ mục (hoặc chỉ mục) hiện tại cho WordCharacters
(và những thứ khác) cần thiết để phân tích các tài liệu nguồn của bạn khi nó phân tích chúng trong quá trình lập chỉ mục,
và sẽ trả về tiêu đề "Từ được phân tích cú pháp:" sẽ hiển thị cách nó phân tích cú pháp truy vấn
nội bộ. Nếu bạn sử dụng cách lập chỉ mục mờ (từ gốc, âm thanh hoặc metaphone) thì bạn
cũng sẽ cần phải căn từng từ trong tài liệu của bạn trước khi so sánh với "Đã phân tích cú pháp
Từ:" được trả lại bởi Swish-e.

Mã gốc Swish-e có sẵn bằng cách sử dụng mô-đun Swish-e Perl
(SWISH::API) hoặc thư viện C (có trong bản phân phối swish-e) hoặc bằng cách sử dụng
SWISH::Mô-đun gốc có sẵn trên CPAN. Ngoài ra trên CPAN còn có mô-đun
Văn bản::DoubleMetaphone. Sử dụng SWISH::API có thể cung cấp hỗ trợ bắt nguồn tốt nhất.

Do bộ lọc hiệu lực các hiệu suất suốt trong Tìm kiếm?

Không. Bộ lọc (FileFilter hoặc thông qua phương thức "prog") chỉ được sử dụng để xây dựng chỉ mục tìm kiếm
cơ sở dữ liệu. Trong quá trình yêu cầu tìm kiếm sẽ không có lệnh gọi bộ lọc.

I có đọc các Câu Hỏi Thường Gặp nhưng I vẫn còn có câu hỏi về sử dụng Swish-e.

Danh sách thảo luận Swish-e là nơi bạn nên đến. http://swish-e.org/. Vui lòng không gửi email
trực tiếp các nhà phát triển. Danh sách này là nơi tốt nhất để đặt câu hỏi.

Trước khi đăng bài vui lòng đọc CÂU HỎI VÀ Giải đáp thắc mắc nằm ở trang CÀI ĐẶT.
Bạn cũng nên tìm kiếm kho lưu trữ danh sách thảo luận Swish-e có thể tìm thấy trên
trang web swish-e.

Nói tóm lại, hãy chắc chắn bao gồm những điều sau đây khi yêu cầu trợ giúp.

* Phiên bản swish-e (./swish-e -V)
* Những gì bạn đang lập chỉ mục (và có thể là một mẫu) và số lượng tệp
* Tệp cấu hình Swish-e của bạn
* Bất kỳ thông báo lỗi nào mà Swish-e đang báo cáo

Tài liệu Thông tin

$Id: SWISH-FAQ.pod 2147 2008-07-21 02:48:55Z thẻ $

.

Sử dụng SWISH-FAQ trực tuyến bằng dịch vụ onworks.net