Это команда mailcross, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
mailcross - симулятор перекрестной проверки для использования с dbacl.
СИНТАКСИС
почтовый крест команду [ аргументы_команды ]
ОПИСАНИЕ
почтовый крест автоматизирует задачу перекрестной проверки фильтрации и классификации электронной почты
такие программы, как дбакл(1). Учитывая набор документов по категориям, mailcross инициирует
моделирование выполняется для оценки ошибок классификации и, таким образом, позволяет выполнять точную настройку
параметры классификатора.
Перекрестная проверка - это метод, который широко используется для сравнения качества классификации.
и алгоритмы обучения, и, как таковые, позволяют элементарное сравнение между ними
классификаторы, которые используют дбакл(1) и байесол(1) и другие конкурирующие классификаторы.
Механизм перекрестной проверки заключается в следующем: набор предварительно классифицированных сообщений электронной почты.
сначала разбивается на несколько подмножеств примерно одинакового размера. Для каждого подмножества фильтр
(по умолчанию, дбакл(1)) используется для классификации каждого сообщения в этом подмножестве на основе
изучив категории из оставшихся подмножеств. Полученная классификация
затем ошибки усредняются по всем подмножествам.
Результаты, полученные перекрестной проверкой, по существу не зависят от упорядочения
образцы писем. Другие методы (см. кольчуга(1)Mailfoot(1)) попытка захватить
поведение ошибок классификации во времени.
почтовый крест использует переменные среды MAILCROSS_LEARNER и MAILCROSS_FILTER, когда
выполнение, которое позволяет перекрестную проверку произвольных фильтров, при условии, что они удовлетворяют
условия совместимости, указанные в разделе «ОКРУЖАЮЩАЯ СРЕДА» ниже.
Для удобства, почтовый крест реализует тестирование фреймворк с предопределенными обертками для
несколько классификаторов с открытым исходным кодом. Это позволяет напрямую сравнивать дбакл(1) с
конкурирующие классификаторы на одном и том же наборе образцов электронной почты. См. Раздел ИСПОЛЬЗОВАНИЕ ниже.
Во время подготовки почтовый крест создает подкаталог mailcross.d в текущем
рабочий каталог. Все необходимые вычисления выполняются внутри этого подкаталога.
ВЫХОД статус
почтовый крест возвращает 0 в случае успеха, 1 в случае возникновения проблемы.
КОМАНДЫ
готовить размер
Подготавливает подкаталог с именем mailcross.d в текущем рабочем каталоге и
заполняет его пустыми подкаталогами ровно на размер подмножества.
Каталог [ФАЙЛ]...
Принимает набор писем из ФАЙЛА, если он указан, или из STDIN, и связывает их
Каталог. Все электронные письма случайным образом распределяются по подкаталогам
mailcross.d для дальнейшего использования. Для каждого Каталог, эту команду можно повторять несколько
раз, но нужно выполнить хотя бы один раз.
чистым Удаляет каталог mailcross.d и все его содержимое.
изучить Для каждого ранее созданного подмножества сообщений электронной почты предварительно изучает все категории
на основе содержимого всех подмножеств, кроме этого. В аргументы_команды
передаются MAILCROSS_LEARNER.
пробег Для каждого ранее созданного подмножества сообщений электронной почты выполняет классификацию
на основе предварительно изученных категорий, связанных со всеми, кроме этого подмножества. В
аргументы_команды передаются в MAILCROSS_FILTER.
суммировать
Распечатывает статистику последнего прогона перекрестной проверки.
обзоре настоящая кошка предводитель
Сканирует статистику последнего запуска и извлекает все сообщения, принадлежащие
Каталог настоящая кошка но были отнесены к категории предводитель. Извлеченный
сообщения копируются в каталог mailcross.d / review для прочтения.
тестирование список
Показывает список доступных фильтров / сценариев оболочки, которые можно выбрать.
тестирование выберите [ФИЛЬТР]...
Подготавливает фильтр (ы) с именем ФИЛЬТР будет использоваться для моделирования. Имя фильтра
имя сценария-оболочки, расположенного в каталоге / usr / share / dbacl / testsuite.
У каждого фильтра есть жесткий интерфейс, описанный ниже, и процесс его выбора
копирует его в mailcross.d / filters каталог. Используются только расположенные там фильтры
в симуляциях.
тестирование отменить [ФИЛЬТР]...
Удаляет названный фильтр (ы) из каталога mailcross.d / filters так что они
не используется в моделировании.
тестирование пробег
Вызывает каждый выбранный фильтр для ранее добавленных наборов данных и вычисляет
ставки ошибочной классификации.
тестирование статус
Описывает запланированные симуляции.
тестирование суммировать
Показывает результаты перекрестной проверки для всех фильтров. Имеет смысл только после пробег
команда.
ИСПОЛЬЗОВАНИЕ
Обычный шаблон использования следующий: сначала вы должны разделить свой адрес электронной почты
сбор в несколько категорий (вручную или иначе). Каждая категория должна быть
связаны с одной или несколькими папками, но каждая папка не должна содержать более одной
категория. Затем вы должны решить, сколько подмножеств использовать, скажем 10. Обратите внимание, что слишком много
подмножества быстро замедлят вычисления. Теперь вы можете ввести
% mailcross подготовить 10
Затем для каждой категории вы должны добавить каждую папку, связанную с этой категорией. Предполагать
у вас есть три категории с названиями спам, работаети играть, которые связаны с mbox
файлов спам.mbox, работа.mboxи play.mbox соответственно. Вы бы напечатали
% mailcross добавить спам spam.mbox
% mailcross добавить работу work.mbox
% mailcross добавить play play.mbox
Теперь вы можете выполнять столько симуляций, сколько хотите. Каждая перекрестная проверка состоит из
обучающий, беговой и подведение итогов. Эти операции выполняются на
классификатор, указанный в переменных MAILCROSS_FILTER и MAILCROSS_LEARNER. Установив
эти переменные соответствующим образом, вы можете сравнивать эффективность классификации, изменяя
параметры командной строки вашего классификатора (ов).
% mailcross узнать
% почтовых кроссов
% mailcross подвести итог
Команды набора тестов предназначены для упрощения описанных выше шагов и позволяют сравнивать
широкий спектр классификаторов электронной почты, включая, помимо прочего, дбакл. Классификаторы
поддерживается через сценарии оболочки, которые находятся в / usr / share / dbacl / testsuite
каталог.
Первый этап использования набора тестов - это решение, какие классификаторы сравнивать. Ты
можно просмотреть список доступных оболочек, набрав:
% mailcross testsuite список
Обратите внимание, что сценарии оболочки НЕ являются фактическими классификаторами электронной почты, которые должны быть
установлен отдельно вашим системным администратором или иным образом. Как только это будет сделано, вы
можно выбрать одну или несколько оболочек для моделирования, набрав, например:
% mailcross testsuite выберите dbaclA ifile
Если некоторые из выбранных классификаторов не могут быть найдены в системе, они не выбираются.
Также обратите внимание, что некоторые оболочки могут иметь жестко заданные названия категорий, например, если классификатор
поддерживает только двоичную классификацию. Обратите внимание на предупреждающие сообщения.
Осталось только запустить симуляцию. Помните, это может занять много времени (несколько часов
в зависимости от классификатора).
% запусков набора тестов mailcross
% mailcross testsuite подвести итог
Как только вы закончите моделирование, вы можете удалить рабочие файлы, файлы журналов и т. Д.
, введя
% mailcross чистый
Ход перекрестной проверки незаметно записывается в различные файлы журналов, которые
расположен в mailcross.d / log каталог. Проверьте это в случае проблем.
SCRIPT ИНТЕРФЕЙС
почтовый крест тестирование заботится об обучении и классификации ваших подготовленных корпусов электронной почты для
каждый выбранный классификатор. Поскольку классификаторы имеют очень разные интерфейсы, это только
возможно путем индивидуальной упаковки этих интерфейсов в стандартную форму, которую можно использовать
by почтовый крест тестирование.
Каждый сценарий оболочки - это инструмент командной строки, который принимает одну команду, за которой следует ноль.
или несколько дополнительных аргументов в стандартной форме:
команда оболочки [аргумент] ...
Каждый сценарий-оболочка также четко определенным образом использует STDIN и STDOUT. Если нет
описывается поведение, тогда не следует использовать ни выход, ни вход. Возможные команды:
описано ниже:
filter В этом случае ожидается одно электронное письмо на STDIN и список имен файлов категорий.
ожидается в $ 2, $ 3 и т. д. Скрипт записывает название категории, соответствующее
входной адрес электронной почты на STDOUT. Конечный символ новой строки не требуется и не ожидается.
learn В этом случае ожидается стандартный поток mbox на STDIN, в то время как подходящий
имя файла категории ожидается в $ 2. Вывод в STDOUT не записывается.
clean В этом случае ожидается каталог в $ 2, который проверяется на наличие старой базы данных
Информация. Если будут обнаружены какие-либо старые базы данных, они будут очищены или сброшены. Нет вывода
написано в STDOUT.
описывать
В этом случае в STDOUT записывается одна строка текста, описывающая параметры фильтра.
функциональность. Строка должна быть короткой, чтобы предотвратить перенос строки на
Терминал.
начальная загрузка
В этом случае ожидается каталог в $ 2. Скрипт-оболочка сначала проверяет наличие
наличие ассоциированного с ним классификатора и другие предпосылки. Если чек
успешно, то оболочка клонируется в указанный каталог. Любезность
уведомление должно быть отправлено на STDOUT, чтобы выразить успех или неудачу. Это также
допустимо давать более длинные описания с оговорками.
палец Используется кольчуга(1).
стопа Используется Mailfoot(1).
ОКРУЖАЮЩАЯ СРЕДА
Сразу после загрузки почтовый крест читает скрытый файл .mailcrossrc в каталоге $ HOME,
если он существует, это было бы хорошее место для определения пользовательских значений для среды
переменные.
MAILCROSS_FILTER
Эта переменная содержит команду оболочки, которую нужно многократно выполнять во время работы.
сцена. Команда должна принять сообщение электронной почты на STDIN и вывести результат
название категории. Он также должен принимать список имен файлов категорий в команде
линия. Если не определено, почтовый крест использует значение по умолчанию MAILCROSS_FILTER = "dbacl -T
email -T xml -v "(а также волшебным образом добавляет параметр -c перед каждой категорией).
MAILCROSS_LEARNER
Эта переменная содержит команду оболочки, которая будет выполняться повторно во время
этап обучения. Команда должна принимать поток писем типа mbox на STDIN для
обучение и имя файла категории в командной строке. Если не определено,
почтовый крест использует значение по умолчанию MAILCROSS_LEARNER = "dbacl -H 19 -T email -T xml
-l ".
ТЕМПДИР
Этот каталог экспортируется для использования сценариями оболочки. Скрипты, которые нужны
для создания временных файлов необходимо разместить их в месте, указанном в TEMPDIR.
ПРИМЕЧАНИЯ
Подкаталог mailcross.d может значительно увеличиться. Он содержит полную копию обучения
корпуса, а также учебные файлы для размер раз все добавленные категории и различные
лог-файлы.
ПРЕДУПРЕЖДЕНИЕ
Перекрестная проверка - это широко используемая, но специальная статистическая процедура, совершенно не связанная с этим.
к байесовской теории и вызывает споры. Используйте это на свой страх и риск.
ИСТОЧНИК
Исходный код последней версии этой программы доступен по следующему адресу:
места:
http://www.lbreyer.com/gpl.html
http://dbacl.sourceforge.net
Используйте mailcross онлайн с помощью сервисов onworks.net