Я плохо объяснил.
На самом деле список, порождаемый в конце дня, уже проверен.
Скрипт анализирует access.log, формирует и предлагает занести в баны список сайтов в названиях которых есть характерные слова, например super-porno-girls.com.ua или xxxfilms.ru, если список состоит только из таких названий (это бывает в 50% случаев), то жму Enter и список в банах. Если есть сомнения, то перехожу к построчной обработке, в этом режиме теже сайты предлагаются по одному, - предлагается сайт + несколько урлов к нему из лога с нехорошими словами, если нужно, то копирую урл с экрана в браузер и проверяю вживую, в итоге нужно нажать "yes" для занесения сайта в PORNO или "no" для занесения в IGNOR, чтобы больше не беспокоил своим появленим (например сайт clinicasex.ru может оказаться вполне приличным и нечего ему мелькать в проверяемых списках).
Затем скрипт предлагает обработать сайты в названиях которых нет ничего подозрительного, но в ссылках на которые что-то есть. Эти сайты предлагаются для принятия решения только по одному - в режиме, описанном выше. Здесь доля ручных проверок высока, но иногда и в этом режиме необязательно проверять сайт вживую, если сайт называется eblja.ru или я вижу ссылку
http://rodnay.hut2.ru/podrostkovoe_porn ... ncest.html
, то что тут проверять, жму "yes" и он в PORNO.
Это полурочной способ, который неидеален, но лучше я не придумал. Он дает очень мало ошибок (только из-за невнимательности, когда списки большие), но зато позволяет довольно быстро выловить большую часть порно-сайтов, найденных пользователями.
Кстати, я заметил, что продвинутые для порно-серфинга начинают использовать вторичные прокси - приходится с ними бороться. В этом случае режик не помогает, например ссылка
http://www.anonymisierungsdienst.de/pro ... exparty.tv
или
http://proxy.guardster.com/cgi-bin/nph- ... exparty.tv
позволяет просмотреть забаненый сайт sexparty.tv. Может что-то можно придумать для этого случая? Ведь сайт куда он ходил виден. Можно еще и с прокси бороться, но их видимо-невидимо.
Особо грамотные юзеры используют анонимные прокси через SSL, в этом случае вообще нельзя узнать куда он ходил, т.к. в логе только
CONNECT
www.byelarus.com:443 - DIRECT/66.45.228.135
и вся порнуха интернета его.
Слава, все же способ проверки через присылаемую форму неудобен (массовый ввод -> список в почте) - я уже уверен в списке, я проверил его (вживую или интеллектуально) во время работы скрипта, и я все равно не глядя нажму в форме подтверждения. то есть это не имеет смысла.
Мне кажется массовый ввод неизбежен, потому что порнуха плодится как гидра. У меня только за сегодня 42 новых бана (до вечера + еще столько же будет). И какая-то автоматизация необходима. При этом ввод сайта по-одному в веб-форму является узким местом.
На самом деле, вероятность ошибки при вводе списком не выше, она зависит от способа, каким этот список был сформирован. Ошибка там, раньше, а не в способе ввода.
Можно придумать какие-то защитные меры, например:
- проверять список на совпадение с хорошими доменами, - составить проверочный список типа yandex.ru yahoo.com pochta.ru linux.org.ru и т.п. - если хотя бы один сайт совпал, - отвергать список с указанием ошибки и понижать рейтинг.
- разрешить вводить списком только пользователям с высоким рейтингом (каким - не знаю, еще не понял что он на самом деле означает)
- разрешить массовый ввод только для порно, для других листов это необязательно (во всяком случае пока)
- сделать списком по умолчанию при вводе в веб-форму порно-список - он самый вредный и самый актуальный.
- метить сайты введенные списком особой меткой, чтобы пользователи DBL могли сами выбирать - использовать эти баны или нет, - аналогично доверяемым пользователям и их рейтингам в скриптах, формирующих списки.
- ограничить кол-во вводимых за раз банов, - например, не более 10 - это будет соответствовать тому количеству, которое в среднем появляется у админа, у кого больше - введет несколько раз, это удобнее и быстрее (ровно на порядок)), чем копировать построчно.
Такие вот предложения. Если все это выглядит неактуальным, необязательным, небезопасным или еще почему-то, то не обижусь на отказ и приспособлюсь к суровой действительности.
Ошибочные баны я ввел вчера. Нужно все баны, введенные мной 25.01.2006 в список web-mail перенести в порнуху, если это сделать сложно, то можно их попросту удалить. Баны, которые я вчера вбил в porno.urls все правильные их не нужно трогать (их нужно использовать)).