Вопрос/предложение по проверке контекста.
Вопрос/предложение по проверке контекста.
У можно ли осуществить такую вещь, как проверку сайта по ключеывм словам на содержимое, и дальнейшую класификаию сайта ?
К примеру создаются зоны - нормальные сайты, под вопросом, и порно сайты.
то есть зоходит пользователь на сайт - rejik проверяет сайт к примеру на вхождение в контент сайта, в заголовки оперделённых слов - к примеру porno - и в соответствии от этого перемещать сайт в соответствующую зону. Если не понятно какой сайт - он перемеает его в зону под вопросом
, и потом администратор сам решает что с ним делать.
Нечно подобное сделано под isa сервер - surfcontrol web filtering.
К примеру создаются зоны - нормальные сайты, под вопросом, и порно сайты.
то есть зоходит пользователь на сайт - rejik проверяет сайт к примеру на вхождение в контент сайта, в заголовки оперделённых слов - к примеру porno - и в соответствии от этого перемещать сайт в соответствующую зону. Если не понятно какой сайт - он перемеает его в зону под вопросом
, и потом администратор сам решает что с ним делать.
Нечно подобное сделано под isa сервер - surfcontrol web filtering.
Re: Вопрос/предложение по проверке контекста.
Правильно ли я понял задачу: Вы хотите анализировать все сайты, посещаемые пользователями сквида на наличии в урле неких слов, типа "porno", для того, что бы админ проверил их вручную и при необходимости добавил в бан-листы?LuckyBird писал(а):У можно ли осуществить такую вещь, как проверку сайта по ключеывм словам на содержимое, и дальнейшую класификаию сайта ?
К примеру создаются зоны - нормальные сайты, под вопросом, и порно сайты.
то есть зоходит пользователь на сайт - rejik проверяет сайт к примеру на вхождение в контент сайта, в заголовки оперделённых слов - к примеру porno - и в соответствии от этого перемещать сайт в соответствующую зону. Если не понятно какой сайт - он перемеает его в зону под вопросом
, и потом администратор сам решает что с ним делать.
Нечно подобное сделано под isa сервер - surfcontrol web filtering.
Если так, то на самом деле в никсах все это можно сделать стандартными средствами, поискав в логе сквида, например так:
cat access.log | grep porno >porno.txt
Немного не то
1) как упрощённый вариант -да.
Режик же всё равно просматривает access.log - может бы заодно динамически и создавал файл к примеру porno.txt
в ткотором бы находились чистые ссылки - то есть squiдовый мусор убирали - помоему это несложно сделать.
2) Многие сайты не несут в названии слов porno или sex - так что их такм образом не выцепить.
Но в тексте html содержаться слова, проанализировав которые можно принять соответствующее решение.
Режик же всё равно просматривает access.log - может бы заодно динамически и создавал файл к примеру porno.txt
в ткотором бы находились чистые ссылки - то есть squiдовый мусор убирали - помоему это несложно сделать.
2) Многие сайты не несут в названии слов porno или sex - так что их такм образом не выцепить.
Но в тексте html содержаться слова, проанализировав которые можно принять соответствующее решение.
Re: Немного не то
Нет, режик не просматривает access.log.LuckyBird писал(а):1) как упрощённый вариант -да.
Режик же всё равно просматривает access.log - может бы заодно динамически и создавал файл к примеру porno.txt
в ткотором бы находились чистые ссылки - то есть squiдовый мусор убирали - помоему это несложно сделать.
По идее можно сделать, но стоит ли тормозить редиректор этой функцией, если того же результата можно добиться анализом лога сквиды?
Нет, режик на это не способен, так как не получает содержимого скачанного объекта, а только его урл.LuckyBird писал(а): 2) Многие сайты не несут в названии слов porno или sex - так что их такм образом не выцепить.
Но в тексте html содержаться слова, проанализировав которые можно принять соответствующее решение.
Если только заставить режик качать эти объекты самостоятельно и затем отдавать пользователю, но это уже будет не совсем редиректор.
Да, это можно сделать. достаточно просто, хотя и не слишком быстро будет работать.LuckyBird писал(а):2) Просто такого под сквид на данный момент не существет, по моему мнению это очень удобно - я раньше использовал surfcontrol - очень удобно.
Можно написать как модуль - всё равно всё проходит через сквид - может быть можно анализировать странички из спула сквида, чтобы не грузитьпо 2 раза
Я раньше делал что-то подобное, вытаскивал все картинки, размером больше дцать килобайт. Картинки специальным образом именовались.
Потом просматривал их и порнушные складывал в отдельную папку. После, по именам этих картинок составлялся дополнительный список для блокировки.
В день, таким способом, удавалось пополнить список на 1000 новых правил.
Но сейчас есть уже набор из двухсот тысяч правил, их только надо проверить, что мне кажется проще, чем анализировать скаченое...
Если Perl знаете, могу выложить мои старые скрипты, правда давно это было, и чего-то там наверное нуждается в доработке, а времени на это у меня сейчас нет.
А может быть предложить...
желающим писать одельные модули для наращивания функциональности программы ?
Например кто -хочет напишет этот модуль, а в настройках режика указать
модуль ?
как в FAR ))
Например кто -хочет напишет этот модуль, а в настройках режика указать
модуль ?
как в FAR ))
Re: А может быть предложить...
В принципе, это можно будет получить, как только в режике можно будет подключать еще один редиректор.LuckyBird писал(а):желающим писать одельные модули для наращивания функциональности программы ?
Например кто -хочет напишет этот модуль, а в настройках режика указать
модуль ?
как в FAR ))
Правда на мой взгляд, это не совсем модульная архитектура, точнее говоря, мне кажется, что будут избыточными связи между модулями и отдельные процессы под каждый модуль.
С другой стороны, это достаточно просто.
Но ведь каждый день открываются новые сайты.
Вот к примеру у нас в сетке пользователи переодически ходят на различные порно ресурсы. Чтобы посмотреть какие ресрсы они посещают - я смотрю логи сарга и отслеживаю нежелательные сайты. Я думаю этот модуль пригодился бы - его моджно переодически включать для отслежиывания нежелательных посещений.
Может тогда я поробую написать такой модуль ?
Тлько надо perl подучить
Вот к примеру у нас в сетке пользователи переодически ходят на различные порно ресурсы. Чтобы посмотреть какие ресрсы они посещают - я смотрю логи сарга и отслеживаю нежелательные сайты. Я думаю этот модуль пригодился бы - его моджно переодически включать для отслежиывания нежелательных посещений.
Может тогда я поробую написать такой модуль ?
Тлько надо perl подучить
Да, конечно, пишите, думаю, общественность будет вам благодарнаLuckyBird писал(а):Но ведь каждый день открываются новые сайты.
Вот к примеру у нас в сетке пользователи переодически ходят на различные порно ресурсы. Чтобы посмотреть какие ресрсы они посещают - я смотрю логи сарга и отслеживаю нежелательные сайты. Я думаю этот модуль пригодился бы - его моджно переодически включать для отслежиывания нежелательных посещений.
Может тогда я поробую написать такой модуль ?
Тлько надо perl подучить
-
- Сообщения: 49
- Зарегистрирован: Ср окт 20, 2004 12:50
- Контактная информация:
Есть прикольная штука -- фильтрующие прокси:
http://www.privoxy.org/, http://webcleaner.sourceforge.net/ и другие. Ставишь на входе и сквид получает уже "обработанную" страницу. Я попробовал только privoxy, фильтры даже не настраивал. Из восьми банеров шесть были "убиты" privoxy. Оставшиеся два "добил" РЕЖИК. )
Во втором есть возможность подключение clamav для проверки входящих файлов.
Подробнее ничего сказать не могу -- нет времени заняться ими плотнее.
http://www.privoxy.org/, http://webcleaner.sourceforge.net/ и другие. Ставишь на входе и сквид получает уже "обработанную" страницу. Я попробовал только privoxy, фильтры даже не настраивал. Из восьми банеров шесть были "убиты" privoxy. Оставшиеся два "добил" РЕЖИК. )
Во втором есть возможность подключение clamav для проверки входящих файлов.
Подробнее ничего сказать не могу -- нет времени заняться ими плотнее.
Да, интересная программа, надо покрутить.
главное чтобы не тормозила
-
- Сообщения: 49
- Зарегистрирован: Ср окт 20, 2004 12:50
- Контактная информация:
Тормозов быть не должно. Хотя 100% утверждать не берусь, но это же не кэш! Во всяком случае, когда я пробовал privoxy с его стандартными настройками, никаких тормозов замечено не было. А убрал потому, что хочу попробовать еще и антивирус прикрутить.
Если я правильно понимаю, то фильтрующий прокси просматривает и обрабатывает (меняет текст ХТМЛ!) только текстовые файлы, а картинки и др. идут "сквозняком". Даже шел-скриптом с тремя десятками команд средний ХТМЛ-файлик в 50 кб будет обрабатываться милисекунды. А на закачку среднего банера в 20 кб, с учетом времени запроса, уйдет 2 секунды минимум. Таким образом, все что будет "убито" дает "прирост" в скорости, многократно компенсирующий время затраченное на "убийство".
Опять же, если сквид получает уже обработанную страницу, то и от юзера "плохие" запросы не поступают, значит, и сквид, и редиректор уже не будут тратить на них время, а это тоже плюс к общей скорости!
Если я правильно понимаю, то фильтрующий прокси просматривает и обрабатывает (меняет текст ХТМЛ!) только текстовые файлы, а картинки и др. идут "сквозняком". Даже шел-скриптом с тремя десятками команд средний ХТМЛ-файлик в 50 кб будет обрабатываться милисекунды. А на закачку среднего банера в 20 кб, с учетом времени запроса, уйдет 2 секунды минимум. Таким образом, все что будет "убито" дает "прирост" в скорости, многократно компенсирующий время затраченное на "убийство".
Опять же, если сквид получает уже обработанную страницу, то и от юзера "плохие" запросы не поступают, значит, и сквид, и редиректор уже не будут тратить на них время, а это тоже плюс к общей скорости!
Зачем изобретать велосипед и дополнительно загружать систему?
Всё это можно сделать силами iptables, если установлен Linux.
Что требуется, так это пересобрать iptables + patch-o-matic-ng
с дополнительным модулем string. И через него задать фильтрование
контента.
Например:
iptables -A INPUT -i eth0 -p tcp -m multiport --dport 80,81,8080,8008,443,8000,3128 -m string --string porno -m comment --comment "Porno rule" -j REJECT
В данном примере использованы ещё два модуля. которые также можно включить при компиляции. Один даёт возможность делать перечисление портов (до 15 портов), а другой добавляет комментарий к правилу, чтобы его можно было легко отыскать при выводе общей таблицы правил (iptables -nL -v).
Также можно добавить IP- или MAC-адрес источника, чтобы разграничивать влияние правила, одному можно смотреть, а другому нет )
К тому же в модуле string есть возможность задать hex-строку в пакете, при встрече с которой сработает правило.
Одним словом если забудете синтаксис написания правила, то
iptables -m имя_модуля --help
Удачи.
Всё это можно сделать силами iptables, если установлен Linux.
Что требуется, так это пересобрать iptables + patch-o-matic-ng
с дополнительным модулем string. И через него задать фильтрование
контента.
Например:
iptables -A INPUT -i eth0 -p tcp -m multiport --dport 80,81,8080,8008,443,8000,3128 -m string --string porno -m comment --comment "Porno rule" -j REJECT
В данном примере использованы ещё два модуля. которые также можно включить при компиляции. Один даёт возможность делать перечисление портов (до 15 портов), а другой добавляет комментарий к правилу, чтобы его можно было легко отыскать при выводе общей таблицы правил (iptables -nL -v).
Также можно добавить IP- или MAC-адрес источника, чтобы разграничивать влияние правила, одному можно смотреть, а другому нет )
К тому же в модуле string есть возможность задать hex-строку в пакете, при встрече с которой сработает правило.
Одним словом если забудете синтаксис написания правила, то
iptables -m имя_модуля --help
Удачи.
-
- Сообщения: 49
- Зарегистрирован: Ср окт 20, 2004 12:50
- Контактная информация:
А если не Linux, а FreeBSD?Junior писал(а):Зачем изобретать велосипед и дополнительно загружать систему?
Всё это можно сделать силами iptables, если установлен Linux.
Что требуется, так это пересобрать iptables + patch-o-matic-ng
с дополнительным модулем string. И через него задать фильтрование
контента.
Один хрен ты собираешься добавлять какие-то дополнительные модули, а значит дополнительно "нагружать" систему.
К тому же при среднесуточной загрузке в 0,4% и пиковой 3,5%, если я немного и "подгружу" свою систему, то она это как-то переживет.
В общем, когда поставлю -- поделюсь впечатлениями. Надеюсь это будет скоро...