Вопрос/предложение по проверке контекста.

Обсуждение программы редиректора
LuckyBird
Сообщения: 39
Зарегистрирован: Пт дек 03, 2004 18:47

Вопрос/предложение по проверке контекста.

Сообщение LuckyBird »

У можно ли осуществить такую вещь, как проверку сайта по ключеывм словам на содержимое, и дальнейшую класификаию сайта ?
К примеру создаются зоны - нормальные сайты, под вопросом, и порно сайты.
то есть зоходит пользователь на сайт - rejik проверяет сайт к примеру на вхождение в контент сайта, в заголовки оперделённых слов - к примеру porno - и в соответствии от этого перемещать сайт в соответствующую зону. Если не понятно какой сайт - он перемеает его в зону под вопросом
, и потом администратор сам решает что с ним делать.

Нечно подобное сделано под isa сервер - surfcontrol web filtering.

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Re: Вопрос/предложение по проверке контекста.

Сообщение Slava »

LuckyBird писал(а):У можно ли осуществить такую вещь, как проверку сайта по ключеывм словам на содержимое, и дальнейшую класификаию сайта ?
К примеру создаются зоны - нормальные сайты, под вопросом, и порно сайты.
то есть зоходит пользователь на сайт - rejik проверяет сайт к примеру на вхождение в контент сайта, в заголовки оперделённых слов - к примеру porno - и в соответствии от этого перемещать сайт в соответствующую зону. Если не понятно какой сайт - он перемеает его в зону под вопросом
, и потом администратор сам решает что с ним делать.

Нечно подобное сделано под isa сервер - surfcontrol web filtering.
Правильно ли я понял задачу: Вы хотите анализировать все сайты, посещаемые пользователями сквида на наличии в урле неких слов, типа "porno", для того, что бы админ проверил их вручную и при необходимости добавил в бан-листы?

Если так, то на самом деле в никсах все это можно сделать стандартными средствами, поискав в логе сквида, например так:
cat access.log | grep porno >porno.txt

LuckyBird
Сообщения: 39
Зарегистрирован: Пт дек 03, 2004 18:47

Немного не то

Сообщение LuckyBird »

1) как упрощённый вариант -да.
Режик же всё равно просматривает access.log - может бы заодно динамически и создавал файл к примеру porno.txt
в ткотором бы находились чистые ссылки - то есть squiдовый мусор убирали - помоему это несложно сделать.

2) Многие сайты не несут в названии слов porno или sex - так что их такм образом не выцепить.
Но в тексте html содержаться слова, проанализировав которые можно принять соответствующее решение.

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Re: Немного не то

Сообщение Slava »

LuckyBird писал(а):1) как упрощённый вариант -да.
Режик же всё равно просматривает access.log - может бы заодно динамически и создавал файл к примеру porno.txt
в ткотором бы находились чистые ссылки - то есть squiдовый мусор убирали - помоему это несложно сделать.
Нет, режик не просматривает access.log.
По идее можно сделать, но стоит ли тормозить редиректор этой функцией, если того же результата можно добиться анализом лога сквиды?
LuckyBird писал(а): 2) Многие сайты не несут в названии слов porno или sex - так что их такм образом не выцепить.
Но в тексте html содержаться слова, проанализировав которые можно принять соответствующее решение.
Нет, режик на это не способен, так как не получает содержимого скачанного объекта, а только его урл.
Если только заставить режик качать эти объекты самостоятельно и затем отдавать пользователю, но это уже будет не совсем редиректор.

LuckyBird
Сообщения: 39
Зарегистрирован: Пт дек 03, 2004 18:47

Сообщение LuckyBird »

2) Просто такого под сквид на данный момент не существет, по моему мнению это очень удобно - я раньше использовал surfcontrol - очень удобно.
Можно написать как модуль - всё равно всё проходит через сквид - может быть можно анализировать странички из спула сквида, чтобы не грузитьпо 2 раза :?

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Сообщение Slava »

LuckyBird писал(а):2) Просто такого под сквид на данный момент не существет, по моему мнению это очень удобно - я раньше использовал surfcontrol - очень удобно.
Можно написать как модуль - всё равно всё проходит через сквид - может быть можно анализировать странички из спула сквида, чтобы не грузитьпо 2 раза :?
Да, это можно сделать. достаточно просто, хотя и не слишком быстро будет работать.
Я раньше делал что-то подобное, вытаскивал все картинки, размером больше дцать килобайт. Картинки специальным образом именовались.
Потом просматривал их и порнушные складывал в отдельную папку. После, по именам этих картинок составлялся дополнительный список для блокировки.

В день, таким способом, удавалось пополнить список на 1000 новых правил.

Но сейчас есть уже набор из двухсот тысяч правил, их только надо проверить, что мне кажется проще, чем анализировать скаченое...

Если Perl знаете, могу выложить мои старые скрипты, правда давно это было, и чего-то там наверное нуждается в доработке, а времени на это у меня сейчас нет.

LuckyBird
Сообщения: 39
Зарегистрирован: Пт дек 03, 2004 18:47

А может быть предложить...

Сообщение LuckyBird »

желающим писать одельные модули для наращивания функциональности программы ?
Например кто -хочет напишет этот модуль, а в настройках режика указать
модуль ?
как в FAR :)))

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Re: А может быть предложить...

Сообщение Slava »

LuckyBird писал(а):желающим писать одельные модули для наращивания функциональности программы ?
Например кто -хочет напишет этот модуль, а в настройках режика указать
модуль ?
как в FAR :)))
В принципе, это можно будет получить, как только в режике можно будет подключать еще один редиректор.

Правда на мой взгляд, это не совсем модульная архитектура, точнее говоря, мне кажется, что будут избыточными связи между модулями и отдельные процессы под каждый модуль.
С другой стороны, это достаточно просто.

LuckyBird
Сообщения: 39
Зарегистрирован: Пт дек 03, 2004 18:47

Сообщение LuckyBird »

Но ведь каждый день открываются новые сайты.
Вот к примеру у нас в сетке пользователи переодически ходят на различные порно ресурсы. Чтобы посмотреть какие ресрсы они посещают - я смотрю логи сарга и отслеживаю нежелательные сайты. Я думаю этот модуль пригодился бы - его моджно переодически включать для отслежиывания нежелательных посещений.

Может тогда я поробую написать такой модуль ?
Тлько надо perl подучить :)

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Сообщение Slava »

LuckyBird писал(а):Но ведь каждый день открываются новые сайты.
Вот к примеру у нас в сетке пользователи переодически ходят на различные порно ресурсы. Чтобы посмотреть какие ресрсы они посещают - я смотрю логи сарга и отслеживаю нежелательные сайты. Я думаю этот модуль пригодился бы - его моджно переодически включать для отслежиывания нежелательных посещений.

Может тогда я поробую написать такой модуль ?
Тлько надо perl подучить :)
Да, конечно, пишите, думаю, общественность будет вам благодарна :)

Goblin Shi'k L'Grubbr
Сообщения: 49
Зарегистрирован: Ср окт 20, 2004 12:50
Контактная информация:

Сообщение Goblin Shi'k L'Grubbr »

Есть прикольная штука -- фильтрующие прокси:
http://www.privoxy.org/, http://webcleaner.sourceforge.net/ и другие. Ставишь на входе и сквид получает уже "обработанную" страницу. Я попробовал только privoxy, фильтры даже не настраивал. Из восьми банеров шесть были "убиты" privoxy. Оставшиеся два "добил" РЕЖИК. :))

Во втором есть возможность подключение clamav для проверки входящих файлов.

Подробнее ничего сказать не могу -- нет времени заняться ими плотнее.

LuckyBird
Сообщения: 39
Зарегистрирован: Пт дек 03, 2004 18:47

Да, интересная программа, надо покрутить.

Сообщение LuckyBird »

главное чтобы не тормозила :)

Goblin Shi'k L'Grubbr
Сообщения: 49
Зарегистрирован: Ср окт 20, 2004 12:50
Контактная информация:

Сообщение Goblin Shi'k L'Grubbr »

Тормозов быть не должно. Хотя 100% утверждать не берусь, но это же не кэш! Во всяком случае, когда я пробовал privoxy с его стандартными настройками, никаких тормозов замечено не было. А убрал потому, что хочу попробовать еще и антивирус прикрутить.

Если я правильно понимаю, то фильтрующий прокси просматривает и обрабатывает (меняет текст ХТМЛ!) только текстовые файлы, а картинки и др. идут "сквозняком". Даже шел-скриптом с тремя десятками команд средний ХТМЛ-файлик в 50 кб будет обрабатываться милисекунды. А на закачку среднего банера в 20 кб, с учетом времени запроса, уйдет 2 секунды минимум. Таким образом, все что будет "убито" дает "прирост" в скорости, многократно компенсирующий время затраченное на "убийство".

Опять же, если сквид получает уже обработанную страницу, то и от юзера "плохие" запросы не поступают, значит, и сквид, и редиректор уже не будут тратить на них время, а это тоже плюс к общей скорости!

Junior
Сообщения: 37
Зарегистрирован: Вт фев 01, 2005 15:52

Сообщение Junior »

Зачем изобретать велосипед и дополнительно загружать систему?
Всё это можно сделать силами iptables, если установлен Linux.
Что требуется, так это пересобрать iptables + patch-o-matic-ng
с дополнительным модулем string. И через него задать фильтрование
контента.
Например:
iptables -A INPUT -i eth0 -p tcp -m multiport --dport 80,81,8080,8008,443,8000,3128 -m string --string porno -m comment --comment "Porno rule" -j REJECT

В данном примере использованы ещё два модуля. которые также можно включить при компиляции. Один даёт возможность делать перечисление портов (до 15 портов), а другой добавляет комментарий к правилу, чтобы его можно было легко отыскать при выводе общей таблицы правил (iptables -nL -v).
Также можно добавить IP- или MAC-адрес источника, чтобы разграничивать влияние правила, одному можно смотреть, а другому нет :))
К тому же в модуле string есть возможность задать hex-строку в пакете, при встрече с которой сработает правило.
Одним словом если забудете синтаксис написания правила, то
iptables -m имя_модуля --help

Удачи.

Goblin Shi'k L'Grubbr
Сообщения: 49
Зарегистрирован: Ср окт 20, 2004 12:50
Контактная информация:

Сообщение Goblin Shi'k L'Grubbr »

Junior писал(а):Зачем изобретать велосипед и дополнительно загружать систему?
Всё это можно сделать силами iptables, если установлен Linux.
Что требуется, так это пересобрать iptables + patch-o-matic-ng
с дополнительным модулем string. И через него задать фильтрование
контента.
А если не Linux, а FreeBSD?

Один хрен ты собираешься добавлять какие-то дополнительные модули, а значит дополнительно "нагружать" систему.

К тому же при среднесуточной загрузке в 0,4% и пиковой 3,5%, если я немного и "подгружу" свою систему, то она это как-то переживет. :-)

В общем, когда поставлю -- поделюсь впечатлениями. Надеюсь это будет скоро...

Ответить