Страница 1 из 2

Вопрос/предложение по проверке контекста.

Добавлено: Сб мар 05, 2005 12:16
LuckyBird
У можно ли осуществить такую вещь, как проверку сайта по ключеывм словам на содержимое, и дальнейшую класификаию сайта ?
К примеру создаются зоны - нормальные сайты, под вопросом, и порно сайты.
то есть зоходит пользователь на сайт - rejik проверяет сайт к примеру на вхождение в контент сайта, в заголовки оперделённых слов - к примеру porno - и в соответствии от этого перемещать сайт в соответствующую зону. Если не понятно какой сайт - он перемеает его в зону под вопросом
, и потом администратор сам решает что с ним делать.

Нечно подобное сделано под isa сервер - surfcontrol web filtering.

Re: Вопрос/предложение по проверке контекста.

Добавлено: Сб мар 05, 2005 12:31
Slava
LuckyBird писал(а):У можно ли осуществить такую вещь, как проверку сайта по ключеывм словам на содержимое, и дальнейшую класификаию сайта ?
К примеру создаются зоны - нормальные сайты, под вопросом, и порно сайты.
то есть зоходит пользователь на сайт - rejik проверяет сайт к примеру на вхождение в контент сайта, в заголовки оперделённых слов - к примеру porno - и в соответствии от этого перемещать сайт в соответствующую зону. Если не понятно какой сайт - он перемеает его в зону под вопросом
, и потом администратор сам решает что с ним делать.

Нечно подобное сделано под isa сервер - surfcontrol web filtering.
Правильно ли я понял задачу: Вы хотите анализировать все сайты, посещаемые пользователями сквида на наличии в урле неких слов, типа "porno", для того, что бы админ проверил их вручную и при необходимости добавил в бан-листы?

Если так, то на самом деле в никсах все это можно сделать стандартными средствами, поискав в логе сквида, например так:
cat access.log | grep porno >porno.txt

Немного не то

Добавлено: Сб мар 05, 2005 12:52
LuckyBird
1) как упрощённый вариант -да.
Режик же всё равно просматривает access.log - может бы заодно динамически и создавал файл к примеру porno.txt
в ткотором бы находились чистые ссылки - то есть squiдовый мусор убирали - помоему это несложно сделать.

2) Многие сайты не несут в названии слов porno или sex - так что их такм образом не выцепить.
Но в тексте html содержаться слова, проанализировав которые можно принять соответствующее решение.

Re: Немного не то

Добавлено: Сб мар 05, 2005 13:52
Slava
LuckyBird писал(а):1) как упрощённый вариант -да.
Режик же всё равно просматривает access.log - может бы заодно динамически и создавал файл к примеру porno.txt
в ткотором бы находились чистые ссылки - то есть squiдовый мусор убирали - помоему это несложно сделать.
Нет, режик не просматривает access.log.
По идее можно сделать, но стоит ли тормозить редиректор этой функцией, если того же результата можно добиться анализом лога сквиды?
LuckyBird писал(а): 2) Многие сайты не несут в названии слов porno или sex - так что их такм образом не выцепить.
Но в тексте html содержаться слова, проанализировав которые можно принять соответствующее решение.
Нет, режик на это не способен, так как не получает содержимого скачанного объекта, а только его урл.
Если только заставить режик качать эти объекты самостоятельно и затем отдавать пользователю, но это уже будет не совсем редиректор.

Добавлено: Сб мар 05, 2005 14:39
LuckyBird
2) Просто такого под сквид на данный момент не существет, по моему мнению это очень удобно - я раньше использовал surfcontrol - очень удобно.
Можно написать как модуль - всё равно всё проходит через сквид - может быть можно анализировать странички из спула сквида, чтобы не грузитьпо 2 раза :?

Добавлено: Сб мар 05, 2005 15:00
Slava
LuckyBird писал(а):2) Просто такого под сквид на данный момент не существет, по моему мнению это очень удобно - я раньше использовал surfcontrol - очень удобно.
Можно написать как модуль - всё равно всё проходит через сквид - может быть можно анализировать странички из спула сквида, чтобы не грузитьпо 2 раза :?
Да, это можно сделать. достаточно просто, хотя и не слишком быстро будет работать.
Я раньше делал что-то подобное, вытаскивал все картинки, размером больше дцать килобайт. Картинки специальным образом именовались.
Потом просматривал их и порнушные складывал в отдельную папку. После, по именам этих картинок составлялся дополнительный список для блокировки.

В день, таким способом, удавалось пополнить список на 1000 новых правил.

Но сейчас есть уже набор из двухсот тысяч правил, их только надо проверить, что мне кажется проще, чем анализировать скаченое...

Если Perl знаете, могу выложить мои старые скрипты, правда давно это было, и чего-то там наверное нуждается в доработке, а времени на это у меня сейчас нет.

А может быть предложить...

Добавлено: Сб мар 05, 2005 15:14
LuckyBird
желающим писать одельные модули для наращивания функциональности программы ?
Например кто -хочет напишет этот модуль, а в настройках режика указать
модуль ?
как в FAR :)))

Re: А может быть предложить...

Добавлено: Сб мар 05, 2005 15:27
Slava
LuckyBird писал(а):желающим писать одельные модули для наращивания функциональности программы ?
Например кто -хочет напишет этот модуль, а в настройках режика указать
модуль ?
как в FAR :)))
В принципе, это можно будет получить, как только в режике можно будет подключать еще один редиректор.

Правда на мой взгляд, это не совсем модульная архитектура, точнее говоря, мне кажется, что будут избыточными связи между модулями и отдельные процессы под каждый модуль.
С другой стороны, это достаточно просто.

Добавлено: Сб мар 05, 2005 16:22
LuckyBird
Но ведь каждый день открываются новые сайты.
Вот к примеру у нас в сетке пользователи переодически ходят на различные порно ресурсы. Чтобы посмотреть какие ресрсы они посещают - я смотрю логи сарга и отслеживаю нежелательные сайты. Я думаю этот модуль пригодился бы - его моджно переодически включать для отслежиывания нежелательных посещений.

Может тогда я поробую написать такой модуль ?
Тлько надо perl подучить :)

Добавлено: Сб мар 05, 2005 16:26
Slava
LuckyBird писал(а):Но ведь каждый день открываются новые сайты.
Вот к примеру у нас в сетке пользователи переодически ходят на различные порно ресурсы. Чтобы посмотреть какие ресрсы они посещают - я смотрю логи сарга и отслеживаю нежелательные сайты. Я думаю этот модуль пригодился бы - его моджно переодически включать для отслежиывания нежелательных посещений.

Может тогда я поробую написать такой модуль ?
Тлько надо perl подучить :)
Да, конечно, пишите, думаю, общественность будет вам благодарна :)

Добавлено: Пт апр 08, 2005 17:32
Goblin Shi'k L'Grubbr
Есть прикольная штука -- фильтрующие прокси:
http://www.privoxy.org/, http://webcleaner.sourceforge.net/ и другие. Ставишь на входе и сквид получает уже "обработанную" страницу. Я попробовал только privoxy, фильтры даже не настраивал. Из восьми банеров шесть были "убиты" privoxy. Оставшиеся два "добил" РЕЖИК. :))

Во втором есть возможность подключение clamav для проверки входящих файлов.

Подробнее ничего сказать не могу -- нет времени заняться ими плотнее.

Да, интересная программа, надо покрутить.

Добавлено: Пт апр 15, 2005 9:41
LuckyBird
главное чтобы не тормозила :)

Добавлено: Ср май 04, 2005 13:06
Goblin Shi'k L'Grubbr
Тормозов быть не должно. Хотя 100% утверждать не берусь, но это же не кэш! Во всяком случае, когда я пробовал privoxy с его стандартными настройками, никаких тормозов замечено не было. А убрал потому, что хочу попробовать еще и антивирус прикрутить.

Если я правильно понимаю, то фильтрующий прокси просматривает и обрабатывает (меняет текст ХТМЛ!) только текстовые файлы, а картинки и др. идут "сквозняком". Даже шел-скриптом с тремя десятками команд средний ХТМЛ-файлик в 50 кб будет обрабатываться милисекунды. А на закачку среднего банера в 20 кб, с учетом времени запроса, уйдет 2 секунды минимум. Таким образом, все что будет "убито" дает "прирост" в скорости, многократно компенсирующий время затраченное на "убийство".

Опять же, если сквид получает уже обработанную страницу, то и от юзера "плохие" запросы не поступают, значит, и сквид, и редиректор уже не будут тратить на них время, а это тоже плюс к общей скорости!

Добавлено: Чт май 05, 2005 14:09
Junior
Зачем изобретать велосипед и дополнительно загружать систему?
Всё это можно сделать силами iptables, если установлен Linux.
Что требуется, так это пересобрать iptables + patch-o-matic-ng
с дополнительным модулем string. И через него задать фильтрование
контента.
Например:
iptables -A INPUT -i eth0 -p tcp -m multiport --dport 80,81,8080,8008,443,8000,3128 -m string --string porno -m comment --comment "Porno rule" -j REJECT

В данном примере использованы ещё два модуля. которые также можно включить при компиляции. Один даёт возможность делать перечисление портов (до 15 портов), а другой добавляет комментарий к правилу, чтобы его можно было легко отыскать при выводе общей таблицы правил (iptables -nL -v).
Также можно добавить IP- или MAC-адрес источника, чтобы разграничивать влияние правила, одному можно смотреть, а другому нет :))
К тому же в модуле string есть возможность задать hex-строку в пакете, при встрече с которой сработает правило.
Одним словом если забудете синтаксис написания правила, то
iptables -m имя_модуля --help

Удачи.

Добавлено: Пн май 30, 2005 19:34
Goblin Shi'k L'Grubbr
Junior писал(а):Зачем изобретать велосипед и дополнительно загружать систему?
Всё это можно сделать силами iptables, если установлен Linux.
Что требуется, так это пересобрать iptables + patch-o-matic-ng
с дополнительным модулем string. И через него задать фильтрование
контента.
А если не Linux, а FreeBSD?

Один хрен ты собираешься добавлять какие-то дополнительные модули, а значит дополнительно "нагружать" систему.

К тому же при среднесуточной загрузке в 0,4% и пиковой 3,5%, если я немного и "подгружу" свою систему, то она это как-то переживет. :-)

В общем, когда поставлю -- поделюсь впечатлениями. Надеюсь это будет скоро...