Как формируется лист для AdBlock Plus?

Обсуждение распределенного бан-листа
xelablin
Сообщения: 16
Зарегистрирован: Вт апр 06, 2010 12:10

Как формируется лист для AdBlock Plus?

Сообщение xelablin »

Я так понимаю формируется слиянием правил из urls и pcre. Но не понятно от каких пользователей и с каким рейтингом. Сейчас встречаю в этом листе довольно спорные правила, которые я у себя не стал бы применять.

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Re: Как формируется лист для AdBlock Plus?

Сообщение Slava »

Да, слиянием urls и pcre.
Рейтинг правила=сумма рейтинга пользователей, давших ответ "да" - сумма рейтинга пользователей, давших ответ "нет"
Если рейтинг правила больше 300, то оно проходит в лист adblock.

Попробуйте посчитать для спорных правил или проставьте в dbl_expand:
$min_trust=300;
@good_guys=();
@bad_guys=();
Должен получится такой же список.

Приведите пример спорных правил.

xelablin
Сообщения: 16
Зарегистрирован: Вт апр 06, 2010 12:10

Re: Как формируется лист для AdBlock Plus?

Сообщение xelablin »

Большинство подобных урл (из текущего листа):

volgograd.kp.ru/upimg/3dbcf1e95a9df2bc3cfa526f880f3a43063654af/177293.gif
i6.fastpic.ru/big/2010/0503/d5/1758b8d5ece48be18bcda5a3d4e161d5.png
i1.hypo.ufanet.ru/02/020a1c3d8efc3d759332918d37db65d9.jpg
...
Также в этом листе есть непроверенные правила, которые блокируют вместе с баннерами и вообще изображения на сайте (их, конечно, не так много, но все-таки они есть).

Сейчас, удаляя неверные правила для urls, обратил внимание, что довольно много попадается правил такого типа: domen.ru/bla/*.swf
конечно для urls такие правила не подходят, их надо либо перемещать в pcre (что не есть гуд), либо совсем удалять.
Но с другой стороны такие правила хорошо подходят для Adblock.

Подводя итог всему выше написанному, возникает вопрос - не пора ли сделать отдельную группу в DBL для Adblock?

xelablin
Сообщения: 16
Зарегистрирован: Вт апр 06, 2010 12:10

Re: Как формируется лист для AdBlock Plus?

Сообщение xelablin »

Кстати, вот нашел правило: cheb.ru/img - блокирует и рекламу и обычные изображения. В данном случае очень подходит правило: cheb.ru/img/*.swf

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Re: Как формируется лист для AdBlock Plus?

Сообщение Slava »

xelablin писал(а):Большинство подобных урл (из текущего листа):

volgograd.kp.ru/upimg/3dbcf1e95a9df2bc3cfa526f880f3a43063654af/177293.gif

Код: Выделить всё

 <record id="391148">                                                                                                                                     
   <rule>volgograd.kp.ru/upimg/3dbcf1e95a9df2bc3cfa526f880f3a43063654af/177293.gif</rule>                                                                 
   <group>banner.urls</group>                                                                                                                             
    <add>                                                                                                                                                 
      <timestamp>2009-03-02 14:41:38</timestamp>                                                                                                          
      <user>coltel</user>                                                                                                                                 
      <answer>Yes</answer>                                                                                                                                
      <reason>http://www.kp.ru/</reason>                                                                                                                  
    </add>                                                                                                                                                
    <check>                                                                                                                                               
      <timestamp>2009-03-14 01:58:01</timestamp>                                                                                                          
      <user>ado</user>                                                                                                                                    
      <answer>Yes</answer>                                                                                                                                
    </check>                                                                                                                                              
    <check>                                                                                                                                               
      <timestamp>2010-04-02 13:05:01</timestamp>                                                                                                          
      <user>xelablin</user>                                                                                                                               
      <answer>No</answer>                                                                                                                                 
    </check>                                                                                                                                              
 </record>
рейтинги:
coltel 375
ado 8897
xelablin 5117

+375 +8897 -5117 = 4155 >300, правило проходит.
xelablin писал(а): i6.fastpic.ru/big/2010/0503/d5/1758b8d5ece48be18bcda5a3d4e161d5.png
i1.hypo.ufanet.ru/02/020a1c3d8efc3d759332918d37db65d9.jpg
...
аналогично - правила проходят, так как имеют высокий рейтинг.

xelablin писал(а): Также в этом листе есть непроверенные правила, которые блокируют вместе с баннерами и вообще изображения на сайте (их, конечно, не так много, но все-таки они есть).
Тут не понял, что за непроверенные правила?
xelablin писал(а): Сейчас, удаляя неверные правила для urls, обратил внимание, что довольно много попадается правил такого типа: domen.ru/bla/*.swf
конечно для urls такие правила не подходят, их надо либо перемещать в pcre (что не есть гуд), либо совсем удалять.
Им в любом случае не место в urls, надо удалять.
xelablin писал(а): Но с другой стороны такие правила хорошо подходят для Adblock.
Подводя итог всему выше написанному, возникает вопрос - не пора ли сделать отдельную группу в DBL для Adblock?
Группу сделать не проблема, проблема в том, что добавляя в urls или pcre будут забывать или не иметь желания добавлять в отдельную группу для adblock.
Данные будут раздвоены, проверять их опять же сложнее итд.

А какие преимущества от отдельной группы?
Чем она будет лучше, чем список, полученный от сливание urls и pcre группы banner?

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Re: Как формируется лист для AdBlock Plus?

Сообщение Slava »

xelablin писал(а):Кстати, вот нашел правило: cheb.ru/img - блокирует и рекламу и обычные изображения. В данном случае очень подходит правило: cheb.ru/img/*.swf
С ходу не нашел картинки, которую это правило блокирует и которая не является рекламой.
Но, если нужно только swf, то можно написать pcre правило для этого.

xelablin
Сообщения: 16
Зарегистрирован: Вт апр 06, 2010 12:10

Re: Как формируется лист для AdBlock Plus?

Сообщение xelablin »

С ходу не нашел картинки, которую это правило блокирует и которая не является рекламой.
Да, под правило cheb.ru/img больше всего попадают именно баннеры, но одна нормальная картинка вроде есть - http://www.cheb.ru/img/oldfoto.gif :-)
рейтинги:
coltel 375
ado 8897
xelablin 5117

+375 +8897 -5117 = 4155 >300, правило проходит.
То что, рейтинги не всегда соответствуют действительности, это понятно. Часто вижу что люди с довольно высоким рейтингом добавляют (добавляли) такие неадекватные правила, что задумываешься над тем, как он себе этот рейтинг сделал (и зачем). Это в частности относить и к пользователю ado, часто его проверки мне не нравятся. И обратная ситуация, человек грамотный, добавляющий приличные правила, имеет низкий рейтинг, и его правила не попадут в этот список.
Отдельный список для Adblock мне, например, на компьютере дома или у знакомых использовать лучше (удобнее получать подписку с одного сервера). Другое дело, что в том виде, какой он сейчас есть, он мне не нравиться. Нет гибких механизмов влиять на его содержимое. И редактировать его всякий раз после получения - тоже не выход. Ладно я могу его как-то исправить, но обычный пользователь, которому я сделаю эту подписку явно не сможет.
Группу сделать не проблема, проблема в том, что добавляя в urls или pcre будут забывать или не иметь желания добавлять в отдельную группу для adblock.
Данные будут раздвоены, проверять их опять же сложнее итд.
Согласен, будет сложнее, правила будут дублироваться и проч. Здесь дело наверное в том, что списки urls и pcre больше всего нужны для использования в связке прокси+rejik (чаще в организациях), а лист для Adblock - для домашнего компьютера. В этом принципиальная разница между ними. Правила, которые я бы никогда не прописал в pcre, можно смело задавать в Adblock (например, domen.ru/bla/*.swf).
Согласен, что заинтересованность пользователей в проверке этого списка будет ниже. Но, насколько я вижу, и общий DBL лист не особо часто и качественно проверяют.

xelablin
Сообщения: 16
Зарегистрирован: Вт апр 06, 2010 12:10

Re: Как формируется лист для AdBlock Plus?

Сообщение xelablin »

Могу поставить такие "глобальные" вопросы:
- что-то надо делать с системой рейтингов - кто-то должен проверять "проверяющих";
- создать более гибкий механизм формирования листа для AdBlock.

xelablin
Сообщения: 16
Зарегистрирован: Вт апр 06, 2010 12:10

Re: Как формируется лист для AdBlock Plus?

Сообщение xelablin »

Вот типичный пример проверки:
<record id="313575">
<rule>ediet\.ru\/bb\/.*\.(gif|jpg)</rule>
<group>banner.urls</group> <add>
<timestamp>2005-03-19 04:38:36</timestamp>
<user>vasilyvz</user>
<answer>Yes</answer>
<reason>mybeauty.ru</reason>
</add>
<check>
<timestamp>2008-05-11 23:14:00</timestamp>
<user>ado</user>
<answer>Yes</answer>
</check>
<check>
<timestamp>2010-04-02 16:02:32</timestamp>
<user>xelablin</user>
<answer>No</answer>
</check>
</record>

Уж не зна, ошибся ли пользователь "vasilyvz" со списком, может он и хотел давить правило в pcre, но пользователь "ado", явно делал проверку "не глядя" (либо, что еще хуже, не понимая).

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Re: Как формируется лист для AdBlock Plus?

Сообщение Slava »

К сожалению, ответов на эти вопросы пока нет.
Могу только порадовать, что dbl изначально планировалась как гибкая система, по этому, на выходе мы имеем список проверок пользователей, а не готовый бан лист.
Его можно по разному интерпретировать, например, занижать рейтинг голоса, в зависимости от давности голосования.

xelablin писал(а):Могу поставить такие "глобальные" вопросы:
- что-то надо делать с системой рейтингов - кто-то должен проверять "проверяющих";
- создать более гибкий механизм формирования листа для AdBlock.

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Re: Как формируется лист для AdBlock Plus?

Сообщение Slava »

Хороший пример, яркий.

Я бы разбил ошибки пользователей на группы:
1. Очевидные ошибки (как в примере, в urls не должно быть регулярных выражений)
2. Неочевидные ошибки (скажем голос, за несуществующий сайт или неправильный ответ, месяц назад. Что там было месяц назад - не известно.).

В принципе, просится разбитие на умышленные и неумышленные ошибки, но даже в данном примере, есть вероятность, что пользователь неумышленно промахнулся по кнопке.

Но это лирика, на вопрос "что делать", думаю, ответ простой - штрафовать.
Скажем, уменьшать рейтинг на 100 за очевидную ошибку.
xelablin писал(а):Вот типичный пример проверки:
<record id="313575">
<rule>ediet\.ru\/bb\/.*\.(gif|jpg)</rule>
<group>banner.urls</group> <add>
<timestamp>2005-03-19 04:38:36</timestamp>
<user>vasilyvz</user>
<answer>Yes</answer>
<reason>mybeauty.ru</reason>
</add>
<check>
<timestamp>2008-05-11 23:14:00</timestamp>
<user>ado</user>
<answer>Yes</answer>
</check>
<check>
<timestamp>2010-04-02 16:02:32</timestamp>
<user>xelablin</user>
<answer>No</answer>
</check>
</record>

Уж не зна, ошибся ли пользователь "vasilyvz" со списком, может он и хотел давить правило в pcre, но пользователь "ado", явно делал проверку "не глядя" (либо, что еще хуже, не понимая).

xelablin
Сообщения: 16
Зарегистрирован: Вт апр 06, 2010 12:10

Re: Как формируется лист для AdBlock Plus?

Сообщение xelablin »

Но это лирика, на вопрос "что делать", думаю, ответ простой - штрафовать.
Скажем, уменьшать рейтинг на 100 за очевидную ошибку.
Согласен, система штрафов не помешала бы. Но с любого пользователя снимать 100 думаю не стоит, лучше от 10 до 100 (может даже больше) в зависимости от рейтинга. Скажем так 10% (5%) от рейтинга пользователя.
Также от себя хочу добавить, что неплохо было бы усложнить контрольные правила в листах для проверках. Сейчас большинство из них довольно очевидные (для листа banner.urls - это либо нейтральные сайты, без проверочного урл - ответ "Нет", либо кнопки с сайтов - ответ "Да" - их распознать сложнее, но все-таки можно, некоторые из них очень часто встречаются). Предлагаю внести в контрольные правила явно ошибочные правила - при проверки urls добавлять правила с регулярными выражениями, ошибками в доменах и проч. - с ответом "нет". Также за основу можно брать старые контрольные правила с ответом "Да" (например, 100news.ru/0/100newsRu468x60.gif ) и изменять в них либо домен, либо имя файла случайным образом (100news.ru/0/100newsRu468x60_12312.gif). Таким образом можно будет проверить переходит ли пользователь по этим ссылкам или отмечает "на глаз".
Также я думаю, следует уменьшить размер запрашиваемого листа для проверки. Для меня качественная проверка листа из 10 пунктов может занять длительное время. Поэтому я не запрашиваю листы больше 20. Не представляю как люди могут хорошо проверить лист из 50 - 100 позиций.

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Re: Как формируется лист для AdBlock Plus?

Сообщение Slava »

xelablin писал(а): Согласен, система штрафов не помешала бы. Но с любого пользователя снимать 100 думаю не стоит, лучше от 10 до 100 (может даже больше) в зависимости от рейтинга. Скажем так 10% (5%) от рейтинга пользователя.
Но тут, к сожалению, есть одна проблема: как находить ошибки пользователей?
По максимуму, требуется перепроверка всех проверок пользователей.
Но при этом, по приведенному Вами выше примеру, видно, что даже две проверки пользователями с высоким рейтингом могут быть ошибочны.
Лично я физически не успею перепроверять за всеми.
Остается только работать "по заявкам" о очевидно ошибочных правилах.
Но очевидных ошибок не так много, а наказывать за правило, которое пол года назад могло и работать - тоже не правильно.
Размышляя о всех таких нюансах, я и решил когда-то, что надо делать рейтинговую систему, при этом, голос пользователя является решающим, при формировании листа для этого пользователя.
Но для adblock это не работает, так как там нет привязки к запросившему пользователю.
xelablin писал(а): Также от себя хочу добавить, что неплохо было бы усложнить контрольные правила в листах для проверках. Сейчас большинство из них довольно очевидные (для листа banner.urls - это либо нейтральные сайты, без проверочного урл - ответ "Нет", либо кнопки с сайтов - ответ "Да" - их распознать сложнее, но все-таки можно, некоторые из них очень часто встречаются). Предлагаю внести в контрольные правила явно ошибочные правила - при проверки urls добавлять правила с регулярными выражениями, ошибками в доменах и проч. - с ответом "нет". Также за основу можно брать старые контрольные правила с ответом "Да" (например, 100news.ru/0/100newsRu468x60.gif ) и изменять в них либо домен, либо имя файла случайным образом (100news.ru/0/100newsRu468x60_12312.gif). Таким образом можно будет проверить переходит ли пользователь по этим ссылкам или отмечает "на глаз".
Готов принять от Вас список проверочных правил для группы банер.

xelablin писал(а): Также я думаю, следует уменьшить размер запрашиваемого листа для проверки. Для меня качественная проверка листа из 10 пунктов может занять длительное время. Поэтому я не запрашиваю листы больше 20. Не представляю как люди могут хорошо проверить лист из 50 - 100 позиций.
Слишком искусственное ограничение, если пробежал "по диагонали" большой лист, то так же пробежит и малый.

xelablin
Сообщения: 16
Зарегистрирован: Вт апр 06, 2010 12:10

Re: Как формируется лист для AdBlock Plus?

Сообщение xelablin »

Слишком искусственное ограничение, если пробежал "по диагонали" большой лист, то так же пробежит и малый.
пробежит то да, но рейтинг он себе так искусственно быстро не "накрутит".
Готов принять от Вас список проверочных правил для группы банер.
Хорошо, сформирую из ошибочных правил старого листа.

По поводу adblock. Если уж так не просто отдельный лист для него заводить, может тогда проще добавить дополнительный лист для adblock (условно назовем add_list). Общий лист для adblock будет формироваться из urls+pcre+add_list.
В add_list войдут все те правила, которые не подходят для urls, но не хотелось бы добавлять в pcre.

Slava
Site Admin
Сообщения: 2251
Зарегистрирован: Пт апр 02, 2004 12:34
Контактная информация:

Re: Как формируется лист для AdBlock Plus?

Сообщение Slava »

xelablin писал(а): По поводу adblock. Если уж так не просто отдельный лист для него заводить, может тогда проще добавить дополнительный лист для adblock (условно назовем add_list). Общий лист для adblock будет формироваться из urls+pcre+add_list.
В add_list войдут все те правила, которые не подходят для urls, но не хотелось бы добавлять в pcre.
Хорошая идея, готов добавить, но нужны исходные данные: viewtopic.php?f=2&t=258

Ответить