|
Компьютерный форум OSzone.net » Компьютеры + Интернет » Вебмастеру » Определение "пустословного" поста. Алгоритмы. Мысли. |
|
|
Определение "пустословного" поста. Алгоритмы. Мысли.
|
Engrossed by the Void Сообщения: 2229 |
Профиль | Отправить PM | Цитировать Сабж. Ввиду ограничения на длину оного развиваю мысль - есть некая форма, основная ее задача дать посетителю возможность оставить сообщение: задать вопрос, отослать пожелание, ответить в данном топике и т. п.. Теперь представьте себе, что я шутки ради напиш скрипт который будет вызывать другой скрипт, скрипт обработки этой некой формы с такими данными, что загажу хранилище данных (БД, файл или что-либо другое). Посты могут быть от бессмысленного "123", "gdfgdfgdfgdfgdf", "qwerty" и т. д. до рандомно генерируемого текста длиной "до сколько надо". В общем напишу флудер под конкретную форму.
Мне интересны ваши мысли по поводу отсева такого рода сообщений. Лично мне видится некая функция которая должна возвращать ненадежность строки, скажем в процентах. В самой функции есть некоторое количество тестов которым входящая строка последовательно подвергается. После прохождения всех тестов результаты тестов анализируются и выдается оценка этой строке. Какие тесты можно было бы предложить? Длина? (наврядли можно сказать что-либо вразумительное одним символом, а в зависимости от темы формы и N символами). Анализ семантики? (ошибочные сочетания допустимого набора символов) Статистика символов? (не может же вопрос состоять из одних согласных, так?) В общем мне бы было интересно услышать ваши мнения, господа. PS Если данный вопрос уже решен кем-либо (злой ведь вопрос, не так ли?), то ссылкам буду рад как ребенок . |
|
------- Отправлено: 17:54, 30-05-2004 |
Ночной странник Сообщения: 4050
|
Профиль | Сайт | Отправить PM | Цитировать Prisoner
для этого в бвзе есть дополнительная информачия о записи например IP зная IP нарушителя элементарно можно удалить весь флуд... |
------- Отправлено: 19:40, 30-05-2004 | #2 |
Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети. Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля. |
Engrossed by the Void Сообщения: 2229
|
Профиль | Отправить PM | Цитировать В соседнем топике как раз и идет обсуждение проблемы выявления реального ипа. Но да не в этом даже дело (всегда можно из имеющихся квазиуникальных данных организовать что-нибудь "более" уникальное ). Это несколько другой метод - то, о чем ты говоришь. Мне интересен механизм обнаружения таких постов до добавления их в хранилище.
Или же опять, из соображения, что все системы не совершенны, выставление таким постам статуса ненадежных. В общем нужно организовать такую же проверку как это делают спам фильтры на основе имеющихся данных о спаме и не спаме. Различие тут в том, что привязывать к имеющимся данным как раз и хочется. |
------- Отправлено: 20:06, 30-05-2004 | #3 |
Ночной странник Сообщения: 4050
|
Профиль | Сайт | Отправить PM | Цитировать Prisoner
1) можно смотреть на посты пришедшие с одного ip и сравнивать их. 2) можно смотреть на регулярность посылки постов. 3) можно смотреть в какую тему посты добавляются. |
------- Отправлено: 20:43, 30-05-2004 | #4 |
Ветеран Сообщения: 1864
|
Профиль | Отправить PM | Цитировать 1)Самое простое и известное против флуда, эту не допускать ввод одного и того же сообщения (здесь я ничего нового не открыл )
2) Следущая мысль: можно попробывать создать Лексический анализатор, например туда могут быть включены такие моменты -не допускать буквосочетания, состоящие из знаков, которые находятся рядом друг с другом на клавиатуре(например последовательно, как qwerty) (здесь также можно почитать литературу по принципам размещения знаков на клавиатуре) -запрещать буквосочетания, которые не могут встречатся в языке(например яы, чя, жш и так далее) (здесь также можно почитать литературу по русскому языку (по теории русского языка) или какого то другого) -запрещать слишком большой процент числовых знаков от общего количества знаков (но если форум например по математике, такое не пройдёт) И в результате высчитываем сколько процентов берут на себя подобные знакосочетания, и если процент слишком велик, скорей всего данное сообщение недоброкачественное Пока больше идей нет, появятся, сразу напишу, тема интересная |
|
------- Отправлено: 21:25, 30-05-2004 | #5 |
Engrossed by the Void Сообщения: 2229
|
Профиль | Отправить PM | Цитировать Vlad Drakula
Оки, будем контраргументировать. 1) Беда в том, что сложно ручаться, что ип достоверен. Хороши мы быдем если кто-то подменив ип нагадил, а мы метлой вынесли и все нормальные посты с этого ипа. Это конечно несколько компенсируется мыслью (2), но все же мне представляется сомнительным использование для этого дела ипа. 2)Регулярность мысль конечно увлекательная. Можно исходить из определения флуда как множества сообщений в еденицу вермени и на этом факте рубить сообщения. Но меня увлекает идея абстрагирования - хочется не привлекать никаких данных кроме самого поста. 3) А если тема одна? Линейка - гостевая. опять-таки общий ворос. vadimiron 1) А если не запрещать? Ведь не запрещено же тебе тут постить больше одного раза в год? 2) Эта мысль уже гораздо забавнее ибо позволяет решать вопрос в общем. Правда отсеивать она будет либо лажу, либо НЕлажу, но лажово написанную с точки зрения орфографии (глядите в вы нам писАли ), но это кстати, даже лучше... имхо. |
------- Отправлено: 22:27, 30-05-2004 | #6 |
just mar Сообщения: 3904
|
Профиль | Отправить PM | Цитировать Vlad Drakula
есть такое небезизвестное место на свете - Санкт-Петербургский государственный университет называется. Так вот там (по крайней мере в Василиостровской части) целая куча народу, а часто и подразделений будет идентифицироваться, как один ip. (про отсев внутренних уже писалось) И что-то мне подсказывает, что не токмо там vadimiron идея лексического анализатора мне нравится. По идее анализ должен сопрягаться с принципами, по которым работают антиспамерские анализаторы. Можно даже попробовать что-нибудь самообучающееся придумать. Но замедлять работу это все будет безбожно по мере роста словаря анализатора Цитата:
Цитата:
А вообще, задача интересная, но на практике неблагодарная (сугубое ихмо) Равно как и (ихмо опять же) не слишком перспективны всякие идеи антимата. Добавлено: кстати, а если я напишу флудер, который будет брать (хоть из библиотеки Мошкова) куски вполне осмысленного текста и заливать его в форму? Ну вот "война и мир" в нарезке, например. Тут лексический анализатор не очень поможет. Хм. Кажется алгоритм флуда мне дался легче, чем антифлуда ) |
||
Отправлено: 23:41, 30-05-2004 | #7 |
Engrossed by the Void Сообщения: 2229
|
Профиль | Отправить PM | Цитировать Опа... кстати удалось на славу. Идея анализатора мне тоже нравится, в общем-то к идее неполного анализатора я и вел, но вот кстати меня несколько остудило. Скорее всего придется применять еще и методы предложенные Владом. Гибридный анализ то есть.
А еще какие подводные камни приходят в ваши умные головы? |
------- Отправлено: 02:12, 31-05-2004 | #8 |
Ночной странник Сообщения: 4050
|
Профиль | Сайт | Отправить PM | Цитировать буду комментировать всех сразу:
1) выносить нужно не только по IP но и по дате, а если это форум, то и по пользователю. 2) лексический аналиж это не очень простое дело, вот вы говорите взять и про анализоровать, а вы хорошо себе это представляете? вы представляете структуру анализатора, регулярные выражения которые вы собираетесь применять, время на это нужное??? дело в том что такая защита нужна на форумах гда много поситителей. раз много поситителей то значит много нагрузки на сервер, а вы хотите взять и вот так разом увеличить нагрузку в разы... это означает одно - смену сервера на более мошьный! |
------- Отправлено: 20:17, 31-05-2004 | #9 |
Engrossed by the Void Сообщения: 2229
|
Профиль | Отправить PM | Цитировать Хм, ну оки. Оставим пока такие высоты как анализатор. Какие недостатки вы видите в наборе тестов? Как уже реализовать его в языке не суть важно... Каждый тест имеет свой вес который потом учитывается в выдаче вердикта.
|
------- Отправлено: 04:46, 04-06-2004 | #10 |
|
Участник сейчас на форуме | Участник вне форума | Автор темы | Сообщение прикреплено |
| |||||
Название темы | Автор | Информация о форуме | Ответов | Последнее сообщение | |
Интерфейс - [решено] Как удалить папку "Моя музыка","Мои Картинки", "Мое видео"? | verdix | Microsoft Windows 2000/XP | 3 | 03-10-2009 23:46 | |
Debian/Ubuntu - [решено] Пропали кнопки "свернуть","закрыть","во весь екран" в папках | Alex.sys | Общий по Linux | 5 | 02-04-2009 11:13 | |
[решено] При редактировании поста пропадает отметка "Полезное сообщение". | Oleg_SK | О сайте и форуме | 0 | 15-08-2007 14:03 | |
Приоритет в диспетчере: "реального времени", "средний", "выше среднего" | alhimik PC | Хочу все знать | 3 | 28-11-2006 05:29 | |
Запретить/удалить пункт "Programs" ("Программы") из меню кнопки "Start" ("Пуск") | submaster | Microsoft Windows NT/2000/2003 | 5 | 13-09-2006 12:29 |
|