|
Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Теория - Сравнение на схожесть текста и записи из БД |
|
Теория - Сравнение на схожесть текста и записи из БД
|
Новый участник Сообщения: 1 |
Профиль | Сайт | Отправить PM | Цитировать Здравствуйте уважаемые пользователи форума. Возникла задача в реализации системы сравнения текстов на схожесть, иными словами на предмет плагиата. Реализация системы на php, хранение данных в БД MySQL. Принцип работы заключается в следующем, пользователь открывает страницу и в диалоге загрузки файла на сервер выбирает *.doc файл и загружает его на сервер. Система проводит операции над содержимым doc-файла (очистка от лишних символов, стоп-слов и прочее) записывает результат в базу и проверяет с уже существующими записями в базе на предмет их схожести. Результат сравнения выводится на той же странице. Может быть, так, что текст внутри doc файла может быть заимствован из нескольких источников, и записи о них могут храниться в базе. В записях также указывается и автор текста. Нужно чтобы результат имел вид - "Загруженный файл имеет схожесть с (перечисление записей в базе, которые имеют схожесть) авторами которых являются (перечисление авторов текстов в записях)". Возможно ли такое реализовать? Как реализовать такую идею? С чего начать? Хотелось бы выслушать ваше мнение, советы, или ссылки на что то полезное в этом направлении, реализации отдельных моментов, все, что может быть полезным. Спасибо заранее.
|
|
Отправлено: 01:48, 15-10-2013 |
Необычный Сообщения: 4463
|
Профиль | Сайт | Отправить PM | Цитировать kibis_92@vk, перво наперво сесть подумать.
Причем подумать не на языке php и MySQL, а на собственно представлении этого процесса. Принцип работы надо уточнять и кристаллизовать. Полезно задать себе несколько вопросов. Например: Вы умеете работать с doc файлом? Почему не rtf и не plain text? У вас есть текстовая база, удобная для индексирования? Мне знакома работа с библиотечным фондом? Мне знакома работа с поисковыми и индексирующими, кеширующими алгоритмами? Мне знакома работа с катологизаторами / ссылочными аппаратами? Например УДК. Какие источники информации мне доступны в данной области? Имеется ввиду доступ к полнотекстовым библиотекам. Знаю ли я процессы загрузки файлов на сервер? -- Поломайте пока голову над этими вопросами. Потом я попробую подсказать пару ответов. |
------- Отправлено: 08:51, 15-10-2013 | #2 |
Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети. Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля. |
Ветеран Сообщения: 1404
|
Профиль | Отправить PM | Цитировать Наверное начать нужно с изучения алгоритмов архивирования (zip, rar и т.п. - вроде бы есть специализированный ресурс, интернет-сайт по программированию архиваторов) . Так как задача сводится к поиску совпадающих последовательностей. Чем больше совпадающих последовательностей, тем больше схожесть.
|
------- Отправлено: 18:40, 17-10-2013 | #3 |
Ветеран Сообщения: 1810
|
Профиль | Отправить PM | Цитировать 1) Имеющаяся база данных по файлам по определению не может быть всеобъемлющей. Если чувак передрал все с неоцифрованной книги, скажем, 1910 г. издания, это никогда не просечь.
2) Если люди, контролирующие плагиат, настолько мелко плавают, то я всегда надеру их как сидорову козу. |
Отправлено: 15:15, 18-10-2013 | #4 |
Необычный Сообщения: 4463
|
Профиль | Сайт | Отправить PM | Цитировать XPEHOMETP, они могут сделать обратный фокус. Во первых издания 1910 г. надо найти. Во вторых это не может быть единственным источником информации. Если по некоторой проблеме не было публикаций свыше 10-15 лет, то очень подозрительно, и вызовет массу ненужных вопросов. Т.е. "пользуйтесь актуальной литературой". Таким же образом можно проверять фиктивные ссылки "для количества" или вовсе ложные.
|
|
------- Отправлено: 15:39, 18-10-2013 | #5 |
Ветеран Сообщения: 27449
|
Профиль | Отправить PM | Цитировать Цитата XPEHOMETP:
|
|
Отправлено: 16:21, 18-10-2013 | #6 |
Ветеран Сообщения: 1810
|
Профиль | Отправить PM | Цитировать Цитата Iska:
Но это не имеет отношения к вопросу данной темы. |
|
Отправлено: 12:12, 19-10-2013 | #7 |
Ветеран Сообщения: 27449
|
Профиль | Отправить PM | Цитировать Не в том дело, коллега. Это Вы лазаете, что-то ищете, что-то пытаетесь осмыслить, изыскиваете литературу в бумажном исполнении и изучаете.
В классическом же варианте всё куда проще: никто не занимается оцифровкой, дёргают уже из готовых к употреблению источников. |
Отправлено: 14:40, 19-10-2013 | #8 |
Участник сейчас на форуме | Участник вне форума | Автор темы | Сообщение прикреплено |
| |||||
Название темы | Автор | Информация о форуме | Ответов | Последнее сообщение | |
Схожесть GF 2x0 и 4x0 | J7BXA | Видеокарты | 4 | 19-06-2011 23:09 | |
При записи в БД странная ошибка | venuko | Вебмастеру | 4 | 13-10-2010 04:51 | |
[решено] Удалить все символы Enter (переход на след строку) из текста | sashadeg | AutoIt | 9 | 07-02-2010 05:29 | |
[решено] Сравнение ячеек в БД (SQL или access) | sidorova | Программирование и базы данных | 12 | 27-08-2006 13:21 | |
Сравнение матерей из разных ценовых категорий | vadimiron | Материнские платы и память | 11 | 07-01-2005 23:03 |
|