Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Теория - Сравнение на схожесть текста и записи из БД

Ответить
Настройки темы
Теория - Сравнение на схожесть текста и записи из БД

Новый участник


Сообщения: 1
Благодарности: 0

Профиль | Сайт | Отправить PM | Цитировать


Здравствуйте уважаемые пользователи форума. Возникла задача в реализации системы сравнения текстов на схожесть, иными словами на предмет плагиата. Реализация системы на php, хранение данных в БД MySQL. Принцип работы заключается в следующем, пользователь открывает страницу и в диалоге загрузки файла на сервер выбирает *.doc файл и загружает его на сервер. Система проводит операции над содержимым doc-файла (очистка от лишних символов, стоп-слов и прочее) записывает результат в базу и проверяет с уже существующими записями в базе на предмет их схожести. Результат сравнения выводится на той же странице. Может быть, так, что текст внутри doc файла может быть заимствован из нескольких источников, и записи о них могут храниться в базе. В записях также указывается и автор текста. Нужно чтобы результат имел вид - "Загруженный файл имеет схожесть с (перечисление записей в базе, которые имеют схожесть) авторами которых являются (перечисление авторов текстов в записях)". Возможно ли такое реализовать? Как реализовать такую идею? С чего начать? Хотелось бы выслушать ваше мнение, советы, или ссылки на что то полезное в этом направлении, реализации отдельных моментов, все, что может быть полезным. Спасибо заранее.

Отправлено: 01:48, 15-10-2013

 

Аватара для lxa85

Необычный


Contributor


Сообщения: 4463
Благодарности: 994

Профиль | Сайт | Отправить PM | Цитировать


kibis_92@vk, перво наперво сесть подумать.
Причем подумать не на языке php и MySQL, а на собственно представлении этого процесса.
Принцип работы надо уточнять и кристаллизовать.
Полезно задать себе несколько вопросов.
Например:
Вы умеете работать с doc файлом? Почему не rtf и не plain text?
У вас есть текстовая база, удобная для индексирования?
Мне знакома работа с библиотечным фондом?
Мне знакома работа с поисковыми и индексирующими, кеширующими алгоритмами?
Мне знакома работа с катологизаторами / ссылочными аппаратами? Например УДК.
Какие источники информации мне доступны в данной области? Имеется ввиду доступ к полнотекстовым библиотекам.
Знаю ли я процессы загрузки файлов на сервер?
--
Поломайте пока голову над этими вопросами. Потом я попробую подсказать пару ответов.

-------
- Я не разрешаю тебе быть плохой! Потому что плохие люди совершают плохие поступки. А это нехорошо!
(Из наставлений 5 летней девочки своей младшей сестре)


Отправлено: 08:51, 15-10-2013 | #2



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Ветеран


Сообщения: 1404
Благодарности: 135

Профиль | Отправить PM | Цитировать


Наверное начать нужно с изучения алгоритмов архивирования (zip, rar и т.п. - вроде бы есть специализированный ресурс, интернет-сайт по программированию архиваторов) . Так как задача сводится к поиску совпадающих последовательностей. Чем больше совпадающих последовательностей, тем больше схожесть.

-------
Ehhh.. what's up, doc?..

Это сообщение посчитали полезным следующие участники:

Отправлено: 18:40, 17-10-2013 | #3


Ветеран


Сообщения: 1810
Благодарности: 146

Профиль | Отправить PM | Цитировать


1) Имеющаяся база данных по файлам по определению не может быть всеобъемлющей. Если чувак передрал все с неоцифрованной книги, скажем, 1910 г. издания, это никогда не просечь.
2) Если люди, контролирующие плагиат, настолько мелко плавают, то я всегда надеру их как сидорову козу.

Отправлено: 15:15, 18-10-2013 | #4


Аватара для lxa85

Необычный


Contributor


Сообщения: 4463
Благодарности: 994

Профиль | Сайт | Отправить PM | Цитировать


XPEHOMETP, они могут сделать обратный фокус. Во первых издания 1910 г. надо найти. Во вторых это не может быть единственным источником информации. Если по некоторой проблеме не было публикаций свыше 10-15 лет, то очень подозрительно, и вызовет массу ненужных вопросов. Т.е. "пользуйтесь актуальной литературой". Таким же образом можно проверять фиктивные ссылки "для количества" или вовсе ложные.

-------
- Я не разрешаю тебе быть плохой! Потому что плохие люди совершают плохие поступки. А это нехорошо!
(Из наставлений 5 летней девочки своей младшей сестре)


Отправлено: 15:39, 18-10-2013 | #5


Ветеран


Сообщения: 27449
Благодарности: 8087

Профиль | Отправить PM | Цитировать


Цитата XPEHOMETP:
Если чувак передрал все с неоцифрованной книги, скажем, 1910 г. издания, »
Вы сначала найдите идиотов, которые будут искать такие книги.

Отправлено: 16:21, 18-10-2013 | #6


Ветеран


Сообщения: 1810
Благодарности: 146

Профиль | Отправить PM | Цитировать


Цитата Iska:
Вы сначала найдите идиотов, которые будут искать такие книги. »
Конкретный ответ. Такой идиот - это я. Я вот уже лет 7-8 пытаюсь получить давно всем известную берлинскую лазурь в чистом виде. Уже что-то нащупал, по синтезу, заодно смотрел и публикации по теме. С публикациями полный ужос. Большинство, причем подавляющее - туши свет, бросай гранату. Правда, еще в 19 веке были пристойные публикации по берлинской лазури. От Берцелиуса, Гей-Люссака и Вильямсона. Дальше, пардон, пошел просто навоз, который просто читать без толку.

Но это не имеет отношения к вопросу данной темы.

Отправлено: 12:12, 19-10-2013 | #7


Ветеран


Сообщения: 27449
Благодарности: 8087

Профиль | Отправить PM | Цитировать


Не в том дело, коллега. Это Вы лазаете, что-то ищете, что-то пытаетесь осмыслить, изыскиваете литературу в бумажном исполнении и изучаете.

В классическом же варианте всё куда проще: никто не занимается оцифровкой, дёргают уже из готовых к употреблению источников.

Отправлено: 14:40, 19-10-2013 | #8



Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Теория - Сравнение на схожесть текста и записи из БД

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
Схожесть GF 2x0 и 4x0 J7BXA Видеокарты 4 19-06-2011 23:09
При записи в БД странная ошибка venuko Вебмастеру 4 13-10-2010 04:51
[решено] Удалить все символы Enter (переход на след строку) из текста sashadeg AutoIt 9 07-02-2010 05:29
[решено] Сравнение ячеек в БД (SQL или access) sidorova Программирование и базы данных 12 27-08-2006 13:21
Сравнение матерей из разных ценовых категорий vadimiron Материнские платы и память 11 07-01-2005 23:03




 
Переход