|
Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Теория - [решено] Спарсить содержание журнала регулярными выражениями из txt-файла (PHP) |
|
Теория - [решено] Спарсить содержание журнала регулярными выражениями из txt-файла (PHP)
|
Новый участник Сообщения: 44 |
Профиль | Отправить PM | Цитировать Доброго времени суток!
Никак не могу разобраться с регулярными выражениями для следующей задачи. Есть содержание большого журнала (сборника статей) в текстовом файле. Из него нужно выдернуть название статьи, авторов и номера страниц (её начало и конц). Но в начале нужно текст содержания привести в порядок и убрать из него все лишнее. Так выглядит содержание Нужно составить правило для разбора каждой строки: Если первое в строке стоит число затем Пробел и затем Заглавная буква то это начало статьи Иначе, если строка НЕ стоит из одних заглавных букв (отсекаем название заголовка новой темы) то это продолжение названия статьи. Далее склеиваем начало статьи с продолжением и помещаем в массив для дальнейшей обработки. Составил регулярное выражение для первого условия: регулярное выражение для второго условия: Парсинг текст делаю на PHP. Получилось следующее:
Результат Вроде бы и работает. НО почему Заголовок темы определяется как продолжение названия статьи, второе правило не работает? |
|
Отправлено: 09:53, 14-09-2013 |
Новый участник Сообщения: 44
|
Профиль | Отправить PM | Цитировать Разобрался сам.
регулярное выражение для второго условия: Плюс, проблема была с разными кодировками, в файле была Win-1251, а в скрипте UTF-8. Поставил везде одинаковую кодировку, с помощью блокнота++. Теперь все работает, осталось только разобрать строки на составные части. |
Отправлено: 16:45, 14-09-2013 | #2 |
Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети. Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля. |
Участник сейчас на форуме | Участник вне форума | Автор темы | Сообщение прикреплено |
| |||||
Название темы | Автор | Информация о форуме | Ответов | Последнее сообщение | |
CMD/BAT - [решено] Спарсить данные из txt | nfs98 | Скриптовые языки администрирования Windows | 2 | 12-09-2013 17:19 | |
CMD/BAT - Найти txt файл по имени и заменить содержание файла на мой текст! | Fresenius | Скриптовые языки администрирования Windows | 5 | 21-11-2012 08:49 | |
CMD/BAT - пакетное конвертирование с регулярными выражениями | Fannylife1989 | Скриптовые языки администрирования Windows | 15 | 05-12-2010 17:06 | |
CMD/BAT - [решено] Вывод содержание файла из интернета ??? | men232 | Скриптовые языки администрирования Windows | 4 | 26-10-2010 09:29 | |
Помогите разобраться с регулярными выражениями | pingUIN | Хочу все знать | 2 | 31-01-2007 12:26 |
|