Цитата Jula0071:
Может, стоит начать с того, что пересмотреть способ хранения и процесс работы? Например, хранить документы в document-oriented database, или использовать object storage. »
|
Я наверное забыл уточнить, какой тип файлов у меня, что внутри этих файлов и их важность.
Начнём с того, что у меня только .txt файлы. В них содержатся данные такого вида:
Скрытый текст
-----
text1: text2
text3: text4
text5: text6
text7: text8
-----
text1: text2
text3: text4
text5: text6
text7: text8
-----
Либо такое же, только без text7: text8
Честно, я даже не знаю что именно подходит под такие задачи:
- Скачать архив
- Выгрузить
- Разархивировать архив (где около 100к папок, а в папках по 10-15 файлов)
- Найти через поиск только определённое название файла.txt
- Все найденные файлы скопировать в новую созданную папку
- Получится около 1 млн .txt файлов, с таким типом, который указан в спойлере
- Удалить все дубликатные файлы, ибо их будет очень много
- Объединить все .txt файлы в 1 .txt файл
Но уж точно никак не подходит mysql база данных под txt файлы, их удаление на дубликаты, и объединение в 1 файл.