Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Железо » Накопители (SSD, HDD, USB Flash) » Разное - Нужно выбрать лучшее решение по скорости мелких файлов

Ответить
Настройки темы
Разное - Нужно выбрать лучшее решение по скорости мелких файлов

Новый участник


Сообщения: 19
Благодарности: 0

Профиль | Отправить PM | Цитировать


Изменения
Автор: quesd
Дата: 30-09-2022
Может быть не в том разделе пишу, просьба тогда перенести тему.
В общем, нужно подобрать лучшее решение которое существует на момент сентября 2022.
Задача заключается в следующем: есть очень много мелких файлов в разных папках. более 1 миллиона текстовых файлов, весом от 1 до 500 КБ. Эти файлы в разных папках находятся. Нужно найти решение, которое способно максимально быстро, насколько это возможно, архивировать эти файлы, разархивировать, копировать из всех папок, и переносить в одну. Короче обычная простая работа с файлами, казалось бы, на первый взгляд. Но нет. Скорости этих операций очень низкие. Времени очень много уходит на все эти сортировки.
Все тесты по возможности могу предоставить.
Сразу скажу, что обыденные потребительские SSD/HDD тут не особо выкручивают ситуацию по скоростям. Нужно что-то другое выбирать. Я могу ещё больше мыслей предложить на счёт этой темы, но мне хотелось бы услышать сначала экспертов/энтузиастов/инженеров/сис.админов серверов и т.д.

Прежде чем отвечать, прочитайте весь топик! А также, отвечайте развёрнуто, а не просто "Попробуй что-то".

Отправлено: 09:54, 30-09-2022

 

Забанен


Сообщения: 6345
Благодарности: 1436

Профиль | Цитировать


Цитата quesd:
архивировать эти файлы, разархивировать, копировать из всех папок, и переносить в одну. »
Может, стоит начать с того, что пересмотреть способ хранения и процесс работы? Например, хранить документы в document-oriented database, или использовать object storage.

Отправлено: 11:56, 30-09-2022 | #2



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Новый участник


Сообщения: 19
Благодарности: 0

Профиль | Отправить PM | Цитировать


Цитата Jula0071:
Может, стоит начать с того, что пересмотреть способ хранения и процесс работы? Например, хранить документы в document-oriented database, или использовать object storage. »
Я наверное забыл уточнить, какой тип файлов у меня, что внутри этих файлов и их важность.
Начнём с того, что у меня только .txt файлы. В них содержатся данные такого вида:
Скрытый текст
-----
text1: text2
text3: text4
text5: text6
text7: text8
-----
text1: text2
text3: text4
text5: text6
text7: text8
-----

Либо такое же, только без text7: text8

Честно, я даже не знаю что именно подходит под такие задачи:
  1. Скачать архив
  2. Выгрузить
  3. Разархивировать архив (где около 100к папок, а в папках по 10-15 файлов)
  4. Найти через поиск только определённое название файла.txt
  5. Все найденные файлы скопировать в новую созданную папку
  6. Получится около 1 млн .txt файлов, с таким типом, который указан в спойлере
  7. Удалить все дубликатные файлы, ибо их будет очень много
  8. Объединить все .txt файлы в 1 .txt файл

Но уж точно никак не подходит mysql база данных под txt файлы, их удаление на дубликаты, и объединение в 1 файл.

Отправлено: 14:12, 30-09-2022 | #3


Забанен


Сообщения: 6345
Благодарности: 1436

Профиль | Цитировать


Цитата quesd:
Но уж точно никак не подходит mysql база данных под txt файлы »
А кто сказал про MySQL? я сказал про
Цитата Jula0071:
document-oriented database»
Документоориентированная СУБД
NoSQL, например, mongo.

Отправлено: 14:19, 30-09-2022 | #4


Новый участник


Сообщения: 19
Благодарности: 0

Профиль | Отправить PM | Цитировать


Кроме
Цитата Jula0071:
Документоориентированная СУБД »
Цитата Jula0071:
NoSQL, например, mongo. »
Есть какие-то другие решения? И я не видел, где вы написали почему именно это рекомендуете.

Просто, мне всего лишь то надо отсортировать очень быстро, и к себе на комп скачать 1 готовый отсортированный файл из миллиона мелких файлов. Хранить мне эти миллионы файлов не нужно нигде.

Отправлено: 15:20, 30-09-2022 | #5


Забанен


Сообщения: 6345
Благодарности: 1436

Профиль | Цитировать


Цитата quesd:
Просто, мне всего лишь то надо отсортировать очень быстро, и к себе на комп скачать 1 готовый отсортированный файл из миллиона мелких файлов. »
Потому и предложил варианты с базой и объектным хранилищем. Но то канеш требует некоторых телодвижений... А быстро на обычной фс не будет никак. Ну, может, на ReiserFS 4, или на ZFS, или на btrfs. Эти файловые системы на винде не работают, если что

Отправлено: 15:42, 30-09-2022 | #6


Аватара для yurfed

Ветеран


Сообщения: 20067
Благодарности: 3128

Профиль | Отправить PM | Цитировать


quesd, есть программки быстрого поиска. Например Everything
Даёте ему проиндексироваться (это 1-2 мин).
Далее в нём поиском по простому шаблону *.txt, отмечаете все файлы, снимаете метку с ненужных и самым простым образом копируете/перемещаете отмеченные простым перетаскиванием в нужную вам папку.

-------
Хочу ли я - Могу ли я - Говно ли я - Магнолия


Отправлено: 17:36, 30-09-2022 | #7


Новый участник


Сообщения: 19
Благодарности: 0

Профиль | Отправить PM | Цитировать


Цитата Jula0071:
Потому и предложил варианты с базой и объектным хранилищем. Но то канеш требует некоторых телодвижений... »
У меня к сожалению нет опыта работы с этим. И я не знаю насколько это будет эффективно, по сравнению с NTFS например. Но я продолжаю ждать ваши новые идеи на данную тему.

Цитата yurfed:
есть программки быстрого поиска. Например Everything »
Уже знаю и пользовался этой программой. Вещь конечно хорошая, но когда требуется быстро перегонять терабайты данных, и ждать вот эту индексацию её, это занимает нереально долго. Уж на NTFS + SSD на pcie 4.0 это было примерно полдня (8-10 часов).
Да и на счёт архивирования и разархивирования терабайтов данных уж точно никак не ускорит данная программа.

Отправлено: 18:39, 30-09-2022 | #8


Ветеран


Сообщения: 2711
Благодарности: 252

Профиль | Отправить PM | Цитировать


а наличие в результате самих текстовых файлов является обязательным условием?
как понял, их содержание - это классические пары логин:пароль.
такое прекрасно впихуемо в любую бд, и это все прекрасно жмется, легко ищется, фильтруется и сортируется.
если критичен источник - вводите в бд третье поле и пишете его там.
ну и т.д.

Отправлено: 19:12, 30-09-2022 | #9


Новый участник


Сообщения: 19
Благодарности: 0

Профиль | Отправить PM | Цитировать


Цитата bredych:
а наличие в результате самих текстовых файлов является обязательным условием?
как понял, их содержание - это классические пары логин:пароль.
такое прекрасно впихуемо в любую бд, и это все прекрасно жмется, легко ищется, фильтруется и сортируется.
если критичен источник - вводите в бд третье поле и пишете его там.
ну и т.д. »
Если даже и так, то каким образом мне создать базу данных, если у меня в архиве, в разных папках эти txt разбросаны? Мне в любом случае сначала разархивировать архив, потом найти эти текстовые файлы, потом удалить дубли из них, и объединить в 1 файл.
Либо я не понимаю концепцию, либо база данных мне вообще не нужна в данной задаче.

И опять же, мне это лишь временно нужно. Т.е отсортировать - и скачать к себе на комп готовый отсортированный файл. Всё остальное удалить.
Про RAM-диски слышали? Я на них намёк веду.

Отправлено: 19:20, 30-09-2022 | #10



Компьютерный форум OSzone.net » Железо » Накопители (SSD, HDD, USB Flash) » Разное - Нужно выбрать лучшее решение по скорости мелких файлов

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
Android - выбрать лучшее приложение для блокировки смс спама гест Мобильные ОС, смартфоны и планшеты 2 21-12-2017 22:03
HDD - Файловая система для мелких и средних файлов klever Накопители (SSD, HDD, USB Flash) 13 01-12-2012 21:47
Звук - Помогите выбрать решение по колонкам Work700 Прочее железо 3 21-04-2009 01:34
USB под Windows XP - медленное удаление мелких файлов rkw Накопители (SSD, HDD, USB Flash) 4 09-04-2009 22:58
Лучшее решение для P IV 2.8 HT alibaster Видеокарты 11 26-12-2007 12:48




 
Переход