|
Компьютерный форум OSzone.net » Компьютеры + Интернет » Хочу все знать » как работать с большими файлами |
|
как работать с большими файлами
|
Ветеран Сообщения: 580 |
Профиль | Отправить PM | Цитировать есть файл весит хрен знает сколько , сотни гигов, в этом файле одни цифры, их надо упорядочить от 0 и до победного конца
вопрос как это сделать, чтобы сервак совсем не крякнуть как сделать сортировку это всего лишь полстрочки в питоне (sort функция) вопрос если просто это сделать сервер умрет. Подскажите, как бы мне разделить на батчи целиковый файл, чтобы его просортировать, да так,чтобы сервер не убить и сколько примерно по времени такой файл будет отрабатывать. Как бы минимзировать вычислительную сложность ,чтобы он не 100 лет думал? |
|
Отправлено: 12:57, 07-02-2020 |
Ветеран Сообщения: 3806
|
Профиль | Отправить PM | Цитировать Iska, вы чушь пиш
Языки высокого уровня потому и существуют, что это по сути набор ассемблерных функций надёжность и эффективность которых за вас вылизывала толпа умнейших людей. Самостоятельно на ассемблере имеет смысл реализовывать новый алгоритм. |
Последний раз редактировалось Busla, 09-02-2020 в 19:00. Отправлено: 12:07, 09-02-2020 | #11 |
Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети. Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля. |
Старожил Сообщения: 352
|
Профиль | Отправить PM | Цитировать Цитата Iska:
|
|
Отправлено: 12:11, 09-02-2020 | #12 |
Ветеран Сообщения: 580
|
Профиль | Отправить PM | Цитировать |
Отправлено: 13:06, 09-02-2020 | #13 |
Ветеран Сообщения: 3806
|
Профиль | Отправить PM | Цитировать r-studio, сортировка должна быть текстовая или числовая?
какая максимальная разрядность чисел? распределение примерно равномерное? |
Отправлено: 13:21, 09-02-2020 | #14 |
Ветеран Сообщения: 580
|
Профиль | Отправить PM | Цитировать Busla,числовое, нет распределение не равномерное, это точно.
|
Отправлено: 13:55, 09-02-2020 | #15 |
Забанен Сообщения: 6345
|
Цитата Busla:
На unix-like такое делается как два пальца, например вот в убунте WSL на винде 10 сортируем как числа с убиранием дублей, второй вариант - распараллеливаем на два потока для ускорения: time $(sort -u -n 445.txt -o 445_sorted.txt) real 0m0.799s user 0m2.844s sys 0m0.453s time $(sort --parallel=2 -u -n 445.txt -o 445_sorted.txt) real 0m1.071s user 0m1.609s sys 0m0.203s UPD нагуглил скрипт, использующий всё тот же sort, но c разбитием исходного файла на куски (split,sort,merge). Автор говорит, что так быстрее. Но проверить это можно только на реально большом файле, который не помещается в память. |
|
Последний раз редактировалось Jula0071, 09-02-2020 в 14:26. Отправлено: 13:58, 09-02-2020 | #16 |
Ветеран Сообщения: 27449
|
Профиль | Отправить PM | Цитировать Цитата Busla:
Цитата Busla:
Цитата Busla:
Цитата iglezz:
Цитата iglezz:
r-studio, спасибо, ясно. Какова конечная цель? Для чего делается сортировка? Что будет происходить с этим отсортированным файлом дальше, для чего он нужен в отсортированном виде? |
|||||
Отправлено: 14:44, 09-02-2020 | #17 |
Ветеран Сообщения: 580
|
Профиль | Отправить PM | Цитировать Iska, а далее для чего продакт манагер решит , мы не знаем что у Богов на уме)) Возможно будет джойн какой-то или назначение категорий к числам.
|
Отправлено: 14:55, 09-02-2020 | #18 |
Ветеран Сообщения: 27449
|
Профиль | Отправить PM | Цитировать Ух… Это печально. Можете выяснить?
|
Отправлено: 15:16, 09-02-2020 | #19 |
Ветеран Сообщения: 580
|
Профиль | Отправить PM | Цитировать Iska, ну сегодня вряд ли, Боги отдыхают скорее всего, но главное вряд ли скажут, но у думаю моя версия будет джойн какой-то или назначение категорий к числам.
в итоге будет файл число и его тестовая расшифровка |
Отправлено: 16:31, 09-02-2020 | #20 |
Участник сейчас на форуме | Участник вне форума | Автор темы | Сообщение прикреплено |
| |||||
Название темы | Автор | Информация о форуме | Ответов | Последнее сообщение | |
Разное - Папки с файлами на флешке стали файлами, что делать? | dd300 | Microsoft Windows 10 | 6 | 11-12-2019 14:57 | |
Sharepoint - MS Sharepoint 2010 - проблема с большими HTML-файлами в области совместной работы | Greyman | Другие серверные продукты | 0 | 08-10-2018 17:14 | |
HDD - Беспричинный шум головок при отсутствии нагрузки после операций с большими файлами. | sputnikk | Накопители (SSD, HDD, USB Flash) | 4 | 18-06-2017 04:59 | |
Установка - загружается как бы по кадрам с большими задержками, видео так же | Дашка | Microsoft Windows 2000/XP | 4 | 10-07-2011 14:28 |
|