Предыдущий пост Поделиться Следующий пост
Большие данные
March 2015
alex_mashin
В течение десяти суток с лишним заливал с помощью rsync около 6,8ТБ данных с массива btrfs на новый жёсткий диск объёмом 10ТБ под ext4. В это время, понятно, ни один из двух массивов данных полностью функционален не был: на старый уже не имело смысла записывать что-то новое, а новый был неполон.

Затем выполнял замену диска в 3ТБ на диск в 8ТБ в вышеупомянутом массиве btrfs с помощью btrfs replace чуть меньше полутора суток. Практически, около 2,3ТБ данных было перемещено на новый диск; при этом массив оставался полностью работоспособен, хоть и подтормаживал.

Я это к чему пишу? Именно из-за своего размера, новые жёсткие диски уже не могут использоваться просто так, по одному, потому что отношение их объёма к эффективной пропускной способности реальных систем (в моём случае, узкими местом, очевидно были не диски или их интерфейс) непозволительно велико: таких перерывов в работе никто не может себе позволить.

Нужно собирать их в массивы с помощью mdm, lvm, btrfs или zfs. С решениями под Windows всё не столь благополучно, как я понимаю. Можно попробовать аппаратный RAID, если есть лишние деньги — контроллер может стоить дороже любого вменяемого домашнего сервера — и отвага, потому что, что делать, если RAID превратился в тыкву, а дядюшка Ляо, который его делал, покинул рынок?

Чтобы сделать массив дисков, позволяющий замену с сохранением функциональности, нужна квалификация, несколько превосходящая «уверенного пользователя ПК», а установка нового диска превращается в целую операцию. Следовательно, не каждый сможет хранить большие, по домашним меркам, объёмы данных.

Мне могут возразить: на рынке уже появляются многотерабайтные твердотельные накопители с новыми интерфейсами (SAS, например), у которых эффективная пропускная способность выше. На это я отвечу: за те годы, пока производители будут снимать сливки с корпоративного рынка, требуя невменяемых цен, объёмы данных снова вырастут, съев прирост пропускной способности. Причём заменять надо будет не только диски, но и материнские платы.

Ностальгический P.S. Свою первую дискету объёмом 1,4 МБ я получил в подарок в школе в 1990-ом году, по результатам успехов то ли в каком-то компьютерном конкурсе, то ли каких-то дополнительных курсов. С тех пор объём носителей у меня вырос примерно в 34 миллиона раз. Это несколько быстрее закона Мура (прирост примерно 88% в год против 50% (поправка 12 июня 2017: я плохо помнил цифры в законе Мура. Я думал, что он говорит об увеличении на 50% за год, а там удвоение за два года, что даёт примерно 41,4% в год. Впрочем, тем больше разница)). Возможно, в этом и корень проблемы с отношением объёмов хранилищ и их пропускной способности.

Метки:

  • 1
Наверняка скоро появятся простые приложения для работы с массивами больших дисков.

Кажется, память уверенно обгоняет быстродействие. Закон Мура для производительности процессоров давно уже не действует ведь?

1) «Простые» уже есть — это дорогие и рискованные, по моему мнению, аппаратные решения. Кроме того, могут быть какие-нибудь графические обёртки (в составе ОС, я полагаю) для вышеупомянутых программ, которые будут определять установку нового диска и спрашивать пользователя: что с ним делать: использовать самостоятельно, включить в массив, и т.п. Но всё равно, надо будет понимать смысл действий, а с этим проблемы. Современные ОС старательно отучают пользователя думать в терминах даже файлов, а тут надо будет вспоминать, что такое тома и устройства.
2) Насколько я знаю, для процессоров — нет (уже не особенно надо). Но для видеокарт — вполне ещё.

Когда я делаю бэкапы на внешний жёсткий диск, за час переносится около 250 Гб, то есть 2,3 Тб перенеслись бы часов за десять, а 6,8 — примерно за сутки.

Массивы типа RAID я считаю половым извращением: материнка сгорит (а она может!) — и весь массив накрывается мохнаткой. И одмин жалеет, что не залил бэкап на какую-нибудь другую машину, с одним диском. Причём, по моему ощущению, вероятность гибели материнки выше, чем вероятность отказа винта — они сейчас надёжные. То есть я так подозреваю, что все эти рэйды с горячей заменой в подавляющем большинстве случаев — развод лохов на бабки.

Кроме того, сама необходимость наличия присутствия больших данных в бытовых условиях мне непонятна. В чукотской мультипликации нет никакой художественной ценности, чтобы хранить её у себя дома, а что ещё может занимать столько места?

>прирост примерно 88% в год против 50%

Расово верный рост.

1) Когда я копирую немного больших файлов с одного диска на другой (например, переливаю чукотскую анимацию из папки торрентов на SSD в постоянную библиотеку на массиве btrfs), эффективная скорость достигает около 350 Мбит/с. rsync значительно медленнее: вероятно, файлы мельче, надо проверять их наличие на месте назначения.
2) RAID не отменяет необходимости бэкапа. Он облегчает плановую или аварийную замену диска, и може ускорить работу с данными.
3) Аппаратного RAID я тоже боюсь.
4) У меня по большей части — бэкапы пары-тройки больших веб-сайтов. В наше время разумно бэкапить весь интернет. IPFS примерно для того и предназначена. Торренты, если раздавать их не по два раза с SSD, как я, а щедро держать на раздаче постоянно, займут место, хотя бы они и не были чукотской анимацией. Кроме того, серьёзный блокчейн будет занимать много места. В общем, у нас начинается эпоха, когда все данные хранятся у всех.

И кстати, массив btrfs у меня монтируется со сжатием.

  • 1
?

Log in