Lenovo – bonlesave.ru https://bonlesave.ru Записки о виртуализации и о жизни Wed, 27 Aug 2025 08:48:42 +0000 en-US hourly 1 https://wordpress.org/?v=6.8.3 Хождение по граблям при обновлении VMware vSphere 7.0 на 8.0 https://bonlesave.ru/2025/08/27/hozhdenie-po-grablyam-pri-obnovlenii-vmware-vsphere-7-0-na-8-0/ https://bonlesave.ru/2025/08/27/hozhdenie-po-grablyam-pri-obnovlenii-vmware-vsphere-7-0-na-8-0/#comments Wed, 27 Aug 2025 05:32:35 +0000 https://bonlesave.ru/?p=10526 Continue reading "Хождение по граблям при обновлении VMware vSphere 7.0 на 8.0"]]> Очень скоро заканчивается жизненный цикл VMware vSphere 7.0 и после 2 октября 2025 года уязвимости будут прирастать, а вот патчи вряд ли.
Просидев на 7-ке ровно 5 лет, мы решили обновиться на 8-ке. Обновление с update 3 на update 3 не предвещало никаких проблем… Так что продолжим традиции статьи Хождение по граблям VMware vSphere 7.0.

Обновление vCenter встаёт по таймауту

Обновили несколько vCenter’ов и на очередном обновлятор встаёт колом:

При этом даёт классный совет, типа, за 1 час не успеваю, дай мне побольше времени:
Upgrade phase timed out. The time planned for the upgrade phase
was 60 minutes. The upgrade phase has already been running for 60
minutes. To extend the default timeout, set environment variable
UPGRADE_EXPORT_TIMEOUT

Поиск дал ссылочку на БЗ –  The vCenter Server upgrade from version 7.0 to 8.0 fails at 39% with the error: “Upgrade phase timed out” after getting stuck during the “Exporting the VMware Analytics Service data” step
Запускаем предложенный скрипт и смотрим на наличие 127k файликов в аналитике:

root@vc [ /tmp ]# ls /var/log/vmware/analytics/prod | wc -l
127465
root@vc [ /tmp ]# chmod +x cleaning_vddk_script.sh
root@vc [ /tmp ]# ./cleaning_vddk_script.sh 90
Files before the clean :
127452 ===
Start cleaning VDDK files older than 90 days...
Clean successful! ===
Files after the clean:
0
root@vc [ /tmp ]# ls /var/log/vmware/analytics/prod | wc -l
102

Зачем сломали интерфейс?

Интерфейс в 7-ке были вылизан и привычен. В 8-ке решили, что FULL HD мониторы – это прошлый век, и исправили иконки, всплывающие длинные поля поменяли на полный вывод, а если название хоста не влезет, то не постеснялись в 2 этажа отобразить. Выбор нескольких строк тоже поломали.

Старое оборудование не поддерживается в ESXi 8

После эпопеи VMware ESXi 7.0 и неподдерживаемое оборудование отказ от оборудования в 8-ке продолжился. По процессорам у нас вышли из поддержки Intel Xeon 26xx v2 – хорошо, отправим на списание. Для любителей хлама – неофициально ESXi8 на старых процессорах работает Heads Up – ESXi 8.0 Update 2 requires XSAVE CPU instruction even with allowLegacyCPU=true.
Актуальной остаётся проблема Отвал FC HBA Emulex 8/16-Gb/s после обновления VMware ESXi 7.0 update 3. Драйвер нужно интегрировать старый.

Загрузка ESXi и TPM 2.0

8-ка стала требовать включения TPM 2.0 на серверах (с TPM 1.2 грузится, но ругается):
TPM 1.2 device detected. Support for TPM version 1.2 is discontinued. Installation may proceed, but may cause the system to behave unexpectedly.Make sure the host is upgraded to TPM 2.0.
Как оказалось, на всех старых серверах необходимо на уровне UEFI, а местами и джамперов, переключаться на TPM 2.0.
Как включить TPM 2.0 на серверах Lenovo:

QuickBoot и TPM 2.0, а ещё TXT и IPMI

С 8-ки поддерживается QuickBoot на серверах с TPM 2.0, но встаём на целый набор граблей: современный сервер пишет, что поддержки нет. Запускаем утилиту проверки для определения причин:

/usr/lib/vmware/loadesx/bin/loadESXCheckCompat.py
BmcInfo: ipmi returned invalid data length: 1 ccode 255
BmcInfoImpl: Retrieve Version information failed
This system is not QuickBoot compatible: violating one or more strict requirements (Quick Boot is not supported on this machine)
The host does not fulfill the following hard dependencies:
- Intel TXT is enabled

Ищем где выключить TXT на серверах Lenovo  – находим нужный пункт в этой КБ:

/usr/lib/vmware/loadesx/bin/loadESXCheckCompat.py
BmcInfo: ipmi returned invalid data length: 1 ccode 255
BmcInfoImpl: Retrieve Version information failed
This system is compatible with Quick Boot.

По второй ошибке – “BMC Firmware Version” missing in System information of VMware DCUI, проверяем, что поля заполнены или нет:

esxcli hardware ipmi bmc get
BMCFirmware Version: 0.00
Hostname Reported:
IPMIVersion: 0.0
IPv4Address:
IPv4Gateway:
IPv4Subnet:
IPv6Addresses:
LANif Admin Status: false
MACAddress:
Manufacturer: Unknown
OSName Reported:

Ошибка спустя несколько минут исправилась после перезагрузки контроллера.
В итоге получаем:

/usr/lib/vmware/loadesx/bin/loadESXCheckCompat.py
This system is compatible with Quick Boot.

Проблема с плагином Veeam BR

Также отвалился плагин для Veeam BR – порешалось переустановкой? Нет…

]]>
https://bonlesave.ru/2025/08/27/hozhdenie-po-grablyam-pri-obnovlenii-vmware-vsphere-7-0-na-8-0/feed/ 6
Тестирование систем хранения данных Huawei Dorado V6 в кластере HyperMetro https://bonlesave.ru/2022/08/18/testirovanie-sistem-hraneniya-dannyh-huawei-dorado-v6-v-klastere-hypermetro/ https://bonlesave.ru/2022/08/18/testirovanie-sistem-hraneniya-dannyh-huawei-dorado-v6-v-klastere-hypermetro/#respond Thu, 18 Aug 2022 03:09:03 +0000 https://bonlesave.ru/?p=9787 Continue reading "Тестирование систем хранения данных Huawei Dorado V6 в кластере HyperMetro"]]> Disclaimer:  все дальнейшие рассуждения, настройки и выбранные методы тестирования могут быть ошибочны. Никакого отношения к компаниям Lenovo, Huawei, Broadcom мы не имеем.

Цели тестирования:

  • определить производительность системы хранения данных (СХД) в кластере HyperMetro и её изменение при различных вариантах отказа оборудования;
  • оценить влияние на производительность и доступность программно-аппаратного комплекса (ПАК) фирменного MPIO-драйвера (драйвер балансировки подключения по нескольким путям ввод-вывода) Huawei Ultrapath;
  • протестировать функциональность SmartVirtualization СХД Huawei Dorado 5000V6 – способность выдавать через себя дисковые разделы других СХД.

Дополнительно была проведена проверка работоспособности одного из серверов системы управления базами данных (СУБД) Oracle DB при отказе узла кластера HyperMetro. Для этого сервер был временно перенесён в кластер HyperMetro без прерывания его работы, а по окончании тестирования возвращён обратно.

Оборудование было предоставлено системным интегратором,  который также составил и выполнил программу и методику испытаний. Тестирование осуществлялось при помощи программы VDBench, имитировалась нагрузка, аналогичная создаваемой основным сервером СУБД Oracle DB в ежедневной эксплуатации. Профиль  нагрузки  приведён  в Приложении 1.

Для проведения тестирования был собран стенд, имитирующий размещение оборудования в двух пространственно-разнесённых центрах обработки данных, установлено и настроено программное обеспечение (ПО) и развёрнуты тестовые виртуальные машины. Схема стенда и описание используемого ПО приводятся в Приложении 2.

Первичное конфигурирование системы проводилось с использованием штатных MPIO-драйверов среды виртуализации VMware ESXi. Драйвер оказывает решающее влияние на производительность системы и её отказоустойчивость, поэтому было проведено две серии тестов – со штатными драйверами VMware, и с фирменными драйверами Huawei Ultrapath от изготовителя СХД. Перед началом тестирования выживаемости кластера при различных вариантах отказов оборудования и влияние отказов на производительность был выполнен эталонный замер производительности системы в штатном режиме работы. Методика замера и результаты приведены в Приложении 3.

После определения исходного уровня производительности системы, была выполнена оценка изменения производительности при отказе удалённой системы хранения (Приложение 4), локальной системы хранения (Приложение 5) и дирижёра кластера (Quorum Server). С целью проверки выживаемости, в тестовую среду был мигрирован сервер СУБД Oracle DB (DEV03). Оценивалось влияние на работоспособность и доступность сервера  отказ одной из реплик хранилища. Результаты приведены в Приложении 6.

Следующим этапом стала оценка влияния на производительность и доступность системы использование MPIO-драйвера Huawei Ultrapath. В процессе подготовки стенда выяснилось, что драйвер существует только для версии VMware ESXi 6.7U3, а на стенде развёрнута VMware ESXi 7. Для проведения работ был подготовлен и подключен новый сервер с требуемой версией ESXi, описание стенда приведено в Приложении 7.

Поскольку среда поменялась, были проведены замеры производительности системы в штатном режиме (Приложение 8). Затем выполнены замеры производительности при отказе удалённого хранилища (Приложение 9) и локального (Приложение 10).

После проведения серии опытов по определению производительности работы и отказоустойчивости кластера, была выполнена оценка функционала виртуализации СХД (SmartVirualization) и сделаны замеры производительности работы системы при прямом подключении к серверу раздела СХД  EMC VNX5700 и подключении его через функцию виртуализации СХД Huawei Dorado 5000 V6. Схема стенда и результаты тестирования приведены в Приложении 11.

Дополнительно была выполнена оценка влияния процесса создания и удаления моментальных снимков (снапшотов, snapshots) виртуальных машин (ВМ) на производительность работы ВМ при использовании традиционных томов VMFS (Приложение 12), при использовании виртуальных томов VVOL (Приложение 13), а также влияние на производительность процедуры установки обновлений управляющего ПО СХД (Приложение 14).

Краткое резюме по этапам тестирования производительности приведено в таблице:

Краткое описание демо-стенда Имитируемый отказ Оценка влияния на работоспособность Оценка влияния на производительность Оценка загруженности линка между площадками
1. Кластер Huawei HyperMetro из двух СХД Dorado5000v6, режим работы Local Preffered, режим восстановления Auto, скорость репликации Highest
В качестве серверного оборудования используется два сервера с ESXi 7.0 в кластере VMware HA с 14-ю ВМ VDbench, имитирующими нагрузку.
В качестве MPIO используется штатный MPIO-драйвер VMware.
Оборудование установлено комплектами (1 СХД + 1 сервер + 1 FC коммутатор) на двух площадках, соединенных по сети SAN одним оптическим линком SM 16Gb/s
Отказ Quorum Отсутствует Отсутствует
2. Отказ СХД №1 Кратковременная приостановка ввода-вывода на 13 секунд, без перехода хранилищ VMFS VMware в состояние недоступности При обрыве синхронизации томов Huawei HyperMetro рост производительности (IOPS) на 8%, без существенных изменений во времени отклика.
При старте синхронизации томов Huawei HyperMetro уменьшение производительности (IOPS) на 8%, без существенных изменений во времени отклика. Время синхронизации 1час 18 минут.
До 1Gb/s при имитации нагрузки.
До 4Gb/s при синхронизации реплик томов Huawei HyperMetro
3. Отказ СХД №2 При отказе кратковременная приостановка ввода-вывода на 13 секунд, без перехода хранилищ VMFS VMware в состояние недоступности При обрыве синхронизации томов Huawei HyperMetro деградация производительности (IOPS) на 50% на 17 секунд, после чего рост производительности (IOPS) на 8%, без существенных изменений во времени отклика.
При старте синхронизации томов Huawei HyperMetro уменьшение производительности (IOPS) на 8%, без существенных изменений во времени отклика. Время синхронизации 1 час 12 минут.
До 1Gb/s при имитации нагрузки.
До 4Gb/s при синхронизации реплик томов Huawei HyperMetro
4. Влияние отказа СХД №1 на ВМ dev03 c работающей БД Oracle Кратковременная приостановка ввода-вывода на 13 секунд, без последующего прерывания в работе БД и тестовых отчетов До 1Gb/s при имитации нагрузки.
До 4Gb/s при синхронизации реплик томов Huawei HyperMetro
5. Кластер Huawei Hyper-Metro из двух СХД Dorado5000v6, режим работы Local Preffered, режим восстановления Auto, скорость репликации Highest.
В качестве серверного оборудования используется один сервер с ESXi 6.7U3 и семью ВМ VDbench, имитирующими нагрузку.
В качестве MPIO используется MPIO-драйвер Huawei UltraPath.
Оборудование установлено комплектами (1 СХД + 1 сервер + 1 FC коммутатор) на двух площадках, соединенных по сети SAN одним оптическим линком SM 16Gb/s
Отказ Quorum Отсутствует Отсутствует
6. Отказ СХД №1 При отказе кратковременная приостановка ввода-вывода на 13 секунд, без перехода хранилищ VMFS VMware в состояние недоступности Во время недоступности  реплики тома Huawei HyperMetro отмечен рост производительности операций ввода-вывода (IOPS) на 2%, без существенных изменений во времени отклика.
При старте синхронизации томов Huawei HyperMetro уменьшение производительности IOPS на 16%, без существенных изменений во времени отклика. Время синхронизации 51 минута.
До 1Gb/s при имитации нагрузки.
До 4Gb/s при синхронизации реплик томов кластера Huawei HyperMetro
7. Отказ СХД №2 При отказе кратковременная приостановка ввода-вывода на 13 секунд, без перехода хранилищ VMFS VMware в состояние недоступности При обрыве синхронизации томов Huawei HyperMetro рост производительности (IOPS) на 16%, без существенных изменений во времени отклика.
При старте синхронизации томов Huawei HyperMetro уменьшение производительности (IOPS) на 16%, без существенных изменений во времени отклика. Время синхронизации 51 минута.
До 1Gb/s при имитации нагрузки.
До 4Gb/s при синхронизации реплик томов кластера Huawei HyperMetro

Результаты тестирования функции виртуализации внешних систем хранения (Smart Virtualization) CХД Huawei Dorado V6 приведены в таблице:

Краткое описание демо-стенда Оценка влияния на работоспособность Оценка влияния на производительность
СХД с исходными данными – существующая VNX5700 с одним тестовым LUN на 8TB.
СХД, осуществляющая виртуализацию –  Dorado5000v6.
В качестве серверного оборудования используется один сервер с ESXi 7.0 и семью ВМ VDbench, имитирующими нагрузку.
В качестве MPIO используется штатный MPIO-драйвер VMware.
Отсутствует a.    Зафиксировано незначительное увеличение времени отклика на 2% с 5,72 до 5,86, также зафиксированы всплески во времени отклика;
b.    Зафиксировано незначительное ухудшение производительности (IOPS) на 2% с 4881 до 4764.

Результаты тестирования процесса создания и удаления моментальных снимков ВМ (снапшотов) на CХД Huawei Dorado V6 с томами VMFS:

Краткое описание демо-стенда Оценка влияния на работоспособность Оценка влияния на производительность и времени создания/удаления снапшота
Кластер Huawei Hyper-Metro из двух СХД Dorado5000v6, режим работы Local Preffered, режим восстановления Auto, скорость репликации Highest.
В качестве серверного оборудования используется один сервер с ESXi 7.0 в кластере VMware HA одной ВМ VDbench имитирующими нагрузку. Используются VMFS6 VMware Datastore.
В качестве MPIO используется штатный MPIO-драйвер VMware.
Оборудование установлено комплектами (1 СХД + 1 сервер + 1 FC коммутатор) на двух площадках, соединенных по сети SAN одним оптическим линком SM 16Gb
В процессе удаления снапшота -многочисленные кратковременные приостановки ввода-вывода на 1 секунду, без потери доступности диска ВМ
В конце процесса удаления происходят кратковременные приостановки ввода-вывода на 6 секунд без потери доступности диска ВМ
a. Время создания снапшота под нагрузкой на тестовой ВМ с диском на 5TB занимает 6 минут, после полного завершения процесса создания зафиксирована деградация производительности(MB/s) на 38%.
b. Время удаления снапшота под нагрузкой на тестовой ВМ с диском на 5TB и изменением не менее 200GB данных на нем занимает 56 минут, при этом:
i. С начала запуска процесса удаления зафиксирована деградация производительности(MB/s) на 10%.
ii. После завершения процесса удаления зафиксирован рост производительности(MB/s) на 48%.

Результаты тестирования процесса создания и удаления моментальных снимков ВМ на CХД Huawei Dorado V6 с томом VVOL:

Краткое описание демо-стенда Оценка влияния на работоспособность Оценка влияния на производительность и времени создания/удаления снапшота
СХД Dorado5000v6, обновленная до версии 6.0.1 SPH5. Huawei VASA провайдер версии 2.1.19, зарегистрированный на VMware vCenter версии 6.7U3j.
В качестве серверного оборудования используется один сервер с ESXi 6.7U3 с одной ВМ VDbench, имитирующей нагрузку. Используются VMware VVOL Datastore, c политикой хранения ВМ на дисках SSD.
В качестве MPIO используется MPIO Huawei UltraPath.
Оборудование (1 СХД + 1 сервер) установлено на одной площадке и подключено к одному FC – коммутатору
Текущая версии 2.1.19 VASA провайдера работает нестабильно, с периодическим переходом состояния регистрации данного провайдера в статус Disconnected. При этом:
a. ВМ остается доступна, но любые операции с ней невозможны;
b. VVOL Datastore переходит в состояние Inaccessible.
В начале процесса создания снапшота и по  завершении процесса удаления снапшота зафиксирована приостановка ввода-вывода на ВМ Slave07 на 7 секунд.
Время создания и удаления снапшотов с ОЗУ:
a. Создание занимает 1 час 12 минут и 27 секунд;
b. Удаление занимает 9 секунд.
Время создания и удаления снапшотов без ОЗУ:
a. Создание занимает 14 секунд;
b. Удаление занимает 18 миллисекунд.

Выводы по итогам тестирования

  1. Технология HyperMetro-кластера (двух удалённых на большое расстояние систем хранения данных, на одной из которых размещается основная копия данных, на второй – её реплика) может быть использована в продуктивной среде для обеспечения непрерывности работы прикладных задач в случае аварийного выключения основного ЦОДа или основной системы хранения.
  2. Потери производительности при отказе одной из систем незначительны, а в случае отказа удалённой системы производительность возрастает. Потери производительности на синхронизацию данных после восстановления доступности систем не превышают 20%. Пауза длительностью 13-14 секунд в момент пропадания одной из реплик не привела к отказу в обслуживании СУБД Oracle DB, что является подтверждением возможности использования технологии для обеспечения непрерывности работы информационной системы.
  3. Со штатными MPIO-драйверами VMware показывает лучшую производительность в операциях чтения-записи на том. Использование MPIO-драйвера Huawei UltraPath возможно только в случае если все системы хранения данных предприятия будут производства Huawei. С оборудованием других производителей драйвер не работает.
  4. Функция виртуализации других систем хранения не даёт никаких преимуществ в производительности перед прямым подключением этих систем и, в основном, может быть использована для миграции данных из сторонних СХД на Dorado 5000 V6.
  5. Процесс создания, а особенно наличия моментального снимка ВМ (снапшота) оказывает существенное влияние на производительность работы системы, которая падает почти в два раза. Поэтому снапшоты рекомендуется создавать в периоды наименьшей загрузки системы и не оставлять дольше, чем это необходимо.
  6. По сравнению с классической технологией VMFS, технология VVOLs (Virtual Volumes) для VMware показала лучшие результаты в операциях чтения-записи на том, уменьшение времени создания и удаления снапшотов ВМ без оперативной памяти. Однако создание снапшотов ВМ с оперативной памятью занимает весьма продолжительное время, также зафиксирована нестабильная работа управляющей службы тома (VASA-провайдера). Текущая реализация VVOLs в продукте Huawei для VMware не может быть рекомендована к использованию для продуктивных систем.
  7. Интерфейс управления СХД Dorado 5000 V6 дружелюбен и интуитивно понятен.
  8. Конструктивно СХД Dorado 5000 V6 имеет большую длину, из-за чего может быть установлена только в определённых слотах стандартной серверной стойки. Также она имеет высокую теплопроизводительность и нуждается в хорошем охлаждении. Это следует учитывать при выборе и оснащении места размещения СХД.
  9. В целом, технология метрокластера и система хранения Huawei Dorado 5000 V6 заслуживает положительной оценки и может рекомендована к внедрению в продуктивную среду.

Приложения

Приложение 1. Профиль нагрузки Oracle СУБД DB

 Исходя из полученных перед началом тестирования отчетов AWR с существующих СУБД Oracle DB заказчика установлен следующий профиль нагрузки для VDbench:

  • 93% операций ввода-вывода на диск совершается с размером блока 8KB при соотношении чтения/записи 73% к 27%;
  • 7% операций ввода-вывода на диск совершается с размером блока 512b при соотношении чтения/записи 16% к 84%.

Приложение 2. Описание тестового стенда c штатным MPIO-драйвером ESXi

 Тестовый стенд имитирует собой два независимых центра обработки данных, объединенных темной оптикой. В каждом центре обработки данных установлен следующий комплект оборудования:

  • одна СХД Huawei Dorado5000 v6;
  • один сервер Lenovo SR650 (2xCPU, 768GB RAM, 4x10GbE, 2x32Gb FC) с ОС VMware ESXi, 7.0.0, 16324942;
  • один коммутатор SAN с двенадцатью 16 или 32Gb MM SFP+, c одним одномодовым SFP+;
  • семь ВМ VDbench (8vCPU, 24GB RAM, 16GB disk, 4x600GB тестовые диски с контроллерами VMware Paravirtual SCSI).

Дополнительно на существующем оборудовании заказчика разворачивается две ВМ:

  • одна для управления VDbench;
  • одна для сервера Quorum кластера Huawei HyperMetro.

Серверное оборудование обновляется последними версиями прошивок и на ESXi устанавливаются версии драйверов в соответствии с таблицами совместимости Huawei.

На коммутаторах SAN настраивается зонирование, обеспечивающее связь.

Описание настроек кластера Huawei HyperMetro для VMware:

  • Все NVMe-диски собираются в один StoragePool RAID5 с политикой резервирования дисков High;
  • Создается HyperMetro-домен из двух СХД Huawei с Quorum сервером доступным через порты управления обоих контроллеров. Для данного домена создается отдельный пользователь на СХД. Обе СХД осуществляют репликацию через 4 выделенных порта для репликации;
  • Создаются две пары LUN на СХД:
    • На первой СХД – LUN1_pri и LUN2_sec по 21TB;
    • На второй СХД – LUN1_sec и LUN2_pri по 21TB;
    • Из которых собирается две пары HyperMetro, в которых LUN1 назначается роль Preffered на первой СХД, а LUN2 роль Preffered на второй СХД. Скорость репликации Highest. Политика восстановления Automatic.
  • Созданные LUN презентуются хостам с одинаковым LUN ID (10 для LUN1, 11 для LUN2), которые настраиваются таким образом, чтобы пути к СХД, расположенной на одной площадке с сервером были выбраны как активные, а пути к уделенной СХД как резервные. Для презентации LUN хостам используются 4 выделенных порта для данных:
    • На первой СХД:
      • Сервер SR650-2
        • HyperMetro Working Mode: Local preferred mode
        • OS Setting: VMware ESXi
        • Host Access Mode: Asymmetric
        • Preferred Path for HyperMetro: Yes
      • Сервер SR650-1
        • HyperMetro Working Mode: Local preferred mode
        • OS Setting: VMware ESXi
        • Host Access Mode: Asymmetric
        • Preferred Path for HyperMetro: No
      • На второй СХД:
        • Сервер SR650-2
          • HyperMetro Working Mode: Local preferred mode
          • OS Setting: VMware ESXi
          • Host Access Mode: Asymmetric
          • Preferred Path for HyperMetro: No
        • Сервер SR650-1
          • HyperMetro Working Mode: Local preferred mode
          • OS Setting: VMware ESXi
          • Host Access Mode: Asymmetric
          • Preferred Path for HyperMetro: Yes
        • На ESXi выполняются следующие настройки политик работы с путями к Huawei:
          • esxcli storage nmp psp roundrobin deviceconfig set –device=naa.6ac8d34100ec7478024b9dc900000000 –iops=1 –type iops
          • esxcli storage nmp psp roundrobin deviceconfig set –device=naa.6ac8d34100ec7478024bb11000000001 –iops=1 –type iops
          • esxcli storage nmp satp rule add -V HUAWEI -M XSG1 -s VMW_SATP_ALUA -P VMW_PSP_RR -c tpgs_on
  • Гипервизоры ESXi собираются в кластер со следующими параметрами:
    • HA: Enabled
    • Proactive HA: Disabled
    • Host Failure: Restart VMs. Using VM restart priority ordering.
    • Host Isolation: VMs on isolated hosts will remain powered on.
    • Datastore with Permanent Device Loss: Power off and restart VMs. Datastore protection enabled. Always attempt to restart VMs.
    • Datastore with All Paths Down: Power off and restart VMs (Agressive restart policy). Datastore protection enabled. Always attempt to restart VMs.
    • Guest not heartbeating: Disabled VM and application monitoring disabled.
    • Тестовые диски ВМ размещаются на Preffered LUN локальной СХД. Нумерация ВМ с 1 по 7 на SR650-1 и с 8 по 14 на SR650-2.

Схема демо-стенда:

Приложение 3. Первоначальное тестирование

В ходе первоначального тестирования проводилось наполнение дисков тестовых ВМ vdbench случайными данными и определялся служебный параметр – число потоков vdbench (в конфигурации профиля нагрузки заказчика), при котором достигается нагрузка с максимально оптимальным сочетанием IOPS/Latency. В ходе первоначального тестирования данный параметр устанавливается равным 2.

Таблица тестирования с различным числом потоков.

BlockSize Thread AverageIOPS AverageLatency AverageMBsec
7654 1 78150,6 0,701 570,48
7654 2 99126,7 1,123 723,6
7654 4 98605,5 2,262 719,79
7654 8 98385,3 4,543 718,2
7654 16 98543,1 9,07 719,35
7654 32 98018,9 18,246 715,51
7654 64 98403 36,309 718,34
7654 128 98415,7 72,211 718,44

Графики IOPS, Bandwidth, latency для числа потоков = 2:

Приложение 4.  Производительность при использовании Native MPIO. Имитация отказа СХД №1 (удалённой)

Для текущего теста стенд описан в Приложении 2. Выбор служебных параметров VDbench описан в Приложении 3.

Протокол теста:

  1. В 12:55 запущен VDbench со следующими параметрами производительности 96k IOPS 700MB/s в конфигурации профиля нагрузки заказчика (Oracle DB) на 14-ти ВМ.
  2. В 12:56 сервер Quorum отключен, в интерфейсе СХД зафиксировано появление ошибки о недоступности Quorum:
    1. Деградации производительности не обнаружено.
  3. В 12:57 сервер Quorum включен, в интерфейсе СХД зафиксировано отсутствие ошибки о недоступности Quorum:
    1. Деградации производительности не обнаружено.
  4. В 12:59 путем полного отключения электропитания сымитирован отказ СХД №1, зафиксировано:
    • Пути на гипервизорах ESXi до СХД №1 перешли в состояние Dead, пути до СХД№2 ранее находившиеся в статусе Active перешли в статус Active (I/O);
    • Полная приостановка ввода-вывода к дискам ВМ на 13 секунд;
    • После возобновления ввода-вывода, зафиксирован рост производительности (IOPS) на 8% с 96000 до 104000, при этом значительных колебаний времени отклика от диска не обнаружено.
Aug 14, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
12:59:26.014 238 96402.0 703.56 7652 69.05 1.155 1.173 1.114 12.39 15.92 0.437 111.3 6.5 4.7
12:59:27.015 239 96186.0 700.89 7640 68.75 1.159 1.177 1.118 19.19 13.03 0.460 111.5 6.6 4.7
12:59:28.020 240 86945.0 633.90 7644 68.72 1.173 1.195 1.125 16.35 17.77 0.490 111.4 6.0 4.4
12:59:29.025 241 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.2 0.1
12:59:30.023 242 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 0.1 0.1
12:59:31.015 243 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 111.9 0.2 0.1
12:59:32.014 244 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.2 0.1
12:59:33.014 245 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 111.9 0.2 0.1
12:59:34.014 246 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 0.2 0.1
12:59:35.031 247 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.3 0.2 0.1
12:59:36.014 248 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 111.7 0.2 0.1
12:59:37.014 249 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.1 0.1
12:59:38.014 250 2.0 0.02 8192 100.00 10042.836 10042.836 0.000  10045.04 0.00     3.118   112.0    0.2    0.1
12:59:39.014 251 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 0.2 0.1
12:59:40.019 252 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 0.3 0.1
12:59:41.015 253 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.2 0.1
12:59:42.015 254 11047.0 80.94 7682 68.43 140.968 101.568 226.351 14076.31 1 4048.29 1390.169 111.9 1.1 0.7
12:59:43.016 255 100545.0 733.95 7654 68.99 1.108 1.255 0.780 19.75 3.90 0.588 111.4 8.3 6.0
12:59:44.016 256 91473.0 667.75 7654 69.05 1.217 1.391 0.830 20.95 9.48 0.685 111.4 6.4 4.3
12:59:45.015 257 91835.0 670.14 7651 69.01 1.214 1.391 0.818 19.02 10.46 0.687 111.5 6.5 4.6
12:59:46.014 258 90526.0 661.20 7658 68.85 1.229 1.411 0.829 16.14 8.76 0.668 111.3 6.2 4.6
12:59:47.015 259 90086.0 657.10 7648 68.74 1.237 1.424 0.825 18.70 10.24 0.657 111.4 6.1 4.5
12:59:48.015 260 88138.0 643.92 7660 68.80 1.264 1.455 0.842 14.07 10.72 0.775 111.4 6.3 4.6
12:59:49.014 261 91090.0 664.66 7651 69.03 1.221 1.401 0.821 15.42 12.40 0.653 111.2 6.3 4.6
12:59:52.016 264 105677.0 770.99 7650 68.83 1.053 1.196 0.739 12.72 11.37 0.539 111.3 6.6 4.9
12:59:53.016 265 104723.0 764.27 7652 69.07 1.062 1.206 0.739 13.57 9.37 0.551 111.2 6.6 4.9
12:59:54.015 266 105205.0 768.82 7662 69.30 1.056 1.195 0.741 14.78 11.34 0.534 111.0 6.7 4.8
12:59:55.015 267 104017.0 759.17 7653 69.18 1.068 1.210 0.749 15.91 10.77 0.589 111.1 7.0 5.0
12:59:56.014 268 103686.0 757.00 7655 69.04 1.072 1.215 0.755 13.57 11.52 0.552 111.2 6.9 5.0
12:59:57.016 269 107111.0 782.09 7656 68.99 1.036 1.172 0.734 17.46 11.47 0.515 111.0 7.1 5.1
12:59:58.014 270 103990.0 758.44 7647 69.12 1.069 1.211 0.749 16.36 9.87 0.590 111.1 6.9 5.0
  1. В 13:05 было подано электропитание на СХД№1, через 10 минут система автоматически запустилась. В 13:17:37 автоматически запустилась синхронизация LUN’ов кластера HyperMetro (Режим работы Automatic, скорость репликации Highest), в результате чего было зафиксировано:
    • Снижение производительности (IOPS) на 8% с 104000 до 96000, при этом значительных колебаний времени отклика от диска не обнаружено;
    • Незначительные колебания загруженности процессора на контроллерах СХД с 25-30% до 40-45%;
    • Загруженность линка SAN между площадками составляет не более 4Gb/s.
Aug 14, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
13:17:30.014 1322 101611.0 741.62 7653 69.12 1.095 1.242 0.768 14.87 10.93 0.641 111.3 6.6 4.9
13:17:31.014 1323 104194.0 760.59 7654 68.98 1.069 1.212 0.751 16.57 10.13 0.586 111.4 6.7 5.0
13:17:32.017 1324 104374.0 762.50 7660 69.09 1.066 1.207 0.752 13.44 11.18 0.579 111.3 6.7 5.0
13:17:33.014 1325 104904.0 766.10 7657 69.18 1.060 1.200 0.748 11.59 10.88 0.548 111.2 6.6 4.9
13:17:34.018 1326 107587.0 785.03 7651 69.28 1.034 1.165 0.739 18.69 9.75 0.482 111.3 6.8 5.1
13:17:35.014 1327 104917.0 765.87 7654 69.25 1.062 1.199 0.751 13.45 6.15 0.517 111.4 6.8 5.0
13:17:36.014 1328 103844.0 758.33 7657 69.12 1.072 1.212 0.758 13.74 11.79 0.582 111.3 6.6 4.9
13:17:37.016 1329 96590.0 705.16 7655 69.18 1.154 1.251 0.936 13.51 106.12 0.820 111.4 6.4 4.8
13:17:38.018 1330 94504.0 689.36 7648 69.06 1.177 1.271 0.967 18.19 12.54 0.562 111.3 6.3 4.8
13:17:39.015 1331 96133.0 700.53 7641 69.16 1.159 1.247 0.961 12.28 11.37 0.545 111.4 6.4 4.7
13:17:40.015 1332 97036.0 708.51 7656 69.18 1.148 1.233 0.957 17.74 15.50 0.544 111.4 6.3 4.7
13:17:41.015 1333 95551.0 698.03 7660 69.16 1.166 1.256 0.966 13.43 16.47 0.534 111.4 6.2 4.6
13:17:42.014 1334 97038.0 709.13 7662 69.30 1.147 1.234 0.953 11.96 11.48 0.492 111.3 6.4 4.8
13:17:43.014 1335 97437.0 711.88 7660 69.05 1.142 1.227 0.953 12.31 12.38 0.513 111.3 6.5 4.9
13:17:44.017 1336 96876.0 706.24 7644 68.84 1.150 1.237 0.957 14.21 11.61 0.572 111.4 6.4 4.7
  1. В 14:35 был завершен процесс синхронизации LUN’ов кластера HyperMetro, в результате чего было зафиксировано возвращение путей на ESXi в исходное состояние:
    • Пути на гипервизорах ESXi до СХД №2 перешли в состояние Active на сервере площадки 1 и Active (I/O) на сервере площадки 2, пути до СХД №1 перешли в состояние Active на сервере площадки 2 и Active (I/O) на сервере площадки 1;
    • Загруженность линка SAN между площадками сократилась до 1Gb/s.

Суммарные графики IOPS, Bandwidth, latency во время отключения/включения СХД:
Графики IOPS, Bandwidth, latency во время отключения/включения СХД для ВМ:

Типовой график загрузки контроллеров СХД (*Далее аналогичен при аналогичных тестах):

Типовой график загрузки SAN-линка между ЦОДами (*Далее аналогичен при аналогичных тестах):

Приложение 5. Производительность при использовании Native MPIO-драйвера. Имитация отказа СХД №2 (локальной)

Для текущего теста стенд описан в Приложении 2. Выбор служебных параметров VDbench описан в Приложении 3.

Протокол теста:

  1. В 15:13 запущен VDbench со следующими параметрами производительности 96k IOPS 700MB/s в конфигурации профиля нагрузки заказчика (Oracle DB) на 14-ти ВМ.
  2. В 15:16 путем полного отключения электропитания сымитирован отказ СХД №2, зафиксировано:
    • Пути на гипервизорах ESXi до СХД №2 перешли в состояние Dead, пути до СХД№1 ранее находившиеся в статусе Active перешли в статус Active (I/O);
    • Полная приостановка ввода-вывода к дискам ВМ на 13 секунд c последующей деградацией производительности (IOPS) на 50% на 17 секунд, после чего зафиксирован рост производительности (IOPS) на 8%, с 96000 до 106000. При этом значительных колебаний времени отклика от диска не обнаружено.
Aug 14, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
Отказ 1 СХД в 15_16: Пути к данной СХД в данного момента в Dead:!!!!! Зафиксировано полное прекращение в передаче данных на 13 сек + деградация производительности min 50% на 15 сек+ из-за остановки репликации выросли IOPS с 96к до 105к (5-6%)
15:16:53.017 185 94874.0 693.06 7659 69.16 1.176 1.199 1.125 14.79 14.51 0.495 111.6 6.1 4.5
15:16:54.017 186 96669.0 705.09 7648 68.98 1.153 1.170 1.114 14.93 14.67 0.421 111.4 6.2 4.6
15:16:55.022 187 60090.0 438.43 7650 69.25 1.137 1.155 1.095 12.40 11.47 0.408 111.6 4.3 3.1
15:16:56.019 188 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 111.9 0.6 0.2
15:16:57.018 189 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.2 0.1
15:16:58.020 190 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.2 0.2 0.0
15:16:59.017 191 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 111.8 0.3 0.1
15:17:00.014 192 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.3 0.1
15:17:01.015 193 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 0.2 0.1
15:17:02.014 194 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.1 0.1
15:17:03.015 195 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 0.2 0.1
15:17:04.015 196 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 3.2 0.2
15:17:05.016 197 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.2 0.1
15:17:06.016 198 2.0 0.02 8192 100.00 11054.691 11054.691 0.000 11055.16 0.00 0.669 112.0 0.2 0.1
15:17:07.017 199 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 111.9 0.4 0.1
15:17:08.014 200 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.2 0.1
15:17:09.015 201 13305.0 96.91 7637 68.68 117.420 86.574 185.063 14254.26 14244.93 1278.477 112.0 1.2 0.9
15:17:10.014 202 61166.0 445.22 7632 68.79 0.908 1.021 0.659 8.91 2.90 0.362 111.5 4.2 2.9
15:17:11.014 203 58715.0 429.17 7664 69.08 0.947 1.064 0.687 19.29 10.61 0.451 111.6 3.8 2.7
15:17:12.015 204 48181.0 352.08 7662 69.22 1.157 1.326 0.777 11.10 6.41 0.595 111.9 3.5 2.5
15:17:13.015 205 49064.0 357.81 7646 68.89 1.135 1.298 0.774 14.19 10.56 0.582 111.6 3.4 2.5
15:17:14.016 206 47923.0 349.58 7648 68.88 1.163 1.325 0.804 8.49 4.40 0.566 111.7 3.4 2.5
15:17:15.014 207 46836.0 341.46 7644 68.99 1.189 1.354 0.820 11.37 11.38 0.587 111.6 3.5 2.5
15:17:16.013 208 46971.0 342.83 7653 68.70 1.185 1.354 0.816 13.04 5.33 0.622 111.7 3.3 2.4
15:17:17.016 209 47583.0 347.41 7655 68.82 1.624 1.344 2.242 17.88 21548.43 98.781 111.7 3.3 2.4
15:17:18.017 210 47237.0 344.66 7650 69.20 1.180 1.354 0.788 13.15 10.46 0.614 111.7 3.2 2.3
15:17:19.019 211 49585.0 361.47 7644 68.56 1.123 1.289 0.760 10.32 3.04 0.560 111.7 3.5 2.6
15:17:20.014 212 49637.0 362.10 7649 69.24 1.122 1.282 0.761 12.91 11.44 0.606 111.7 3.4 2.5
15:17:21.014 213 50359.0 367.72 7656 69.36 1.106 1.260 0.757 7.62 4.06 0.528 111.7 3.3 2.4
15:17:22.014 214 58828.0 429.43 7654 68.87 0.947 1.067 0.681 10.69 10.81 0.448 111.7 3.8 2.9
15:17:23.014 215 58530.0 427.21 7653 69.08 0.950 1.071 0.681 14.20 10.13 0.448 111.6 3.9 2.8
15:17:24.013 216 58600.0 427.09 7642 68.84 0.949 1.071 0.680 11.47 7.85 0.443 111.6 3.8 2.8
15:17:25.014 217 58475.0 427.66 7668 69.35 0.952 1.071 0.684 12.22 11.27 0.423 111.7 3.7 2.8
15:17:26.014 218 103778.0 757.13 7650 69.07 9.756 9.695 9.893 16382.82 16375.18 377.169 111.3 7.5 5.4
15:17:27.014 219 107946.0 787.68 7651 68.96 1.032 1.163 0.741 20.63 12.38 0.543 111.4 6.9 5.0
15:17:28.014 220 109805.0 802.00 7658 69.19 1.013 1.139 0.730 15.82 11.08 0.474 111.2 7.1 5.3
  1. В 15:25 было подано электропитание на СХД №2, через 10 минут система автоматически запустилась. В 15:38:13 автоматически запустилась синхронизация LUN’ов кластера HyperMetro (Режим работы Automatic, скорость репликации Highest). В результате было зафиксировано:
    • Снижение производительности (IOPS) на 8% с 108000 до 96000, при этом значительных колебаний времени отклика от диска не обнаружено;
    • Незначительные колебания загруженности процессора на контроллерах СХД с 25-30% до 40-45%;
    • Загруженность SAN-линка между площадками составляет не более 4Gb/s.
Aug 14, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
15:38:12.014 1464 109911.0 802.30 7654 69.25 1.012 1.136 0.733 17.64 10.69 0.489 111.2 6.9 5.1
15:38:13.014 1465 108887.0 795.15 7657 68.85 1.019 1.142 0.748 22.16 10.58 0.487 111.2 6.9 5.2
15:38:14.014 1466 98237.0 717.75 7661 68.91 1.135 1.215 0.957 18.98 104.32 0.786 111.3 6.5 4.8
15:38:15.015 1467 101881.0 744.26 7660 68.88 1.094 1.168 0.930 11.77 17.60 0.453 111.4 6.7 5.0
15:38:16.018 1468 99834.0 729.18 7658 68.81 1.113 1.192 0.939 16.94 10.62 0.507 111.1 6.4 4.8
15:38:17.016 1469 100105.0 730.63 7653 69.23 1.111 1.188 0.938 12.70 11.56 0.464 111.2 6.7 5.0
15:38:18.015 1470 102534.0 748.59 7655 69.11 1.085 1.157 0.922 13.86 15.01 0.429 111.2 6.7 5.0
15:38:19.021 1471 98524.0 719.60 7658 69.15 1.130 1.212 0.946 25.30 14.14 0.684 111.4 6.5 4.8
15:38:20.014 1472 101369.0 740.74 7662 68.84 1.099 1.172 0.936 16.39 10.96 0.495 111.3 6.6 4.9
15:38:21.017 1473 101855.0 744.00 7659 68.90 1.093 1.168 0.927 14.93 12.20 0.455 111.3 6.8 5.0
15:38:22.014 1474 102042.0 745.22 7657 69.15 1.092 1.164 0.931 11.53 108.98 0.583 111.4 6.6 5.0
15:38:23.014 1475 103521.0 755.01 7647 68.81 1.076 1.147 0.921 13.21 34.92 0.414 111.5 6.8 5.0
15:38:24.014 1476 100112.0 730.22 7648 68.81 1.112 1.190 0.940 15.23 11.89 0.509 111.3 6.7 5.0
15:38:25.013 1477 97903.0 714.41 7651 68.80 1.137 1.221 0.951 12.59 10.92 0.539 111.3 6.5 4.9
15:38:26.014 1478 101654.0 742.79 7661 68.92 1.096 1.169 0.932 13.16 12.98 0.464 111.4 6.8 5.1
15:38:27.017 1479 101877.0 744.94 7667 68.85 1.091 1.164 0.929 17.60 11.23 0.479 111.2 6.7 5.0
15:38:28.014 1480 101590.0 741.21 7650 68.83 1.097 1.173 0.930 18.98 15.49 0.460 111.4 6.7 5.1
15:38:29.014 1481 101667.0 742.08 7653 69.34 1.095 1.169 0.928 17.03 10.30 0.431 111.4 6.5 4.9
15:38:30.014 1482 99765.0 728.72 7659 69.24 1.116 1.193 0.941 18.51 18.07 0.494 111.3 6.6 4.9
15:38:31.014 1483 100979.0 737.48 7658 69.07 1.103 1.179 0.934 15.31 11.18 0.510 111.4 6.7 5.0
15:38:32.014 1484 100805.0 735.41 7649 69.09 1.103 1.177 0.937 13.43 10.71 0.455 111.2 6.8 5.0
15:38:33.013 1485 93638.0 682.77 7645 69.10 1.190 1.208 1.148 15.30 104.14 0.566 111.4 6.4 4.7
15:38:34.014 1486 93641.0 684.09 7660 69.22 1.190 1.210 1.146 14.91 12.23 0.428 111.4 6.1 4.5
15:38:35.016 1487 94415.0 689.97 7662 69.14 1.181 1.200 1.139 14.04 11.42 0.388 111.5 6.5 4.9
15:38:36.014 1488 91479.0 667.40 7650 68.87 1.216 1.242 1.159 18.53 12.08 0.476 111.3 6.5 4.8
15:38:37.015 1489 92628.0 676.44 7657 68.93 1.203 1.224 1.156 14.73 12.86 0.515 111.4 6.4 4.8
15:38:38.018 1490 93541.0 682.33 7648 68.93 1.190 1.214 1.137 11.57 13.76 0.413 111.4 6.3 4.8
15:38:39.015 1491 92434.0 674.36 7649 68.88 1.206 1.231 1.150 11.33 11.21 0.432 111.4 6.5 4.9
  1. В 16:50 был завершен процесс синхронизации LUN’ов кластера HyperMetro, в результате чего было зафиксировано возвращение путей на ESXi в исходное состояние:
    • Пути на гипервизорах ESXi до СХД №2 перешли в состояние Active на сервере площадки 1 и Active (I/O) на сервере площадки 2, пути до СХД №1 перешли в состояние Active на сервере площадки 2 и Active (I/O) на сервере площадки 1;
    • Загруженность SAN – линка между площадками сократилась до 1Gb/s.

Суммарные графики IOPS, Bandwidth, latency во время отключения/включения СХД:

Графики IOPS, Bandwidth, latency во время отключения/включения СХД для ВМ:

Приложение 6. Протокол теста «Native MPIO. Влияние отказа СХД на существующую ВМ c СУБД Oracle DB (dev03)»

Для текущего теста стенд описан в Приложении 2. Выбор служебных параметров VDbench описан в Приложении 3.

Протокол теста:

  1. В тестовый стенд на сервер SR650-01 и LUN LUN2_HyperMetro_D5kv6_2_pri мигрирована ВМ dev03 с СУБД Oracle DB. Preffered СХД для данного кластерного LUN является СХД №2.
  2. В 14:21 запущена тестовая нагрузка на ВМ dev03, дополнительно запущен VDbench для фиксации времени приостановки дискового ввода-вывода в конфигурации профиля нагрузки заказчика (Oracle DB) на 14-ти ВМ.
  3. В 14:34 путем полного отключения электропитания сымитирован отказ СХД №2, зафиксировано:
    • Пути на гипервизорах ESXi до СХД №2 перешли в состояние Dead, пути до СХД №1 ранее находившиеся в статусе Active перешли в статус Active (I/O);
    • Полная приостановка ввода-вывода к дискам ВМ на 14 секунд;
    • После приостановки ввода-вывода на ВМ dev03 СУБД Oracle DBосталась доступна и работоспособна, повреждения данных не обнаружено; тестовая нагрузка продолжила свою работу, ошибок с экстренным завершением процесса не обнаружено.
Aug 14, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
Зафиксировано полное прекращение в передаче данных на 14 сек + из-за остановки репликации выросли IOPS с 76к до 80к (5-6%) rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
14:34:33.014 766 77452.0 565.76 7659 68.89 1.433 1.525 1.229 16.73 16.62 0.636 111.0 6.2 4.3
14:34:34.015 767 78134.0 570.54 7656 69.12 1.425 1.513 1.226 17.43 17.44 0.593 111.3 6.1 4.3
14:34:35.014 768 76334.0 557.61 7659 68.74 1.422 1.513 1.221 16.75 15.26 0.630 111.2 6.0 4.2
14:34:36.018 769 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 0.2 0.0
14:34:37.016 770 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.2 0.1
14:34:38.015 771 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 111.9 0.1 0.1
14:34:39.015 772 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 0.1 0.1
14:34:40.015 773 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.1 0.1
14:34:41.015 774 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.1 0.0
14:34:42.014 775 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.2 0.1
14:34:43.015 776 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 0.2 0.1
14:34:44.018 777 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.2 0.1
14:34:45.014 778 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.2 0.1
14:34:46.017 779 2.0 0.02 8192 100.00 10329.86 10329.86 0.000 10599.42 0.00 381.206 112.0 0.1 0.1
14:34:47.015 780 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.1 0.4 0.1
14:34:48.018 781 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 112.0 0.4 0.1
14:34:49.015 782 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 111.9 0.1 0.1
14:34:50.015 783 62506.0 456.91 7665 68.83 26.578 18.360 44.73 14318.94 14310.57 596.654 111.3 5.9 4.2
14:34:51.015 784 76590.0 559.14 7655 68.93 1.454 1.695 0.919 28.34 19.53 0.916 111.3 6.3 4.1
14:34:52.015 785 72472.0 529.05 7654 69.12 1.534 1.793 0.955 24.86 9.46 0.965 111.2 5.7 3.9
14:34:53.015 786 75317.0 548.99 7643 68.93 1.477 1.725 0.927 17.12 10.96 0.906 111.2 5.8 4.1
14:34:54.015 787 75051.0 547.70 7652 68.85 1.481 1.727 0.936 19.03 9.31 0.854 111.2 5.7 4.1
14:34:55.015 788 76383.0 558.08 7661 68.87 1.456 1.698 0.918 19.41 9.59 0.858 111.2 5.8 4.1
14:34:56.020 789 76235.0 556.80 7658 68.98 1.456 1.696 0.922 14.63 11.01 0.844 111.0 5.8 4.0
14:34:57.015 790 79820.0 582.22 7648 68.89 1.391 1.619 0.887 30.95 11.03 0.847 111.0 6.0 4.2
14:34:58.014 791 76184.0 556.41 7658 69.14 1.456 1.695 0.922 20.97 11.47 0.931 111.0 5.9 4.1
14:34:59.014 792 79511.0 579.27 7639 68.84 1.399 1.626 0.897 16.27 10.90 0.813 111.2 5.9 4.3
14:35:00.015 793 78815.0 574.70 7645 68.89 1.412 1.642 0.904 32.47 10.91 0.954 111.3 6.0 4.2
14:35:01.014 794 74434.0 542.82 7646 69.07 1.496 1.743 0.945 44.25 13.47 1.105 111.4 5.3 3.8
14:35:02.014 795 80366.0 586.02 7646 68.95 1.386 1.611 0.886 20.47 8.37 0.792 111.3 6.0 4.3
14:35:03.014 796 79506.0 580.18 7651 69.18 1.399 1.623 0.897 31.43 13.34 0.880 111.3 5.7 4.1
14:35:04.014 797 81454.0 594.74 7656 69.01 1.368 1.587 0.880 17.65 10.80 0.776 111.4 5.9 4.1
14:35:05.014 798 81264.0 592.75 7648 69.25 1.368 1.584 0.882 19.98 11.16 0.786 111.2 6.1 4.3
14:35:06.014 799 84296.0 615.75 7659 69.15 1.320 1.526 0.858 24.94 11.49 0.747 111.2 6.2 4.4
14:35:07.014 800 85549.0 624.10 7649 69.11 1.298 1.501 0.843 16.47 11.47 0.746 111.1 6.3 4.3
14:35:08.018 801 82676.0 603.84 7658 69.24 1.345 1.557 0.869 23.27 12.93 0.836 111.1 6.2 4.4
14:35:09.016 802 84485.0 616.35 7649 68.89 1.317 1.524 0.858 39.73 11.36 0.863 111.2 6.2 4.4
  1. В 14:43 было подано электропитание на СХД №2, через 10 мин. система автоматически запустилась. В 15:53:41 автоматически запустилась синхронизация LUN’ов кластера HyperMetro (Режим работы Automatic, скорость репликации Highest). В ходе синхронизации влияния на работу БД и тестовой нагрузки на ВМ dev03 не обнаружено.
Aug 14, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
в 14_53 зафиксировано падение IOPS на 5-7 % в связи со автоматическим стартом репликации rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
14:53:28.014 1901 85905.0 627.53 7659 68.94 1.291 1.421 1.003 17.18 11.06 0.573 110.9 6.7 4.8
14:53:29.018 1902 86278.0 629.41 7649 68.90 1.287 1.416 1.002 14.23 12.00 0.676 111.1 6.6 4.7
14:53:30.015 1903 80197.0 586.02 7662 69.27 1.378 1.525 1.047 36.36 11.01 0.846 110.5 6.3 4.4
14:53:31.017 1904 80349.0 585.77 7644 69.23 1.382 1.528 1.054 29.98 16.35 0.773 111.1 6.2 4.4
14:53:32.014 1905 85962.0 627.20 7650 68.96 1.291 1.420 1.002 19.68 10.99 0.559 110.9 6.6 4.7
14:53:33.014 1906 85299.0 622.45 7651 69.24 1.300 1.430 1.007 16.98 12.72 0.588 110.9 6.6 4.8
14:53:34.014 1907 84296.0 615.09 7651 69.02 1.318 1.453 1.019 18.83 12.32 0.673 111.1 6.5 4.6
14:53:35.017 1908 85573.0 624.84 7656 69.05 1.298 1.430 1.002 24.95 9.27 0.686 111.1 6.7 4.8
14:53:36.015 1909 85720.0 625.84 7655 68.92 1.291 1.424 0.996 17.06 9.95 0.598 110.6 6.5 4.6
14:53:37.014 1910 86422.0 631.12 7657 68.98 1.282 1.411 0.997 15.46 11.66 0.546 110.8 6.8 4.7
14:53:38.014 1911 86236.0 628.65 7643 68.91 1.287 1.418 0.998 16.42 15.14 0.612 111.0 6.5 4.7
14:53:39.015 1912 83296.0 608.22 7656 68.84 1.334 1.473 1.027 17.33 10.41 0.596 111.1 6.4 4.6
14:53:40.014 1913 85417.0 623.29 7651 68.99 1.301 1.431 1.012 13.00 11.98 0.565 111.1 6.4 4.5
14:53:41.018 1914 80172.0 584.75 7647 68.90 1.386 1.504 1.125 15.32 101.36 0.720 111.1 5.9 4.2
14:53:42.015 1915 73494.0 536.91 7660 69.20 1.511 1.617 1.274 45.47 12.39 0.857 111.1 5.6 4.0
14:53:43.014 1916 77079.0 562.07 7646 68.86 1.439 1.534 1.230 21.57 11.14 0.613 110.9 6.0 4.2
14:53:44.014 1917 77324.0 564.64 7656 68.90 1.433 1.523 1.232 15.40 15.38 0.593 110.8 5.8 4.2
14:53:45.014 1918 78073.0 570.74 7665 69.37 1.422 1.510 1.222 13.08 12.14 0.595 111.0 5.9 4.2
14:53:46.014 1919 77735.0 567.53 7655 69.01 1.431 1.519 1.235 13.86 10.32 0.598 111.3 6.0 4.3
14:53:47.021 1920 78392.0 571.75 7647 69.19 1.417 1.502 1.224 13.76 17.08 0.570 111.0 5.9 4.3
14:53:48.017 1921 78783.0 575.25 7656 69.24 1.409 1.496 1.213 16.02 11.19 0.574 111.0 5.9 4.2
14:53:49.014 1922 77437.0 566.00 7664 69.26 1.433 1.523 1.229 15.17 11.29 0.612 110.9 5.9 4.3
14:53:50.014 1923 75609.0 552.28 7659 68.97 1.470 1.567 1.253 38.23 10.97 0.816 111.1 5.8 4.1
14:53:51.014 1924 75656.0 552.43 7656 68.64 1.466 1.564 1.250 25.93 11.87 0.770 111.1 5.6 4.0
14:53:52.016 1925 78307.0 571.76 7656 68.94 1.421 1.515 1.214 34.71 12.02 0.767 111.1 5.9 4.2
14:53:53.015 1926 78138.0 570.70 7658 68.75 1.427 1.520 1.222 12.92 11.53 0.642 111.5 5.8 4.1
14:53:54.014 1927 79053.0 577.49 7659 68.92 1.406 1.496 1.206 14.39 12.78 0.574 111.1 5.9 4.2
14:53:55.014 1928 78583.0 574.25 7662 68.85 1.410 1.503 1.205 18.64 15.31 0.612 110.8 6.0 4.3
  1. В 16:15 был завершен процесс синхронизации LUN’ов кластера HyperMetro, в результате чего было зафиксировано возвращение путей на ESXi в исходное состояние:
    • Пути на гипервизорах ESXi до СХД №2 перешли в состояние Active на сервере площадки 1 и Active (I/O) на сервере площадки 2, пути до СХД №1 перешли в состояние Active на сервере площадки 2 и Active (I/O) на сервере площадки 1.

Приложение 7. Описание тестового стенда c MPIO-драйвером Huawei UltraPath

Тестовый стенд имитирует два независимых центра обработки данных, объединенных темной оптикой. В каждом центре обработки данных установлен следующий комплект оборудования:

  • одна СХД Huawei Dorado5000 v6;
  • один коммутатор SAN с двенадцатью 16 или 32Gb MM SFP+, c одним одномодовым SFP+;
  • сервер установлен только в ДЦ №2 в следующей конфигурации:
  • один сервер Huawei 2288H V5 (2288H V5 10GE SFP+) (1xCPU, 768GB RAM, 1x10GbE, 2x32Gb FC) с ОС VMware ESXi, 6.7.0, 15160138).
  • на ESXi установлен драйвер OceanStor_UltraPath_21.6.3 для VMware_ESXi;
  • семь ВМ VDbench (8vCPU, 24GB RAM, 16GB disk, 4x600GB тестовые диски с контроллером VMware Paravirtual SCSI).

Дополнительно на существующем оборудовании заказчика развернуты две ВМ:

  • Одна для управления VDbench;
  • Одна для сервера Quorum кластера Huawei HyperMetro.

Серверное оборудование обновлено последними версиями прошивок. На ESXi устанавлены версии драйверов в соответствии с таблицами совместимости Huawei.

На коммутаторах SAN настроено зонирование, обеспечивающее связь.

Описание настроек кластера Huawei HyperMetro для VMware:

  • Все NVMe-диски собираны в один StoragePool в RAID5 с политикой резервирования дисков High;
  • Создан HyperMetro домен из двух СХД Huawei с Quorum сервером, доступным через порты управления обоих контроллеров. Для данного домена создан отдельный пользователь на СХД. Обе СХД осуществляют репликацию через 4 выделенных порта для репликации;
  • Созданы две пары LUN на СХД:
    • На первой СХД – LUN1_pri и LUN2_sec по 21TB;
    • На второй СХД – LUN1_sec и LUN2_pri по 21TB;
    • Из этих LUN собраны две пары HyperMetro, в которых LUN1 назначена роль Preffered на первой СХД, а LUN2 – роль Preffered на второй СХД. Скорость репликации – Highest. Политика восстановления – Automatic.
  • Созданные LUN презентованы хостам с одинаковым LUN ID (10 для LUN1, 11 для LUN2), которые настроены таким образом, чтобы пути к СХД, расположенной на одной площадке с сервером были выбраны как активные, а пути к уделенной СХД как резервные. Для презентации LUN хостам используются 4 выделенных порта для данных:
    • На первой СХД:
      • Сервер Hua2288h-01
        • HyperMetro Working Mode: Local preferred mode
        • OS Setting: VMware ESXi
        • Host Access Mode: Asymmetric
        • Preferred Path for HyperMetro: Yes
      • На второй СХД:
        • Сервер Hua2288h-01
          • HyperMetro Working Mode: Local preferred mode
          • OS Setting: VMware ESXi
          • Host Access Mode: Asymmetric
          • Preferred Path for HyperMetro: No
        • На ESXi выставлен автоматический режим работы MPIO Huawei UltraPath:

esxcli upadm set hypermetro workingmode -m auto

Тестовые диски ВМ размещаются на Preffered LUN локальной СХД. Нумерация ВМ с 8 по 14 на Hua2288h-01.

Схема демо-стенда представлена на рисунке ниже.

Приложение 8. Первоначальное тестирование

В ходе первоначального тестирования проводится наполнение дисков тестовых ВМ vdbench случайными данными и определяется служебный параметр – число потоков vdbench (в конфигурации профиля нагрузки заказчика) при котором достигается нагрузка с максимально оптимальным сочетанием IOPS/Latency. Данный параметр устанавливается равным 2.

Таблица тестирования с различным числом потоков.

BlockSize Thread AverageIOPS AverageLatency AverageMBsec
7653 1 51220,8 0,544 373,87
7654 2 62022,8 0,9 452,73
7654 4 62189,9 1,796 453,97
7654 8 62258,3 3,59 454,47
7654 16 62486,7 7,154 456,14
7654 32 62403,1 14,317 455,52
7654 64 62490,6 28,43 456,18
7654 128 62389,5 56,795 455,46

Графики IOPS, Bandwidth, latency для числа потоков = 2:

Приложение 9. Протокол теста «Huawei MPIO. Имитация отказа СХД №1»

Для текущего теста стенд описан в Приложении 6. Выбор служебных параметров VDbench описан в Приложении 6.1.

Протокол теста:

  1. В 10:56 запущен VDbench со следующими параметрами производительности 57k IOPS 420MB/s в конфигурации профиля нагрузки заказчика (Oracle DB) на 7-ми ВМ.
  2. В 10:57 сервер Quorum отключен, в интерфейсе СХД зафиксировано появление ошибки о недоступности Quorum:
    • Деградации производительности не обнаружено.
  3. В 10:58 сервер Quorum включен, в интерфейсе СХД зафиксировано отсутствие ошибки о недоступности Quorum:
    • Деградации производительности не обнаружено.
  4. В 11:03 путем полного отключения электропитания сымитирован отказ СХД №1, зафиксировано:
    • Пути на гипервизорах ESXi до СХД №1 перешли в состояние Dead;
    • Полная приостановка ввода-вывода к дискам ВМ на 13 секунд;
    • После возобновления ввода-вывода, зафиксирован рост производительности (IOPS) на 2% с 57000 до 59000, при этом значительных колебаний времени отклика от диска не обнаружено.
Aug 14, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
11:02:52.007 439 57242.0 418.11 7659 68.71 0.975 0.994 0.932 16.50 11.86 0.440 55.8 2.5 1.8
11:02:53.007 440 57266.0 417.65 7647 68.81 0.975 0.992 0.937 11.47 14.23 0.394 55.8 2.4 1.8
11:02:54.008 441 58179.0 424.30 7647 69.14 0.961 0.977 0.925 18.26 12.50 0.374 55.9 2.6 1.8
11:02:55.007 442 57771.0 421.64 7652 68.88 0.966 0.985 0.926 10.95 14.45 0.349 55.8 2.4 1.7
11:02:56.007 443 57951.0 423.50 7662 69.16 0.964 0.982 0.926 11.34 11.62 0.342 55.9 2.4 1.8
11:02:57.008 444 58261.0 425.25 7653 69.04 0.960 0.976 0.924 12.23 11.53 0.364 55.9 2.6 1.9
11:02:58.007 445 41604.0 303.48 7648 68.88 0.973 0.992 0.930 9.80 16.20 0.358 55.9 2.0 1.5
11:02:59.009 446 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.0
11:03:00.009 447 82.0 0.63 8004 100.00 1003.11 1003.11 0.000  2 165.08 0.00 1 080.38 56.0 0.1 0.1
11:03:01.008 448 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.0 0.0
11:03:02.007 449 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.0
11:03:03.007 450 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.1
11:03:05.007 452 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.0
11:03:06.008 453 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.1
11:03:07.007 454 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.0
11:03:08.007 455 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.0
11:03:09.007 456 1.0 0.01 8192 100.00 8807.22 8807.22 0.000  8 807.22 0.00 0.000 56.0 0.0 0.0
11:03:10.007 457 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.0 0.0
11:03:11.009 458 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.0
11:03:12.007 459 5308.0 38.47 7598 67.92 133.44 56.10 297.156 11 857.82 1 4245.07 1 279.79 56.0 0.5 0.4
11:03:13.010 460 55399.0 404.64 7658 69.34 1.010 1.164 0.659 13.65 6.33 0.587 55.9 3.5 2.3
11:03:14.008 461 55272.0 404.55 7674 69.47 1.011 1.163 0.665 19.57 4.85 0.588 55.9 2.5 1.7
11:03:15.008 462 57447.0 419.62 7659 68.65 0.973 1.123 0.645 14.68 9.70 0.508 55.9 2.6 1.9
11:03:16.008 463 56160.0 410.22 7659 69.00 0.996 1.147 0.658 14.68 8.24 0.553 55.9 2.4 1.7
11:03:17.008 464 55914.0 408.08 7652 69.38 1.000 1.150 0.660 10.36 5.05 0.534 55.9 2.6 1.9
11:03:18.008 465 55523.0 405.55 7658 68.93 1.006 1.157 0.671 14.10 9.14 0.541 55.9 2.4 1.8
11:03:19.008 466 56820.0 414.06 7641 69.25 0.981 1.127 0.653 5.85 3.27 0.497 55.9 2.3 1.7
11:03:20.008 467 55732.0 406.37 7645 68.74 1.004 1.156 0.671 21.42 9.76 0.635 55.8 2.5 1.9
11:03:21.008 468 58948.0 429.56 7641 68.81 0.948 1.090 0.635 11.39 2.09 0.479 55.9 2.7 1.9
11:03:22.008 469 56811.0 415.52 7669 68.90 0.984 1.133 0.653 16.04 6.16 0.571 55.9 2.4 1.8
11:03:23.008 470 58032.0 423.70 7655 69.31 0.963 1.107 0.638 12.60 2.92 0.512 55.9 2.6 1.9
  1. В 11:10 было подано электропитание на СХД №1, через 10 минут система автоматически запустилась. В 11:22:14 автоматически запустилась синхронизация LUN’ов кластера HyperMetro (Режим работы Automatic, скорость репликации Highest), в результате чего было зафиксировано:
    • Снижение производительности (IOPS) на 16% с 59000 до 49000, при этом значительных колебаний времени отклика от диска не обнаружено;
    • Незначительные колебания загруженности процессора на контроллерах СХД с 25-30% до 40-45%;
    • Загруженность линка SAN между площадками составляет не более 4Gb/s.
Aug 14, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
11:22:08.010 1595 58904.0 429.03 7637 68.63 0.948 1.088 0.641 36.22 11.07 0.700 55.8 2.5 1.9
11:22:09.008 1596 59473.0 434.04 7652 69.22 0.936 1.070 0.636 17.11 9.84 0.465 55.7 2.4 1.8
11:22:10.008 1597 58811.0 429.14 7651 68.81 0.948 1.087 0.642 9.66 2.54 0.465 55.8 2.6 1.9
11:22:11.008 1598 58640.0 428.61 7664 68.93 0.95 1.094 0.64 16.42 4.29 0.531 55.9 2.4 1.8
11:22:12.008 1599 59221.0 432.47 7657 68.79 0.944 1.083 0.637 19.60 4.37 0.502 55.9 2.6 1.9
11:22:13.008 1600 59493.0 434.47 7657 69.04 0.940 1.076 0.635 12.08 7.99 0.486 55.9 2.5 1.8
11:22:14.007 1601 52570.0 383.85 7656 69.32 1.063 1.137 0.895 16.14 101.68 0.647 55.9 2.3 1.7
11:22:15.007 1602 50158.0 365.77 7646 68.84 1.115 1.153 1.030 7.65 3.94 0.41 55.9 2.2 1.7
11:22:16.008 1603 49160.0 358.11 7638 69.19 1.138 1.178 1.048 12.42 10.98 0.442 55.9 2.3 1.7
11:22:17.008 1604 49811.0 363.13 7644 68.66 1.123 1.166 1.029 11.61 8.04 0.428 55.9 2.4 1.8
11:22:18.008 1605 49202.0 359.53 7662 69.51 1.136 1.177 1.044 18.33 12.63 0.461 55.9 2.4 1.8
11:22:19.007 1606 50652.0 369.72 7653 68.91 1.104 1.139 1.025 14.79 16.75 0.407 55.9 2.4 1.8
11:22:20.007 1607 49604.0 362.48 7662 69.26 1.126 1.165 1.039 12.75 7.09 0.452 55.9 2.2 1.6
11:22:21.008 1608 50163.0 365.41 7638 68.74 1.115 1.152 1.033 16.49 11.75 0.461 55.9 2.3 1.7
11:22:22.007 1609 49263.0 360.35 7670 69.04 1.135 1.174 1.047 12.70 12.15 0.486 55.9 2.2 1.6
11:22:23.008 1610 49301.0 358.62 7627 69.19 1.134 1.173 1.046 11.16 16.58 0.480 55.9 2.4 1.7
11:22:24.008 1611 49644.0 362.56 7657 68.65 1.125 1.162 1.043 16.74 11.76 0.460 55.8 2.3 1.6
11:22:25.008 1612 49059.0 358.34 7659 68.77 1.140 1.184 1.044 11.31 10.70 0.458 55.9 2.2 1.6
11:22:26.008 1613 49102.0 358.14 7648 69.04 1.137 1.177 1.047 15.21 11.30 0.489 55.8 2.2 1.6
  1. В 12:16 был завершен процесс синхронизации LUN’ов кластера HyperMetro, в результате чего было зафиксировано возвращение путей на ESXi в исходное состояние:
    • Пути на гипервизорах ESXi до СХД №1 перешли в состояние Active;
    • Загруженность линка SAN между площадками сократилась до 1Gb/s.

Суммарные графики IOPS, Bandwidth, latency во время отключения/включения СХД:

Графики IOPS, Bandwidth, latency во время отключения/включения СХД для ВМ:

Приложение 10. Протокол теста «Huawei MPIO. Имитация отказа СХД №2»

Для текущего теста стенд описан в Приложении 7. Выбор служебных параметров VDbench описан в Приложении 9.

Протокол теста:

  1. В 13:11 запущен VDbench со следующими параметрами производительности 57k IOPS 420MB/s в конфигурации профиля нагрузки заказчика (Oracle DB) на7-ти ВМ.
  2. В 13:14 путем полного отключения электропитания сымитирован отказ СХД №2, зафиксировано:
    • Пути на гипервизорах ESXi до СХД №2 перешли в состояние Dead;
    • Полная приостановка ввода-вывода к дискам ВМ на 13 секунд, после чего, зафиксирован рост производительности (IOPS) на 16% с 55000 до 66000, при этом значительных колебаний времени отклика от диска не обнаружено.
Aug 14, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
13:14:03.009 148 56568.0 413.12 7657 69.14 0.988 1.007 0.94 16.65 10.49 0.38 55.9 2.7 1.9
13:14:04.009 149 55441.0 404.65 7653 69.44 1.01 1.04 0.9 10.98 12.51 0.46 55.9 2.6 1.8
13:14:05.009 150 15041.0 110.16 7679 69.44 0.99 1.004 0.94 7.17 4.87 0.35 55.9 0.9 0.6
13:14:06.014 151 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.0 0.0
13:14:07.009 152 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.0
13:14:08.009 153 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.0 0.0
13:14:09.010 154 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.1 0.1 0.1
13:14:10.009 155 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 55.9 0.0 0.0
13:14:11.010 156 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.1 0.1 0.1
13:14:12.009 157 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 55.9 0.1 0.1
13:14:13.008 158 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.0 0.0
13:14:14.009 159 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.0
13:14:15.027 160 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.6 0.0 0.0
13:14:16.010 161 1.0 0.01 8192 100.00 11707.89 11707.89 0.000 11707.89 0.00 0.000 55.4 0.0 0.0
13:14:17.008 162 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.0
13:14:18.008 163 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 56.0 0.1 0.0
13:14:19.008 164 35429.0 258.13 7639 68.86 22.96 11.56 48.15 14134.03 14222.77 552.44 55.9 1.9 1.3
13:14:20.008 165 55527.0 404.71 7642 68.96 1.006 1.127 0.736 11.02 4.01 0.474 55.9 3.0 1.8
13:14:21.008 166 53062.0 387.34 7654 69.19 1.054 1.189 0.751 12.67 5.28 0.563 55.9 2.8 1.9
13:14:22.008 167 53469.0 390.76 7663 69.19 1.045 1.177 0.749 22.82 5.36 0.594 55.9 2.6 1.9
13:14:23.008 168 53242.0 388.85 7658 69.46 1.051 1.185 0.746 13.48 6.54 0.560 55.9 2.7 1.9
13:14:24.008 169 52069.0 380.77 7668 69.47 1.073 1.200 0.785 9.94 9.99 0.498 55.9 2.4 1.7
13:14:25.008 170 50329.0 368.21 7671 68.99 1.111 1.224 0.858 11.98 7.78 0.513 55.9 2.3 1.6
13:14:26.007 171 50040.0 365.83 7665 69.34 1.117 1.242 0.835 11.30 2.57 0.522 55.9 2.1 1.5
13:14:27.010 172 52695.0 385.09 7662 68.96 1.062 1.198 0.759 12.11 4.36 0.561 55.9 2.2 1.6
13:14:28.009 173 55019.0 402.22 7665 69.43 1.016 1.142 0.730 21.22 4.90 0.535 55.9 2.5 1.8
13:14:29.008 174 55311.0 403.68 7652 69.31 1.010 1.132 0.735 12.54 10.55 0.529 55.9 2.5 1.7
13:14:30.008 175 56289.0 411.48 7665 69.29 0.993 1.114 0.718 12.66 3.09 0.457 55.9 2.6 1.9
13:14:31.008 176 56541.0 412.59 7651 68.59 0.989 1.112 0.718 17.35 2.48 0.495 55.9 2.7 1.9
13:14:32.008 177 57060.0 416.28 7649 68.68 0.979 1.101 0.713 10.45 2.89 0.452 55.9 2.6 1.9
13:14:33.007 178 57545.0 419.77 7648 69.02 0.971 1.090 0.707 13.28 14.46 0.449 55.9 2.5 1.8
13:14:34.007 179 58552.0 427.36 7653 69.03 0.955 1.067 0.703 12.15 7.75 0.424 55.9 2.6 1.8
13:14:35.008 180 58938.0 430.11 7652 68.98 0.948 1.061 0.697 9.64 6.33 0.436 55.9 2.7 2.0
13:14:36.010 181 58682.0 428.15 7650 68.85 0.952 1.065 0.703 12.24 3.22 0.454 55.9 2.8 1.9
13:14:37.008 182 60001.0 438.40 7661 69.23 0.932 1.037 0.697 10.81 9.52 0.409 55.9 3.8 1.9
13:14:38.008 183 59407.0 434.02 7660 69.18 0.941 1.050 0.696 11.76 9.93 0.453 55.9 2.3 1.7
13:14:39.008 184 59776.0 436.56 7658 69.09 0.935 1.043 0.693 11.99 2.95 0.431 55.9 4.1 1.9
13:14:40.009 185 59742.0 436.30 7657 68.84 0.935 1.044 0.695 17.22 9.91 0.456 55.9 2.8 2.0
13:14:41.008 186 60138.0 438.41 7644 68.77 0.929 1.037 0.692 13.27 10.68 0.446 55.9 2.8 2.0
13:14:42.008 187 59885.0 437.78 7665 69.32 0.933 1.039 0.693 16.37 9.79 0.450 55.9 2.5 1.8
13:14:43.008 188 59821.0 436.55 7652 68.86 0.934 1.043 0.694 12.39 3.10 0.449 55.9 2.6 1.8
13:14:44.008 189 62053.0 452.88 7652 69.00 0.900 1.010 0.657 10.98 10.00 0.438 55.9 2.5 1.8
13:14:45.008 190 67798.0 494.75 7651 69.14 0.824 0.932 0.584 16.89 10.96 0.408 55.9 2.7 1.9
13:14:46.008 191 68041.0 496.81 7656 68.98 0.821 0.929 0.581 15.08 11.39 0.418 55.9 2.9 2.1
13:14:47.010 192 66568.0 485.58 7648 68.99 0.839 0.952 0.588 47.36 7.08 0.755 55.9 3.2 2.3
  1. В 13:22 было подано электропитание на СХД №2, через 10 минут система автоматически запустилась. В 13:35:24 автоматически запустилась синхронизация LUN’ов кластера HyperMetro (Режим работы Automatic, скорость репликации Highest), в результате чего было зафиксировано:
    • Снижение производительности (IOPS) на 16% с 66000 до 55000, при этом значительных колебаний времени отклика от диска не обнаружено;
    • Незначительные колебания загруженности процессора на контроллерах СХД с 25-30% до 40-45%;
    • Загруженность SAN – линка между площадками составляет не более 4Gb/s.
Aug 14, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
13:35:17.008 1422 66577.0 486.37 7660 69.05 0.838 0.949 0.591 13.01 10.69 0.416 55.8 2.9 2.2
13:35:18.007 1423 66501.0 485.93 7662 69.16 0.839 0.952 0.588 15.44 5.02 0.430 55.8 2.9 2.1
13:35:19.007 1424 67157.0 489.94 7649 68.71 0.832 0.943 0.589 10.89 9.31 0.407 55.9 2.8 2.1
13:35:20.008 1425 66308.0 483.90 7652 69.18 0.843 0.955 0.591 15.36 3.95 0.427 55.9 2.7 2.0
13:35:21.007 1426 66555.0 485.98 7656 68.88 0.839 0.952 0.589 11.02 2.25 0.400 55.9 2.7 2.1
13:35:22.008 1427 67180.0 489.97 7647 68.81 0.831 0.943 0.586 10.87 9.86 0.404 55.8 2.8 2.1
13:35:23.007 1428 65991.0 481.30 7647 68.99 0.845 0.960 0.589 9.96 9.39 0.434 55.8 2.6 2.0
13:35:24.007 1429 57036.0 416.56 7658 69.21 0.979 1.015 0.900 10.75 104.95 0.725 55.9 2.5 1.9
13:35:25.007 1430 55709.0 406.16 7644 68.97 1.003 1.018 0.971 11.80 11.35 0.375 55.9 2.6 1.9
13:35:26.007 1431 54863.0 399.85 7642 68.54 1.018 1.035 0.982 11.37 11.34 0.402 55.8 2.5 1.9
13:35:27.007 1432 55112.0 402.72 7662 69.04 1.013 1.029 0.977 13.07 8.76 0.420 55.8 2.3 1.7
13:35:28.007 1433 55488.0 404.75 7648 68.65 1.005 1.020 0.972 12.09 11.10 0.382 55.8 2.5 1.8
13:35:29.007 1434 54963.0 401.55 7660 69.08 1.017 1.034 0.978 11.52 9.94 0.409 55.9 2.6 2.0
13:35:30.007 1435 55591.0 405.77 7653 68.84 1.006 1.019 0.976 11.07 15.70 0.366 55.9 2.4 1.8
13:35:31.007 1436 55593.0 405.92 7656 68.61 1.004 1.019 0.971 14.32 10.01 0.376 55.8 2.4 1.8
13:35:32.007 1437 55107.0 402.44 7657 68.96 1.014 1.030 0.977 10.58 10.87 0.372 55.9 2.4 1.8
13:35:33.007 1438 55189.0 402.94 7655 68.84 1.012 1.028 0.976 17.11 10.74 0.401 55.9 2.3 1.7
13:35:34.007 1439 54306.0 396.32 7652 68.88 1.029 1.047 0.989 10.65 10.62 0.409 55.8 2.5 1.9
  1. В 14:26 был завершен процесс синхронизации LUN’ов кластера HyperMetro, в результате чего было зафиксировано возвращение путей на ESXi в исходное состояние:
    • Пути на гипервизорах ESXi до СХД №2 перешли в состояние Active;
    • Загруженность SAN – линка между площадками сократилась до 1Gb/s.

Суммарные графики IOPS, Bandwidth, latency во время отключения/включения СХД:
Графики IOPS, Bandwidth, latency во время отключения/включения СХД для ВМ:
Приложение 11. Протокол теста «Native MPIO-драйвер. Влияние функции виртуализации СХД Huawei на производительность»

За основу взят стенд, описанный в Приложении 2 со следующими корректировками:

  • В сети SAN добавлены зоны от сервера SR650-1 до существующей СХД VNX5700 и от СХД Huawei Dorado 5000v6 №2 до существующей СХД VNX5700;
  • С СХД VNX5700 вышеуказанному оборудованию был презентован LUN на 8TB.

Протокол теста:

  1. Том с СХД VNX5700 на ESXi сервере SR650-1 форматируется в VMFS. Каждой из семи тестовых ВМ VDbench, расположенных на сервере SR650-1, выделяется один диск на 1TB на данном VMFS Datastore;
  2. Запускается тестирование, в ходе которого проводится наполнение дисков тестовых ВМ vdbench случайными данными и определяется служебный параметр – число потоков vdbench (в конфигурации профиля нагрузки заказчика), при котором достигается нагрузка с максимально оптимальным сочетанием IOPS/Latency. В ходе первоначального тестирования данный параметр устанавливается равным 4.

Таблица тестирования с различным числом потоков:

TestName IOPS MBsec AverageRespTime RespTime<1ms RespTime>1ms<2ms RespTime>2ms<4ms RespTime>4ms
Initial_1_Native1_Virt 1820,8 13,29 3,83 31,5702 1,2344 20,3022 46,8932
Initial_1_Native2_Virt 1809,5 13,21 3,854 31,6028 1,2138 20,203 46,9804
Initial_1_Native3_Virt 1815,5 13,25 3,842 31,6535 1,1844 20,2211 46,941
Initial_2_Native1_Virt 3115,8 22,74 4,48 31,5352 0,8479 16,6688 50,9481
Initial_2_Native2_Virt 3074 22,44 4,541 31,5038 0,837 16,3411 51,3181
Initial_2_Native3_Virt 3070 22,41 4,547 31,515 0,8259 16,3966 51,2625
Initial_4_Native1_Virt 4891,1 35,71 5,714 30,4533 1,0372 12,8924 55,6171
Initial_4_Native2_Virt 4879,5 35,62 5,727 30,4191 1,0421 12,7068 55,832
Initial_4_Native3_Virt 4873,8 35,58 5,734 30,4468 1,0327 12,6609 55,8596
Initial_8_Native1_Virt 5088,9 37,15 10,991 0,3765 1,0297 5,6413 92,9525
Initial_8_Native2_Virt 5067 36,98 11,039 0,3871 1,0242 5,6161 92,9726
Initial_8_Native3_Virt 5079,8 37,08 11,011 0,3707 1,038 5,6303 92,961
Initial_16_Native1_Virt 5072,7 37,03 22,064 0 0 0 100
Initial_16_Native2_Virt 5084,6 37,12 22,013 0 0 0 100
Initial_16_Native3_Virt 5083,6 37,11 22,017 0 0 0 100
Initial_32_Native1_Virt 5068,1 36,99 44,183 0 0 0 100
Initial_32_Native2_Virt 5079,6 37,08 44,083 0 0 0 100
Initial_32_Native3_Virt 5065,8 36,98 44,203 0 0 0 100

Графики IOPS, Bandwidth, latency для числа потоков = 4 для трех первоначальных тестов:

  1. Том СХД VNX5700 на ESXi сервере SR650-1 отсоединяется, виртуализуется через СХД Huawei Dorado 5000v6 №2 и вновь презентуется серверу c LUN ID аналогичным СХД VNX5700. Виртуализованный том монтируется на ESXi с опцией «Keep existing signature» с прежним именем Datastore;
  2. Проводится повторное тестирование с установленным ранее числом потоков. В результате сравнения результатов:
    1. Зафиксировано незначительное увеличение времени отклика на 2%, с 5,72 до 5,86, также зафиксированы всплески во времени отклика;
    2. Зафиксировано незначительное ухудшение производительности (IOPS) на 2%, с 4881 до 4764.

 Результаты тестирования:

TestName IOPS MBsec Average
RespTime
RespTime<1ms RespTime>1ms<2ms RespTime>2ms<4ms RespTime>4ms
Work_4_Native1_Virt 4787,9 34,95 5,837 27,7205 4,007 11,0207 57,2518
Work_4_Native2_Virt 4760,8 34,75 5,87 27,761 3,9537 11,0475 57,2378
Work_4_Native3_Virt 4746,9 34,65 5,887 27,6923 4,0415 10,9868 57,2794

 Графики IOPS, Bandwidth, latency:

Графики IOPS, Bandwidth, latency со сравнением до и после виртуализации:

Приложение 12. Протокол теста «Native MPIO. Влияние процесса создание и удаления моментальных снимков (снапшотов) на производительность ВМ»

Для текущего теста стенд описан в Приложении 2. Выбор служебных параметров VDbench описан в Приложении 3.

Протокол теста:

  1. В тестовом стенде на сервере SR650-01 на ВМ slave07 (8xCPU, 96GB Memory, 16GB System Disk) был создан тестовый диск размером 5TB, который был наполнен случайными данными;
  2. В 10:54:59 запущен процесс создания полного снапшота на ВМ slave07;
  3. В 10:55 запущена тестовая нагрузка(600MB/s) на ВМ slave07 c размером блока 1MB, соотношением чтения/записи 50/50, числом потоков VDbench=4;
  4. В 11:00:51 завершился процесс создания снапшота ВМ slave07, занявший 6 минут и 2 секунды;

  1. В 11:13 после изменения тестовой нагрузкой не менее 200GB данных на диске ВМ slave07, запущен процесс удаления снапшота завершившийся в 12:09:13 и занявший 55 минут и 50 секунд.

Время завершения процесса:

  1. В 12:11:17 запущен процесс создания полного снапшота на ВМ slave07, занявший 6 минут и 11 секунд;
  2. В 12:29 после изменения тестовой нагрузкой не менее 200GB данных на диске ВМ slave07, запущен процесс удаления снапшота завершившийся в 13:25:43 и занявший 54 минуты и 25 секунд.

Время завершения процесса:

  1. В результате процесса создания и удаления снапшотов зафиксировано:
    • Время создания снапшота под нагрузкой на тестовой ВМ с диском размером 5TB занимает 6 минут, после полного завершения процесса создания зафиксирована деградация производительности(MB/s) на 38% с 980 до 600.
    • Время удаления снапшота под нагрузкой на тестовой ВМ с диском 5TB и изменением не менее 200GB данных на нем занимает 56 минут, при этом:
      • С начала запуска процесса удаления зафиксирована деградация производительности(MB/s) на 10% с 600 до 500.
      • Во время процесса удаления снапшота зафиксированы многочисленные кратковременные приостановки ввода-вывода на ВМ slave07 на 1 секунду;
  • Во время завершения процесса удаления снапшота зафиксирована приостановка ввода-вывода на ВМ slave07 на 6 секунд, после полного завершения процесса удаления зафиксирован рост производительности(MB/s) на 48% с 500 до 980.
Aug,2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
Кратковременные приостановки:
11:13:25.003 1086 300.0 300.00 1048576 53.00 8.671 8.003 9.423 176.71 182.47 19.846 3.9 1.3 0.6
11:13:26.004 1087 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 4.0 0.0 0.0
11:13:28.004 1089 350.0 350.00 1048576 51.71 37.979 7.706 70.402 15.96 2614.52 275.137 3.9 1.8 0.9
11:26:34.003 1875 472.0 472.00 1048576 48.94 7.865 7.134 8.565 28.63 25.54 3.288 3.9 2.5 1.3
11:26:35.003 1876 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 4.0 0.2 0.2
11:26:36.003 1877 389.0 389.00 1048576 48.33 20.874 20.457 21.263 1268.29 1265.71 126.956 3.9 2.4 1.1
11:49:43.005 3264 463.0 463.00 1048576 45.79 7.616 7.087 8.062 13.43 20.39 2.345 3.9 2.4 1.0
11:49:44.003 3265 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 4.0 0.0 0.0
11:49:45.003 3266 130.0 130.00 1048576 50.77 64.274 62.694 65.903 1811.79 1816.47 312.937 4.0 0.9 0.5
Приостановка при завершении процесса удаления снапшота:
12:09:03.003 735 503.0 503.00 1048576 51.49 7.771 7.534 8.024 15.10 23.81 2.177 3.9 2.5 1.3
12:09:04.003 736 451.0 451.00 1048576 46.34 8.677 7.935 9.317 21.18 27.76 3.029 3.9 2.5 1.5
12:09:05.002 737 473.0 473.00 1048576 50.32 8.218 7.645 8.799 33.22 49.82 3.856 3.9 2.5 1.4
12:09:13.125 738 231.0 231.00 1048576 48.05 140.290 145.519 135.454 7604.61 7574.74 989.989 32.4 0.2 0.1
12:09:13.127 739 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 0.1 0.0 0.0
12:09:13.134 740 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 0.0 100.0 0.0
12:09:13.138 741 2.0 2.00 1048576 100.00 5.873 5.873 0.000 5.98 0.00 0.155 0.0 NaN NaN
12:09:13.139 742 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 0.0 100.0 0.0
12:09:13.141 743 1.0 1.00 1048576 0.00 32.261 0.000 32.261 0.00 32.26 0.000 0.0 0.0 0.0
12:09:13.142 744 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 0.0 NaN NaN
12:09:13.144 745 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 0.0 50.0 0.0
12:09:14.004 746 683.0 683.00 1048576 46.41 4.917 5.428 4.475 11.47 34.15 1.736 3.3 4.6 2.0
12:09:15.003 747 838.0 838.00 1048576 51.19 4.564 5.052 4.053 11.13 6.82 1.182 3.8 4.8 2.5
12:09:16.004 748 834.0 834.00 1048576 49.88 4.571 5.083 4.061 15.23 10.35 1.396 3.8 4.0 1.6
12:09:17.003 749 889.0 889.00 1048576 51.07 4.286 4.760 3.792 10.53 6.64 1.121 3.8 4.3 1.8
12:09:18.004 750 873.0 873.00 1048576 51.09 4.368 4.846 3.869 13.78 8.46 1.345 3.8 3.9 1.3

График Bandwidth во время процесса создания и удаления снапшотов СХД:

Приложение 13. Протокол теста «Huawei MPIO. Влияние процесса создания и удаления моментальных снимков (снапшотов) на томах VVOL на производительность ВМ»

Для текущего теста стенд описан в Приложении 7.

Протокол теста:

  1. В тестовый стенд внесены следующие изменения:
    • Развернут тестовый управляющий сервер vCenter версии 6.7U3j;
    • Развернут Huawei VASA-провайдер версии 2.1.19, который был зарегистрирован на VMware vCenter версии 6.7U3j;
    • СХД №2 Dorado5000v6 обновлена до версии 6.0.1 SPH5 и зарегистрирована на VASA-провайдере с созданием Storage Container и Storage Profile для ВМ на SSD дисках;
    • В VMware vCenter создан VVOL Datastore с политиками хранения ВМ на дисках SSD, на данный Datastore была смигрирована ВМ slave
  2. В тестовом стенде на сервере Hua2288h-01на ВМ slave07 (8xCPU, 96GB Memory, 16GB System Disk) был создан тестовый диск размером 5TB, который был наполнен случайными данными;
  3. В 17:12 запущена тестовая нагрузка(900MB/s) на ВМ slave07 c размером блока 1MB, соотношением чтения/записи 50/50, числом потоков VDbench=2;
  4. В 17:14:49 запущен процесс создания полного снапшота на ВМ slave07;
  5. В 18:27:16 завершился процесс создания снапшота ВМ slave07, занявший 1 час 12 минут и 27 секунд;
  6. В 18:37:31 после изменения тестовой нагрузкой не менее 200GB данных на диске ВМ slave07, запущен процесс удаления снапшота завершившийся в 18:37:40 и занявший 9 секунд.
  7. В 19:03:18 запущен процесс создания снапшота без ОЗУ на ВМ slave07, занявший 14 секунд;
  8. В 19:13:18 после изменения тестовой нагрузкой не менее 200GB данных на диске ВМ slave07, запущен процесс удаления снапшота завершившийся в 19:13:18 и занявший 18 миллисекунд.
  9. В результате процесса создания и удаления снапшотов отмечено:
    • Текущая версия VASA-провайдера работает нестабильно с периодическим переходом состояния регистрации данного провайдера на vCenter в состояние Disconnected. При этом:
      • ВМ остается доступна, но любые операции с ней  невозможны;
      • VVOL Datastore переходит в состояние Inaccessible.
    • Время создания и удаления снапшотов с ОЗУ:
      • Создание занимает 1 час 12 минут и 27 секунд;
      • Удаление занимает 9 секунд.
    • Время создания и удаления снапшотов без ОЗУ:
      • Создание занимает 14 секунд;
      • Удаление занимает 18 миллисекунд.
    • При создании и удалении снапшотов отмечено:
      • При создании или удалении снапшота не зафиксирована существенная деградация производительности;
      • Во время начала процесса создания снапшота или завершении процесса удаления снапшота зафиксирована приостановка ввода-вывода на ВМ slave07 на 7 секунд.
Aug, 2020 interval i/o MB/sec bytes read resp read write read write resp queue cpu% cpu%
rate 1024**2 i/o pct time resp resp max max stddev depth sys+u sys
Приостановка при создании снапшота:
17:14:41.004 96 954.0 954.00 1048576 48.22 1.975 2.754 1.249 5.27 3.24 0.844 1.9 2.2 0.9
17:14:42.004 97 953.0 953.00 1048576 45.75 1.973 2.806 1.271 7.04 4.50 0.893 1.9 2.1 0.8
17:14:49.757 98 2869.0 2869.00 1048576 50.30 5.068 8.663 1.430 4178.08 82.71 109.816 14.6 5.0 2.4
17:14:49.759 99 16.0 16.00 1048576 43.75 6.980 6.872 7.064 10.81 16.06 4.093 0.1 55.2 24.1
17:14:49.791 100 4.0 4.00 1048576 50.00 3.848 4.540 3.155 4.91 3.38 0.873 0.0 NaN NaN
17:14:49.799 101 1.0 1.00 1048576 100.00 17.622 17.622 0.000 17.62 0.00 0.000 0.0 57.1 14.3
17:14:49.810 102 3.0 3.00 1048576 0.00 9.761 0.000 9.761 0.00 17.08 7.129 0.0 100.0 0.0
17:14:49.816 103 4.0 4.00 1048576 50.00 6.180 8.829 3.532 13.11 4.04 4.661 0.0 75.0 50.0
17:14:49.818 104 4.0 4.00 1048576 75.00 11.089 11.277 10.525 12.30 10.53 0.833 0.0 50.0 25.0
17:14:50.009 105 59.0 59.00 1048576 52.54 7.225 8.085 6.273 20.38 28.12 6.439 0.4 48.3 19.1
17:14:51.009 106 946.0 946.00 1048576 50.32 1.995 2.741 1.241 7.48 2.63 0.867 1.9 2.3 0.8
17:14:52.014 107 948.0 948.00 1048576 47.26 1.984 2.770 1.279 5.65 3.58 0.838 1.9 2.3 0.8
Приостановка при завершении процесса удаления снапшота:
18:37:26.002 5061 930.0 930.00 1048576 51.72 1.867 2.528 1.160 9.27 2.11 0.818 1.7 1.8 0.4
18:37:27.001 5062 960.0 960.00 1048576 50.73 1.804 2.450 1.139 4.41 2.20 0.750 1.7 2.0 0.7
18:37:31.603 5063 621.0 621.00 1048576 52.50 7.493 13.237 1.145 3485.39 2.31 139.791 5.1 13.3 13.0
18:37:31.604 5064 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 0.9 NaN NaN
18:37:31.605 5065 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 0.9 NaN NaN
18:37:31.606 5066 0.0 0.00 0 0.00 0.000 0.000 0.000 0.00 0.00 0.000 0.9 NaN NaN
18:37:33.438 5067 366.0 366.00 1048576 46.72 18.146 15.675 20.313 1128.27 3720.82 211.138 3.5 0.4 0.2
18:37:33.439 5068 1.0 1.00 1048576 100.00 2.334 2.334 0.000 2.33 0.00 0.000 0.0 NaN NaN
18:37:34.003 5069 751.0 751.00 1048576 48.74 1.799 2.487 1.146 5.87 2.57 0.773 1.4 2.5 0.8
18:37:35.003 5070 930.0 930.00 1048576 52.04 1.861 2.503 1.165 10.93 2.40 0.858 1.7 2.6 1.1
18:37:36.002 5071 889.0 889.00 1048576 53.66 1.962 2.512 1.325 6.74 71.68 2.468 1.7 1.9 0.5
18:37:37.003 5072 930.0 930.00 1048576 51.72 1.869 2.533 1.159 9.17 7.11 0.853 1.7 2.3 0.7
    • График Bandwidth во время процесса создания и удаления снапшотов СХД:

 

Приложение 14. Протокол теста «Huawei MPIO-драйвер. Установка патчей на СХД»

Для текущего теста стенд описан в Приложении 2. Выбор служебных параметров VDbench описан в Приложении 3.

Протокол теста:

  1. В 14:18 запущен VDbench со следующими параметрами производительности 46k IOPS 340MB/s в конфигурации профиля нагрузки заказчика (Oracle DB) на семи ВМ;
  2. В 14:23 был запущен процесс установки «горячего» патча (HotPatch) на СХД №2, данный процесс завершился в 14:30;
  3. В 14:30 был запущен процесс установки «горячего» патча на СХД №1, данный процесс завершился в 14:36;
  4. В процессе установки «горячих» патчей и после его завершения существенного влияния на производительность не зафиксировано.

Суммарные графики IOPS, Bandwidth, latency во время установки патчей на СХД:

]]>
https://bonlesave.ru/2022/08/18/testirovanie-sistem-hraneniya-dannyh-huawei-dorado-v6-v-klastere-hypermetro/feed/ 0
Тестирование СХД Lenovo ThinkSystem DE6000F по протоколу передачи NVMe over FC https://bonlesave.ru/2022/08/16/testirovanie-shd-lenovo-thinksystem-de6000f-po-protokolu-peredachi-nvme-over-fc/ https://bonlesave.ru/2022/08/16/testirovanie-shd-lenovo-thinksystem-de6000f-po-protokolu-peredachi-nvme-over-fc/#comments Tue, 16 Aug 2022 03:47:33 +0000 https://bonlesave.ru/?p=9745 Continue reading "Тестирование СХД Lenovo ThinkSystem DE6000F по протоколу передачи NVMe over FC"]]> Disclaimer:  все дальнейшие рассуждения, настройки и выбранные методы тестирования могут быть ошибочны. Никакого отношения к компаниям Lenovo, NetApp, Broadcom мы не имеем.

Вступление

Осенью 2021 года в наши загребущие ручонки попала система хранения данных (СХД) Lenovo ThinkSystem DE6000F с внутренней поддержкой протокола передачи NVMe и установленными дисками SAS SSD. Система также позволяет использовать протокол NVMe в среде сети хранения данных (SAN, Storage Area Network). Поскольку это вторая система хранения такого типа в наших руках, то решено подключить её к SAN по протоколу NVMe over FC (NVMe/FC) и проверить, реализуются ли на практике теоретические преимущества протокола NVMe.  Чтобы переключить СХД на использование нового протокола, на сайте Lenovo FOD получена соответствующая лицензия. СХД не может одновременно использовать несколько протоколов в одной среде передачи, поэтому включение протокола NVMe/FC приводит к отключению возможности работы по протоколу FC. Соответственно, СХД пропадает из зоны доступности серверов, FC-адаптеры которых не могут работать с новым протоколом.  Из имеющихся для стендирования серверов поддержку NVMe over FC «из коробки» имеют серверы Lenovo ThinkServer SR650 c 32-гигабитными FC-адаптерами и серверы Lenovo ThinkServer SR630 с 16 -гигабитными FС-адаптерами после обновления прошивок и драйверов FC-адаптеров.

Подключение и настройка

На серверах обновлены прошивки FC-адаптеров, установлены новые версии драйверов и включена поддержка протокола NVMe over FC. В отличие от СХД сервер может одновременно осуществлять передачу по нескольким протоколам, поэтому на работоспособность имеющейся системы настройки не повлияли.  На системе хранения были проведены подготовительные процедуры – все данные были перенесены на другие СХД, хранилища отмонтированы от серверов. После активации протокола NVMe/FC зоны SAN были исправлены в соответствии с новыми адресами системы хранения. Назначение LUN серверам на системе хранения переписано в соответствии с новыми адресами серверов. Хранилища с первого раза не увиделись серверами, поэтому пришлось их удалить и создать заново.

Конфигурация полигонов

Использовалось два полигона, один из серверов с 16 Гб/с FC –адаптерами, второй из серверов с 32 Гб/с FC – адаптерами.

Первый полигон: среда виртуализации VMware vSphere 7, пять хостов Lenovo ThinkServer SR630 (2x18C Xeon Gold 6154 3,0 ГГц, 768 ГБ ОЗУ, 2-портовый FC-адаптер QLogic QLE 2962, 16Гб/с).

Второй полигон: среда виртуализации VMware vSphere 7, два хоста Lenovo ThinkServer SR650 (2x16C Xeon Gold 6226R 2,9 ГГц, 768 ГБ ОЗУ, 2-портовый FC-адаптер Emulex LPe 35002, 32 Гб/с).

Тестовая машина: виртуальный сервер под управлением ОС Microsoft Windows Server 2022 Std, память 4 ГБ, 2 vCPU, три диска: системный 90 ГБ, два тестовых по 500 ГБ. Системный и один тестовый диски подключены к контроллеру VMware Paravirtual SCSI, второй тестовый диск – к NVMe. Программное обеспечение для проведения тестирования: VDbench v5.04.07.

Общие настройки тестирования: ввод/вывод производился на неформатированные (RAW) диски блоками по 4КБ, 8КБ, 16КБ, 32КБ, 64КБ, 128КБ, 256КБ, 512КБ.  С каждым размером блока выполнялось 12 прогонов теста. В одной серии тестов участвовал только один из 500 ГБ дисков. 50% – операции чтения.

Тестовые СХД:

  1. Lenovo ThinkSystem DE6000F, All Flash Array, подключена через SAN по протоколу NVMe over FC. В тестах обозначена как DE6000F-02.
  2. Lenovo ThinkSystem DE6000F, All Flash Array, подключена через SAN по протоколу FC. В тестах обозначена как DE6000F.
  3. Lenovo ThinkSystem DS6200, все диски имеют тип SAS Подключена через SAN по протоколу FC. Обозначена как DS6200.
  4. IBM Storwize v7000, трёхуровневый массив из дисков SSD+SAS+NL SAS. Подключена через SAN по протоколу FC. Обозначена как v7000.

Две первые, однотипные, используются для определения преимуществ подключения СХД по протоколу NVMe over FC (NVMe/FC) перед обычным FC. Вторая и третья добавлены для сравнения быстродействия СХД разных годов выпуска с разными типами дисков. Их тестирование выполнялось только на первом полигоне, так как контроллеры СХД имеют скорость 8/16 Гб/с.

Для настройки ПО тестирования требуется указать диск, с которым будет производиться работа. Имя диска в Windows можно узнать с помощью команды PowerShell:

Get-WmiObject Win32_DiskDrive

Первоначальная установка сервера выполнена на DE6000F-02 (NVMe/FC), диски подключены к контроллерам: системный – VMware Paravirtual SCSI, тестовый 1 – NVMe, тестовый 2 – VMware Paravirtual SCSI.

Проведённые тесты, первый полигон

Замеры производительности работы тестовых дисков 1 и 2 в операциях последовательного (sequental) и произвольного (random) ввода/вывода выполнялись в несколько этапов. На первом этапе выполнены замеры при размещении всех дисков на СХД DE6000F-02.

Затем машина целиком перенесена на СХД v7000.

Произведены замеры производительности работы тестовых дисков 1 и 2 в операциях последовательного (sequental) и произвольного (random) ввода/вывода.

Для следующей серии испытаний тестовые диски 1 и 2 мигрированы на СХД DE6000F.

Проведены замеры производительности работы тестовых дисков 1 и 2 в операциях последовательного (sequental) и произвольного (random) ввода/вывода.

И заключительная серия тестов выполнена на СХД DS6200 и v7000.

Таблица с полученными результатами приводится в Приложении 1.

Тесты поименованы следующим образом, где Х – тип нагрузки (random, sequental):

NVMe_X_v7000 – тест диска, подключенного к контроллеру NVME и размещённому на СХД IBM Storwize v7000.

Scsi_X_v7000 – тест диска, подключенного к контроллеру VMware Paravirtual SCSI и размещённому на СХД IBM Storwize v7000.

NVMe_X_ds6200 – тест диска, подключенного к контроллеру NVMe и размещённому на СХД Lenovo ThinkSystem DS6200.

Scsi_X_ds6200– тест диска, подключенного к контроллеру VMware Paravirtual SCSI и размещённому на СХД Lenovo ThinkSystem DS6200.

NVMe_X_de6000f – тест диска, подключенного к контроллеру NVMe и размещённому на СХД Lenovo ThinkSystem DE6000F.

Scsi_X_de6000f– тест диска, подключенного к контроллеру VMware Paravirtual SCSI и размещённому на СХД Lenovo ThinkSystem DE6000F.

NVMe_X_de6000f-02 – тест диска, подключенного к контроллеру NVME и размещённому на СХД Lenovo ThinkSystem DE6000F #2.

Scsi_X_de6000f-02– тест диска, подключенного к контроллеру VMware Paravirtual SCSI и размещённому на СХД Lenovo ThinkSystem DE6000F #2.

Диаграмма 1. Сравнение показателей IOPS для разных типов контроллеров виртуальной машины в зависимости от блока записи в операциях последовательного и произвольного ввода/вывода.

Здесь и далее:

NVMe – контроллер NVMe;

scsi – контроллер VMware Paravirtual SCSI;

rnd – тест в операциях произвольного (random) ввода/вывода;

seq – тест в операциях последовательного (sequental)  ввода/вывода.

Диаграмма 2. Сравнение показателей МБ/сек для разных типов контроллеров виртуальной машины в зависимости от блока записи в операциях последовательного и произвольного ввода/вывода.

Диаграмма 3. Сравнение задержек времени отклика в мс при записи и чтении для разных систем хранения, отсортированное по блоку записи.

Диаграмма 4. Соотношение производительности NVMe и VMware Paravirtual SCSI контроллеров в МБ/сек при разном блоке записи в операциях последовательного ввода/вывода. DE6000F подключена по FC, DE6000F-02 – по NVMe over FC.

Диаграмма 5. Соотношение производительности NVMe и VMware Paravirtual SCSI контроллеров в IOPS при разном блоке записи в операциях последовательного ввода/вывода.

Диаграмма 6. Соотношение производительности NVMe и VMware Paravirtual SCSI контроллеров в МБ/сек при разном блоке записи в операциях произвольного ввода/вывода.

Диаграмма 7. Соотношение производительности NVMe и VMware Paravirtual SCSI контроллеров в IOPS при разном блоке записи в операциях произвольного ввода/вывода.

Диаграмма 8. Соотношение IOPS и МБ/сек для разного размера блока записи для СХД Lenovo ThinkSystem DE6000F (FC).

Диаграмма 9. Соотношение IOPS и МБ/сек для разного размера блока записи для СХД Lenovo ThinkSystem DE6000F-02 (NVMe over FC).

Диаграмма 10. Соотношение IOPS и МБ/сек для разного размера блока записи для СХД Lenovo ThinkSystem DS6200.

Диаграмма 11. Соотношение IOPS и МБ/сек для разного размера блока записи для СХД IBM Storwize v7000.

Нагрузочный тест систем хранения группой серверов, первый полигон

Для проверки как СХД будут справляться с более реальной нагрузкой, создаваемой несколькими серверами, проведена серия тестов с помощью ПО HCIBench. Имитировалась нагрузка, создаваемая в процессе работы серверов Oracle Database: блок записи – 8КБ, 73% – операции чтения. Нагрузку создавали четыре тестовых машины с параметрами: 4 vCPU, 8 ГБ памяти, 6 неформатированных (RAW) дисков по 80 ГБ. Время тестирования – 300 сек., перед тестированием делается «прогрев» дисков в течении 120 сек. Тесты последовательно прогонялись на СХД DE6000F, DE6000F-02, DS6200 и на SC5020. IBM Storwize v7000 заменён на Dell SC5020 All Flash Array чтобы под СУБД Oracle Database сравнивать только All Flash-массивы.

Таблица 2. Результаты тестирования группой серверов.

СХД IOPS МБ/сек Latency, мс Задержки чтения, мс Задержки записи, мс
de6000f 14 333,10 111,98 3,34 0,28 11,58
de6000f-02 16 857,10 131,68 2,88 0,36 9,66
sc5020 14 609,30 114,14 2,46 0,65 7,34
ds6200 5 035,10 39,33 10,74 0,40 38,49

Диаграмма 12. Усреднённое количество IOPS.

Диаграмма 13. Усреднённое количество МБ/сек.

Диаграмма 14. Усреднённые задержки при выполнении операций, мс.

Проведённые тесты, второй полигон

Конфигурация полигона: среда виртуализации VMware vSphere 7, два хоста Lenovo ThinkServer SR650 (2x16C Xeon Gold 6226R 2,9 ГГц, 768 ГБ ОЗУ, 2-портовый FC-адаптер Emulex LPe 35002, 32 Гб/с).

Тестовая машина: виртуальный сервер NVMTEST под управлением ОС Microsoft Windows Server 2022 Std, память 4 ГБ, 2 vCPU, три диска: системный 90 ГБ, два тестовых по 500 ГБ. Системный и один тестовый диски подключены к контроллеру VMware Paravirtual SCSI, второй тестовый диск – к NVMe. В конфигурацию виртуальной машины на этом полигоне добавлен контроллер LSI Logic SAS и диск размером 500 ГБ, подключенный к этому контроллеру. В описании тестов он указан под номером 3. Программное обеспечение для проведения тестирования: VDbench v5.04.07.

Общие настройки тестирования: ввод/вывод производился на неформатированные (RAW) диски блоками по 4КБ, 8КБ, 16КБ, 32КБ, 64КБ, 128КБ, 256КБ, 512КБ.  С каждым размером блока выполнялось 12 прогонов теста. В одной серии тестов участвовал только один из 500 ГБ дисков. 50% – операции чтения.

Отличия – замеры производительности выполнялись только на двух системах хранения: DE6000F, подключенной по FC, и DE6000F-02, подключенной по NVMe over FC . В набор тестов добавлен тест с контроллером LSI Logic SAS. Данный контроллер устанавливается в виртуальную машину по умолчанию, поддерживается «из коробки» всеми серверными ОС. Оценить его производительность относительно рекомендуемого к установке контроллера VMware Paravirtual SCSI и новейшего NVMe представляло особый интерес. Первая серия тестов проведена на ВМ NVMTEST. Выполнены замеры производительности работы тестовых дисков 1, 2 и 3 в операциях последовательного (sequental) и произвольного (random) ввода/вывода. На первом этапе выполнены замеры при размещении всех тестовых дисков на СХД DE6000F-02.

Затем машина целиком перенесена на СХД DE6000F. Проведены замеры производительности работы тестовых дисков 1, 2 и 3 в операциях последовательного (sequental) и произвольного (random) ввода/вывода.

Полученные результаты собраны в таблицу и представлены в виде графиков. Но анализ результатов проведен в другом разрезе. Сравнены одинаковые параметры производительности для серверов с 16 Гб/с – адаптерами и серверов с 32 Гб/с – адаптерами. Оценена производительность работы дисковых контроллеров виртуальной машины при размещении дисков на СХД, работающих по разным протоколам. Результаты сравнения представлены ниже. Таблица с полученными результатами приводится в Приложении 2.

Тесты поименованы следующим образом, где Х – тип нагрузки (random, sequental):

NVMe_X_de6000f – тест диска, подключенного к контроллеру NVMe и размещённому на СХД Lenovo ThinkSystem DE6000F .

Pvscsi_X_de6000f– тест диска, подключенного к контроллеру VMware Paravirtual SCSI и размещённому на СХД Lenovo ThinkSystem DE6000F.

Lsiscsi_X_de6000f– тест диска, подключенного к контроллеру LSI Logic SAS и размещённому на СХД Lenovo ThinkSystem DE6000F .

NVMe_X_de6000f-02 – тест диска, подключенного к контроллеру NVMe и размещённому на СХД Lenovo ThinkSystem DE6000F-02.

Pvscsi_X_de6000f-02– тест диска, подключенного к контроллеру VMware Paravirtual SCSI и размещённому на СХД Lenovo ThinkSystem DE6000F-02.

Lsiscsi_X_de6000f-02– тест диска, подключенного к контроллеру LSI Logic SAS и размещённому на СХД Lenovo ThinkSystem DE6000F-02.

Здесь и далее:

NVMe – контроллер NVMe;

pvscsi – контроллер VMware Paravirtual SCSI;

lsiscsi – контроллер LSI Logic SAS;

rnd – тест в операциях произвольного (random) ввода/вывода;

seq – тест в операциях последовательного (sequental)  ввода/вывода.

DE6000F подключена по протоколу FC, DE6000F-02 – по протоколу NVMe over FC.

Диаграмма 15. Сравнение производительности в IOPS для разных типов дисковых контроллеров.

Диаграмма 16. Сравнение производительности в МБ/с для разных типов дисковых контроллеров.

Диаграмма 17. Сравнение задержек при выполнении операций чтения и записи, мс, для разных типов дисковых контроллеров. Профиль нагрузки – 50% чтение. СХД – DE6000F-02 (NVMe over FC).

Диаграмма 18. Сравнение загрузки CPU тестовой машины, % для разных типов дисковых контроллеров в операциях произвольного ввода/вывода. Профиль нагрузки – 50% чтение.

Диаграмма 19. Сравнение загрузки CPU тестовой машины, % для разных типов дисковых контроллеров в операциях последовательного ввода/вывода. Профиль нагрузки – 50% чтение.

Несколько диаграмм, показывающих разницу в производительности между адаптерами 16Гб/с и 32Гб/с.

Диаграмма 20. Сравнение производительности в IOPS достигнутой в тестах на серверах с адаптерами 16 Гб/с и 32 Гб/с. Блок записи – 4096 Б. Профиль нагрузки – 50% чтение (Контроллер LSI Logic SAS не участвовал в тестах на серверах с FC HBA на 16 Гб/с).

Диаграмма 21. Сравнение производительности в MB/s достигнутой в тестах на серверах с адаптерами 16 Гб/с и 32 Гб/с. Блок записи – 4096 Б. Профиль нагрузки – 50% чтение.

Диаграмма 22. Сравнение задержек в мс, достигнутых в операциях чтения и записи в тестах на серверах с адаптерами 16 Гб/с и 32 Гб/с. Блок записи – 4096 Б. Профиль нагрузки – 50% чтение.

Диаграмма 23. Отношение производительности в IOPS между серверами c адаптерами 16 Гб/с и 32 Гб/с. Производительность адаптеров 16 Гб/с принята за 100%. Блок записи – 4096 Б. Профиль нагрузки – 50% чтение.

Диаграмма 24. Относительная величина задержек в мс, достигнутых в операциях чтения и записи в тестах на серверах с адаптерами 16 Гб/с и 32 Гб/с. Задержки на адаптерах 16Гб/с приняты за 100%. Блок записи – 4096 Б. Профиль нагрузки – 50% чтение.

Нагрузочный тест систем хранения группой серверов, второй полигон

Для сравнения результатов, выдаваемых разными СХД под нагрузкой, создаваемой несколькими серверами, виртуальная машина HCIBench перенесена на второй полигон. Также имитирована нагрузка, создаваемая в процессе работы серверов СУБД Oracle Database: блок записи – 8КБ, 73% – операции чтения. Созданы четыре тестовых машины с параметрами: 4 vCPU, 8 ГБ ОЗУ, 6 неформатированных (RAW) дисков по 80ГБ. Время тестирования – 300 сек., перед тестированием делался «прогрев» дисков в течении 120 сек. Тесты последовательно прогонялись на СХД DE6000F, и DE6000F-02. Определялось, насколько влияет на производительность систем протокол подключения СХД – FC или NVMe/FC, и тип серверного адаптера – 16 Гб/с или 32 Гб/с.

Таблица 3. Результаты тестирования группой серверов.

СХД FC, Гб/с IOPS МБ/сек Latency, ms Задержки при чтении, мс Задержки при записи, мс
de6000f 16 14 333,10 111,98 3,34 0,28 11,58
de6000f-02 16 16 857,10 131,68 2,88 0,36 9,66
de6000f 32 16 291,30 127,27 3,51 0,26 12,25
de6000f-02 32 22 404,60 175,04 1,43 0,29 4,50

Диаграмма 26 (не ищете 25-ую, её нет). Отношение производительности работы СХД в IOPS в связке с серверами с адаптерами 32 Гб/с по сравнению с серверами с адаптерами 16 Гб/с.

Выводы по результатам тестирования

Тестирование на одиночной машине показало, что:

  • Для одиночной машины подключение системы хранения по протоколу NVMe over FC не даёт преимуществ перед подключением по обычному FC. На производительность СХД значительное влияние оказывает техническое совершенство конструкции и используемых программных и аппаратных компонентов.
  • Использование FC-адаптеров 32Гб/с улучшает производительность работы связки «сервер – СХД» на 14-40%, вне зависимости от протокола подключения СХД.
  • Использование NVMe-контроллера внутри виртуальной машины для подключения дисков позволяет получить выигрыш в производительности перед SCSI, даже на системах хранения, не использующих протокол NVMe и диски SSD.
  • Контроллеры VMware Paravirtual SCSI и LSI Logic SAS виртуальной машины имеют примерно одинаковую производительность, но первый нагружает процессор чуть сильнее (в тестах от VMware наоборот).
  • На всех системах хранения максимальная производительность в IOPS достигается при небольших блоках разбиения – 4-8 КБ, у современных систем она сохраняется до 16-32 КБ, а максимальная производительность в МБ/с – при больших (64 КБ и выше). Системы последнего поколения позволяют использовать блоки разбиения 16-32 КБ без потери производительности в операциях ввода-вывода, более старые ориентированы на 4-8 КБ блок.

Тестирование одновременной работы группы серверов выявило:

  • В конфигурации «серверы с 16Гб/с – адаптерами» имеется небольшое преимущество СХД, подключенной по протоколу NVM over FC перед СХД, подключенной по FC. Преимущество составляет ~18%.
  • В конфигурации «серверы с 32Гб/с – адаптерами» преимущество СХД, подключенной по протоколу NVMe over FC, возрастает до ~38%.

Таким образом, проведённое тестирование показывает, что подключение СХД по протоколу NVMe over FC даёт преимущество в производительности при размещении на СХД данных нескольких серверов. С увеличением количества серверов и интенсивности их работы преимущество возрастает. Использование 32 Гб/с FC-адаптеров также существенно повышает общую производительность системы.

Примечание: DE6000F не обеспечивает end-to-end NVMe, так как используются SAS SSD. Также нет доказательств, что внутрь ВМ vSphere обеспечивает end-to-end NVMe без протоколов-посредников.

Приложение 1. Таблица результатов тестов производительности работы дисков 1 и 2 в операциях последовательного (sequental) и произвольного (random) ввода/вывода на различных СХД

Описание параметров таблицы результатов:

Тест – Имя теста.

io_rate – Наблюдаемое отношение, IOPS.

MB/sec – Megabytes per second (MB=1024*1024 байт).

bytes/io – Размер блока передачи данных, байт в операцию.

read% – Процент запросов на чтение.

resp – Время отклика, мс.

read_resp – Время отклика в операциях чтения, мс.

write_resp – Время отклика в операциях записи, мс.

rnd – тест в операциях произвольного (random) ввода/вывода.

seq – тест в операциях последовательного (sequental)  ввода/вывода.

Таблица 1. Сводные результаты тестов производительности.

Тест io_rate MB/sec bytes/io read% resp read_resp write_resp
NVMe_seq_v7000 12 915,12 50,45 4096 50,04 0,61 0,57 0,66
NVMe_seq_v7000 10 027,52 78,34 8192 50,02 0,79 0,91 0,68
NVMe_seq_v7000 8 202,52 128,16 16384 50,06 0,97 1,29 0,65
NVMe_seq_v7000 7 271,80 227,24 32768 50,05 1,09 1,50 0,67
NVMe_seq_v7000 5 692,66 355,79 65536 49,98 1,39 1,85 0,93
NVMe_seq_v7000 4 006,48 500,81 131072 49,89 1,97 2,50 1,45
NVMe_seq_v7000 2 483,01 620,75 262144 50,02 3,16 3,88 2,45
NVMe_seq_v7000 1 363,59 681,80 524288 50,14 5,76 7,35 4,16
scsi_seq_v7000 11 266,40 44,01 4096 50,02 0,71 0,73 0,68
scsi_seq_v7000 7 360,10 57,50 8192 50,05 1,08 1,46 0,70
scsi_seq_v7000 5 012,62 78,32 16384 50,06 1,59 2,48 0,69
scsi_seq_v7000 3 966,13 123,94 32768 50,01 2,01 3,25 0,76
scsi_seq_v7000 2 275,85 142,24 65536 50,10 3,51 6,18 0,83
scsi_seq_v7000 1 442,07 180,26 131072 50,23 5,52 9,84 1,17
scsi_seq_v7000 917,40 229,35 262144 50,07 8,66 15,59 1,71
scsi_seq_v7000 523,52 261,76 524288 50,05 15,17 27,62 2,70
NVMe_seq_de6000f-02 20 057,05 78,35 4096 50,04 0,40 0,40 0,39
NVMe_seq_de6000f-02 23 966,53 187,24 8192 50,04 0,33 0,35 0,31
NVMe_seq_de6000f-02 24 776,91 387,14 16384 50,02 0,32 0,35 0,28
NVMe_seq_de6000f-02 24 339,54 760,61 32768 50,01 0,32 0,40 0,24
NVMe_seq_de6000f-02 19 049,44 1 190,59 65536 50,00 0,41 0,51 0,31
NVMe_seq_de6000f-02 13 404,41 1 675,55 131072 50,03 0,58 0,71 0,45
NVMe_seq_de6000f-02 8 280,62 2 070,15 262144 49,93 0,92 1,11 0,73
NVMe_seq_de6000f-02 4 889,80 2 444,90 524288 50,10 1,55 1,83 1,28
scsi_seq_de6000f 21 398,01 83,59 4096 50,03 0,37 0,37 0,37
scsi_seq_de6000f 23 934,41 186,99 8192 50,04 0,33 0,34 0,32
scsi_seq_de6000f 24 570,64 383,92 16384 50,01 0,32 0,36 0,28
scsi_seq_de6000f 23 536,20 735,51 32768 50,02 0,33 0,42 0,25
scsi_seq_de6000f 17 849,31 1 115,58 65536 50,00 0,44 0,51 0,37
scsi_seq_de6000f 12 101,51 1 512,69 131072 50,01 0,64 0,62 0,67
scsi_seq_de6000f 7 724,24 1 931,06 262144 49,98 0,99 0,99 0,99
scsi_seq_de6000f 4 771,12 2 385,56 524288 49,99 1,59 1,64 1,53
NVMe_seq_de6000f 23 208,65 90,66 4096 50,04 0,34 0,34 0,34
NVMe_seq_de6000f 25 488,02 199,13 8192 50,00 0,31 0,32 0,30
NVMe_seq_de6000f 25 881,25 404,39 16384 50,03 0,30 0,34 0,27
NVMe_seq_de6000f 24 043,88 751,37 32768 50,00 0,33 0,39 0,26
NVMe_seq_de6000f 19 026,83 1 189,18 65536 50,01 0,41 0,51 0,32
NVMe_seq_de6000f 13 539,69 1 692,46 131072 49,97 0,58 0,70 0,45
NVMe_seq_de6000f 8 397,17 2 099,29 262144 50,07 0,91 1,09 0,73
NVMe_seq_de6000f 4 936,75 2 468,38 524288 50,05 1,54 1,79 1,28
NVMe_seq_de6000f-02 24 757,42 96,71 4096 50,05 0,32 0,32 0,32
NVMe_seq_de6000f-02 25 360,83 198,13 8192 50,01 0,31 0,32 0,30
NVMe_seq_de6000f-02 25 064,24 391,63 16384 50,03 0,31 0,35 0,28
NVMe_seq_de6000f-02 24 824,52 775,77 32768 50,01 0,32 0,39 0,24
NVMe_seq_de6000f-02 19 082,68 1 192,67 65536 50,01 0,41 0,51 0,31
NVMe_seq_de6000f-02 13 418,95 1 677,37 131072 49,94 0,58 0,71 0,45
NVMe_seq_de6000f-02 8 300,65 2 075,16 262144 50,10 0,92 1,11 0,73
NVMe_seq_de6000f-02 4 821,63 2 410,81 524288 50,01 1,58 1,86 1,29
scsi_seq_de6000f-02 23 884,60 93,30 4096 50,04 0,33 0,33 0,33
scsi_seq_de6000f-02 22 870,27 178,67 8192 50,02 0,35 0,36 0,34
scsi_seq_de6000f-02 24 409,79 381,40 16384 50,03 0,32 0,36 0,29
scsi_seq_de6000f-02 23 893,11 746,66 32768 50,02 0,33 0,40 0,25
scsi_seq_de6000f-02 18 539,53 1 158,72 65536 50,00 0,42 0,52 0,32
scsi_seq_de6000f-02 12 916,40 1 614,55 131072 50,01 0,60 0,73 0,48
scsi_seq_de6000f-02 8 084,93 2 021,23 262144 49,94 0,94 1,11 0,77
scsi_seq_de6000f-02 4 794,65 2 397,32 524288 50,12 1,59 1,80 1,38
NVMe_seq_ds6200 24 420,93 95,39 4096 50,04 0,32 0,38 0,27
NVMe_seq_ds6200 21 944,19 171,44 8192 50,03 0,36 0,43 0,29
NVMe_seq_ds6200 19 767,34 308,86 16384 50,05 0,40 0,47 0,33
NVMe_seq_ds6200 14 673,95 458,56 32768 50,01 0,54 0,73 0,35
NVMe_seq_ds6200 9 957,40 622,34 65536 49,98 0,79 1,15 0,43
NVMe_seq_ds6200 6 669,77 833,72 131072 50,05 1,18 1,76 0,60
NVMe_seq_ds6200 4 222,08 1 055,52 262144 50,06 1,84 2,79 0,89
NVMe_seq_ds6200 2 440,37 1 220,19 524288 50,06 3,18 4,88 1,47
scsi_seq_ds6200 17 834,48 69,67 4096 50,03 0,44 0,18 0,71
scsi_seq_ds6200 21 891,85 171,03 8192 50,06 0,36 0,26 0,46
scsi_seq_ds6200 16 792,39 262,38 16384 49,99 0,47 0,37 0,57
scsi_seq_ds6200 12 108,52 378,39 32768 50,03 0,65 0,62 0,68
scsi_seq_ds6200 8 368,12 523,01 65536 50,01 0,94 0,86 1,03
scsi_seq_ds6200 5 606,80 700,85 131072 50,04 1,40 1,45 1,36
scsi_seq_ds6200 3 717,25 929,31 262144 49,98 2,10 2,35 1,85
scsi_seq_ds6200 1 999,55 999,78 524288 49,88 3,89 4,75 3,04
NVMe_rnd_v7000 1 819,44 7,11 4096 49,83 4,33 8,29 0,41
NVMe_rnd_v7000 1 346,67 10,52 8192 50,09 5,93 11,37 0,47
NVMe_rnd_v7000 1 562,75 24,42 16384 50,01 5,11 9,75 0,46
NVMe_rnd_v7000 1 374,69 42,96 32768 50,18 5,81 11,08 0,50
NVMe_rnd_v7000 1 298,52 81,16 65536 49,93 6,14 11,67 0,63
NVMe_rnd_v7000 1 246,51 155,81 131072 50,00 6,39 11,94 0,84
NVMe_rnd_v7000 1 072,35 268,09 262144 50,22 7,40 13,33 1,42
NVMe_rnd_v7000 745,95 372,97 524288 49,90 10,61 18,55 2,70
scsi_rnd_v7000 1 873,52 7,32 4096 49,81 4,26 8,12 0,43
scsi_rnd_v7000 1 721,02 13,45 8192 50,05 4,64 8,82 0,45
scsi_rnd_v7000 1 243,65 19,43 16384 50,03 6,42 12,38 0,46
scsi_rnd_v7000 1 202,38 37,57 32768 50,20 6,64 12,72 0,51
scsi_rnd_v7000 1 302,41 81,40 65536 49,93 6,13 11,65 0,62
scsi_rnd_v7000 1 214,74 151,84 131072 49,96 6,56 12,30 0,83
scsi_rnd_v7000 1 060,23 265,06 262144 50,23 7,49 13,57 1,34
scsi_rnd_v7000 744,27 372,14 524288 49,89 10,63 18,93 2,38
NVMe_rnd_de6000f 34 759,64 135,78 4096 50,05 0,23 0,29 0,16
NVMe_rnd_de6000f 30 665,30 239,57 8192 50,00 0,26 0,33 0,18
NVMe_rnd_de6000f 28 498,15 445,28 16384 50,01 0,28 0,36 0,19
NVMe_rnd_de6000f 23 209,18 725,29 32768 50,01 0,34 0,44 0,23
NVMe_rnd_de6000f 17 889,93 1 118,12 65536 49,97 0,44 0,57 0,30
NVMe_rnd_de6000f 12 692,48 1 586,56 131072 50,06 0,61 0,80 0,43
NVMe_rnd_de6000f 7 913,63 1 978,41 262144 50,12 0,97 1,21 0,73
NVMe_rnd_de6000f 4 539,10 2 269,55 524288 49,93 1,67 1,86 1,48
scsi_rnd_de6000f 32 888,60 128,47 4096 50,05 0,24 0,30 0,18
scsi_rnd_de6000f 30 742,50 240,18 8192 50,00 0,26 0,33 0,19
scsi_rnd_de6000f 27 580,53 430,95 16384 49,99 0,29 0,37 0,20
scsi_rnd_de6000f 22 654,03 707,94 32768 50,01 0,35 0,45 0,25
scsi_rnd_de6000f 17 629,87 1 101,87 65536 49,99 0,44 0,57 0,32
scsi_rnd_de6000f 12 222,65 1 527,83 131072 50,11 0,64 0,81 0,47
scsi_rnd_de6000f 7 738,18 1 934,55 262144 50,03 0,99 1,21 0,77
scsi_rnd_de6000f 4 747,57 2 373,79 524288 50,16 1,60 1,81 1,39
NVMe_rnd_de6000f-02 32 145,87 125,57 4096 50,05 0,25 0,31 0,19
NVMe_rnd_de6000f-02 29 722,68 232,21 8192 50,02 0,27 0,34 0,20
NVMe_rnd_de6000f-02 26 530,92 414,55 16384 49,99 0,30 0,38 0,21
NVMe_rnd_de6000f-02 22 281,13 696,29 32768 50,02 0,35 0,45 0,25
NVMe_rnd_de6000f-02 17 456,74 1 091,05 65536 50,03 0,45 0,58 0,32
NVMe_rnd_de6000f-02 12205 1 525,63 131072 50,01 0,64 0,82 0,46
NVMe_rnd_de6000f-02 7 674,75 1 918,69 262144 49,99 1,00 1,23 0,76
NVMe_rnd_de6000f-02 4 857,15 2 428,57 524288 50,17 1,57 1,79 1,34
scsi_rnd_de6000f-02 24 475,08 95,61 4096 50,04 0,32 0,32 0,32
scsi_rnd_de6000f-02 28 219,87 220,47 8192 50,02 0,28 0,35 0,21
scsi_rnd_de6000f-02 25 248,95 394,51 16384 50,03 0,31 0,40 0,23
scsi_rnd_de6000f-02 21 038,38 657,45 32768 50,01 0,37 0,48 0,27
scsi_rnd_de6000f-02 16 573,15 1 035,82 65536 50,01 0,47 0,61 0,33
scsi_rnd_de6000f-02 11 681,05 1 460,13 131072 50,02 0,67 0,85 0,48
scsi_rnd_de6000f-02 7 424,71 1 856,18 262144 49,92 1,03 1,28 0,79
scsi_rnd_de6000f-02 4 618,47 2 309,24 524288 50,08 1,65 1,90 1,40
NVMe_rnd_ds6200 17 227,96 67,30 4096 50,04 0,46 0,50 0,42
NVMe_rnd_ds6200 14 729,04 115,07 8192 50,01 0,54 0,59 0,48
NVMe_rnd_ds6200 13 209,99 206,41 16384 50,00 0,60 0,76 0,44
NVMe_rnd_ds6200 10 736,36 335,51 32768 50,04 0,74 0,96 0,52
NVMe_rnd_ds6200 6 670,22 416,89 65536 49,95 1,19 1,29 1,08
NVMe_rnd_ds6200 2 050,80 256,35 131072 50,09 3,88 2,78 4,98
NVMe_rnd_ds6200 646,19 161,55 262144 50,03 12,32 6,33 18,31
NVMe_rnd_ds6200 539,93 269,96 524288 50,36 14,70 16,49 12,89
scsi_rnd_ds6200 5 737,03 22,41 4096 49,99 1,39 1,36 1,41
scsi_rnd_ds6200 8 051,69 62,90 8192 50,02 0,99 0,91 1,06
scsi_rnd_ds6200 13 748,45 214,82 16384 50,05 0,58 0,71 0,45
scsi_rnd_ds6200 10 531,15 329,10 32768 50,08 0,75 0,94 0,56
scsi_rnd_ds6200 7 810,76 488,17 65536 49,96 1,01 1,24 0,78
scsi_rnd_ds6200 3 498,57 437,32 131072 49,91 2,26 1,87 2,66
scsi_rnd_ds6200 1 776,73 444,18 262144 50,02 4,44 2,82 6,07
scsi_rnd_ds6200 928,96 464,48 524288 49,94 8,50 13,46 3,55

Приложение 2. Таблица результатов тестов производительности работы дисков 1, 2 и 3 в операциях последовательного (sequental) и произвольного (random) ввода/вывода на различных СХД

Таблица 2. Сводные результаты тестов производительности

Тест io_rate MB/sec bytes/io read% resp read_resp write_resp cpu_used
NVMe_rnd_de6000f 44 470,27 173,71 4096 50,04 0,18 0,23 0,12 35,56
NVMe_rnd_de6000f 13 265,62 103,64 8192 50,04 0,60 0,33 0,86 20,70
NVMe_rnd_de6000f 32 224,51 503,51 16384 50,00 0,25 0,30 0,20 27,10
NVMe_rnd_de6000f 31 061,19 970,66 32768 50,01 0,25 0,35 0,16 26,26
NVMe_rnd_de6000f 24 850,26 1 553,14 65536 50,02 0,32 0,44 0,19 24,06
NVMe_rnd_de6000f 17 333,33 2 166,67 131072 50,05 0,45 0,63 0,27 25,17
NVMe_rnd_de6000f 10 178,83 2 544,71 262144 49,99 0,75 0,85 0,65 31,12
NVMe_rnd_de6000f 8 041,45 4 020,73 524288 50,02 0,93 1,22 0,65 36,84
NVMe_seq_de6000f 23 783,05 92,90 4096 50,04 0,33 0,34 0,33 28,06
NVMe_seq_de6000f 34 155,25 266,84 8192 50,02 0,23 0,24 0,22 31,81
NVMe_seq_de6000f 34 794,34 543,66 16384 50,01 0,23 0,26 0,20 32,54
NVMe_seq_de6000f 31 749,81 992,18 32768 50,01 0,25 0,31 0,19 32,99
NVMe_seq_de6000f 25 738,02 1 608,63 65536 50,02 0,31 0,41 0,20 29,44
NVMe_seq_de6000f 19 015,65 2 376,96 131072 50,02 0,41 0,56 0,26 30,53
NVMe_seq_de6000f 12 911,47 3 227,87 262144 49,99 0,59 0,80 0,38 35,35
NVMe_seq_de6000f 8 010,84 4 005,42 524288 49,98 0,94 1,26 0,61 38,84
pvscsi_rnd_de6000f 42 133,48 164,58 4096 50,04 0,19 0,24 0,13 36,52
pvscsi_rnd_de6000f 40 439,16 315,93 8192 50,01 0,20 0,26 0,13 35,40
pvscsi_rnd_de6000f 36 721,21 573,77 16384 50,02 0,21 0,28 0,15 34,70
pvscsi_rnd_de6000f 30 007,95 937,75 32768 50,02 0,26 0,35 0,18 32,35
pvscsi_rnd_de6000f 24 090,05 1 505,63 65536 50,01 0,33 0,44 0,21 31,51
pvscsi_rnd_de6000f 17 090,01 2 136,25 131072 49,99 0,46 0,63 0,29 30,15
pvscsi_rnd_de6000f 10 373,74 2 593,43 262144 49,98 0,73 0,89 0,58 36,42
pvscsi_rnd_de6000f 7 556,05 3 778,02 524288 49,92 0,99 1,23 0,76 39,08
pvscsi_seq_de6000f 20 050,52 78,32 4096 50,04 0,39 0,40 0,39 28,25
pvscsi_seq_de6000f 22 075,13 172,46 8192 50,05 0,36 0,39 0,33 28,69
pvscsi_seq_de6000f 23 442,13 366,28 16384 50,02 0,34 0,40 0,27 28,15
pvscsi_seq_de6000f 24 822,56 775,71 32768 50,00 0,32 0,46 0,18 28,35
pvscsi_seq_de6000f 19 695,04 1 230,94 65536 50,03 0,40 0,57 0,23 28,37
pvscsi_seq_de6000f 15 391,15 1 923,89 131072 50,02 0,51 0,72 0,29 29,01
pvscsi_seq_de6000f 10 426,48 2 606,62 262144 49,94 0,73 1,04 0,42 33,48
pvscsi_seq_de6000f 6 557,25 3 278,62 524288 50,11 1,15 1,62 0,68 37,02
lsiscsi_rnd_de6000f 43 608,72 170,35 4096 50,04 0,18 0,24 0,13 29,00
lsiscsi_rnd_de6000f 40 756,99 318,41 8192 50,02 0,19 0,26 0,13 28,99
lsiscsi_rnd_de6000f 36 837,61 575,59 16384 50,02 0,21 0,29 0,14 28,47
lsiscsi_rnd_de6000f 30 977,99 968,06 32768 50,04 0,25 0,34 0,17 25,78
lsiscsi_rnd_de6000f 24 008,41 1 500,53 65536 50,00 0,33 0,45 0,21 28,41
lsiscsi_rnd_de6000f 16 578,99 2 072,37 131072 50,00 0,47 0,65 0,29 29,96
lsiscsi_rnd_de6000f 10 545,75 2 636,44 262144 50,01 0,72 0,92 0,53 37,17
lsiscsi_rnd_de6000f 7 757,39 3 878,70 524288 49,99 0,96 1,25 0,68 39,62
lsiscsi_seq_de6000f 31 362,01 122,51 4096 50,05 0,25 0,25 0,25 27,39
lsiscsi_seq_de6000f 33 613,42 262,60 8192 50,01 0,24 0,25 0,22 27,07
lsiscsi_seq_de6000f 33 573,98 524,59 16384 50,00 0,24 0,27 0,20 28,64
lsiscsi_seq_de6000f 32 726,07 1 022,69 32768 50,00 0,24 0,31 0,17 28,81
lsiscsi_seq_de6000f 25 369,92 1 585,62 65536 50,08 0,31 0,41 0,20 28,69
lsiscsi_seq_de6000f 18 665,54 2 333,19 131072 49,99 0,42 0,56 0,27 28,76
lsiscsi_seq_de6000f 12 375,09 3 093,77 262144 50,00 0,61 0,81 0,41 34,85
lsiscsi_seq_de6000f 8 057,86 4 028,93 524288 50,02 0,93 1,23 0,63 36,94
NVMe_rnd_de6000f-02 43 722,42 170,79 4096 50,04 0,18 0,23 0,13 39,48
NVMe_rnd_de6000f-02 41 853,95 326,98 8192 50,02 0,19 0,25 0,13 37,59
NVMe_rnd_de6000f-02 37 715,68 589,31 16384 50,03 0,21 0,27 0,15 36,31
NVMe_rnd_de6000f-02 31 799,19 993,72 32768 50,03 0,25 0,32 0,18 34,47
NVMe_rnd_de6000f-02 25 678,53 1 604,91 65536 49,98 0,31 0,40 0,21 32,59
NVMe_rnd_de6000f-02 18 256,23 2 282,03 131072 49,99 0,43 0,58 0,28 29,67
NVMe_rnd_de6000f-02 10 375,93 2 593,98 262144 49,98 0,74 0,78 0,69 32,94
NVMe_rnd_de6000f-02 8 481,55 4 240,78 524288 50,02 0,88 1,11 0,65 40,37
NVMe_seq_de6000f-02 30 939,20 120,86 4096 50,04 0,26 0,26 0,25 33,70
NVMe_seq_de6000f-02 32 613,11 254,79 8192 50,01 0,24 0,25 0,23 35,68
NVMe_seq_de6000f-02 33 023,17 515,99 16384 50,01 0,24 0,27 0,21 34,47
NVMe_seq_de6000f-02 32 401,64 1 012,55 32768 50,01 0,24 0,31 0,17 36,32
NVMe_seq_de6000f-02 24 926,15 1 557,88 65536 50,06 0,31 0,42 0,21 33,25
NVMe_seq_de6000f-02 18 217,16 2 277,15 131072 49,99 0,43 0,59 0,27 29,97
NVMe_seq_de6000f-02 12 048,32 3 012,08 262144 50,02 0,63 0,87 0,39 35,23
NVMe_seq_de6000f-02 8 149,96 4 074,98 524288 50,02 0,92 1,25 0,60 37,88
pvscsi_rnd_de6000f-02 39 897,09 155,85 4096 50,05 0,20 0,26 0,14 35,29
pvscsi_rnd_de6000f-02 38 052,04 297,28 8192 50,01 0,21 0,27 0,14 35,01
pvscsi_rnd_de6000f-02 33 940,25 530,32 16384 50,00 0,23 0,31 0,16 35,29
pvscsi_rnd_de6000f-02 28 367,89 886,50 32768 50,01 0,28 0,37 0,18 34,17
pvscsi_rnd_de6000f-02 22 733,25 1 420,83 65536 50,05 0,35 0,48 0,22 29,18
pvscsi_rnd_de6000f-02 15 899,48 1 987,44 131072 50,02 0,49 0,69 0,29 27,88
pvscsi_rnd_de6000f-02 10 386,14 2 596,53 262144 49,98 0,74 1,02 0,45 33,74
pvscsi_rnd_de6000f-02 7 348,98 3 674,49 524288 50,02 1,02 1,35 0,70 37,17
pvscsi_seq_de6000f-02 26 144,70 102,13 4096 50,05 0,30 0,31 0,30 28,98
pvscsi_seq_de6000f-02 29 373,72 229,48 8192 50,01 0,27 0,28 0,25 30,67
pvscsi_seq_de6000f-02 29 958,31 468,10 16384 50,01 0,26 0,30 0,23 31,48
pvscsi_seq_de6000f-02 29 299,86 915,62 32768 50,03 0,27 0,36 0,18 31,84
pvscsi_seq_de6000f-02 22 716,35 1 419,77 65536 49,99 0,35 0,47 0,22 31,68
pvscsi_seq_de6000f-02 16 349,84 2 043,73 131072 50,08 0,48 0,67 0,29 29,53
pvscsi_seq_de6000f-02 10 811,34 2 702,83 262144 49,99 0,71 1,01 0,40 33,59
pvscsi_seq_de6000f-02 6 749,35 3 374,68 524288 49,97 1,12 1,59 0,65 36,75
lsiscsi_rnd_de6000f-02 43 032,61 168,10 4096 50,04 0,18 0,23 0,13 33,21
lsiscsi_rnd_de6000f-02 41 200,01 321,88 8192 50,01 0,19 0,25 0,14 32,80
lsiscsi_rnd_de6000f-02 36 889,38 576,40 16384 50,02 0,21 0,28 0,15 32,35
lsiscsi_rnd_de6000f-02 31 002,44 968,83 32768 50,03 0,25 0,33 0,18 31,28
lsiscsi_rnd_de6000f-02 24 891,97 1 555,75 65536 49,99 0,31 0,41 0,22 31,63
lsiscsi_rnd_de6000f-02 17 632,14 2 204,02 131072 49,98 0,44 0,59 0,30 29,80
lsiscsi_rnd_de6000f-02 10 523,98 2 631,00 262144 49,96 0,72 0,81 0,63 35,31
lsiscsi_rnd_de6000f-02 8 205,13 4 102,56 524288 50,05 0,91 1,14 0,68 40,38
lsiscsi_seq_de6000f-02 25 146,95 98,23 4096 50,05 0,31 0,32 0,31 26,65
lsiscsi_seq_de6000f-02 28 841,68 225,33 8192 50,01 0,27 0,29 0,26 28,93
lsiscsi_seq_de6000f-02 29 606,03 462,59 16384 50,01 0,27 0,30 0,23 27,46
lsiscsi_seq_de6000f-02 29 406,10 918,94 32768 50,01 0,27 0,35 0,18 35,56
lsiscsi_seq_de6000f-02 23 327,58 1 457,97 65536 49,99 0,34 0,46 0,21 27,93
lsiscsi_seq_de6000f-02 17 042,95 2 130,37 131072 50,08 0,46 0,63 0,29 28,98
lsiscsi_seq_de6000f-02 11 109,65 2 777,41 262144 49,99 0,69 0,97 0,40 31,02
lsiscsi_seq_de6000f-02 7 607,21 3 803,60 524288 49,99 0,99 1,36 0,63 34,94
]]>
https://bonlesave.ru/2022/08/16/testirovanie-shd-lenovo-thinksystem-de6000f-po-protokolu-peredachi-nvme-over-fc/feed/ 2
Потеря доступности LUN-ов и VMFS-томов на хранилищах с прямым FC-подключением после обновления до vSphere 7.0 Update 3 https://bonlesave.ru/2022/08/11/poterya-dostupnosti-lun-ov-i-vmfs-tomov-na-hranilishhah-s-pryamym-fc-podkljucheniem-posle-obnovleniya-do-vsphere-7-0-update-3/ https://bonlesave.ru/2022/08/11/poterya-dostupnosti-lun-ov-i-vmfs-tomov-na-hranilishhah-s-pryamym-fc-podkljucheniem-posle-obnovleniya-do-vsphere-7-0-update-3/#comments Thu, 11 Aug 2022 03:34:35 +0000 https://bonlesave.ru/?p=9732 Continue reading "Потеря доступности LUN-ов и VMFS-томов на хранилищах с прямым FC-подключением после обновления до vSphere 7.0 Update 3"]]> После обновления хостов до ESXi 7.0 Update 3f получили замечательную вещь – диски и тома на них, подключенные к системе хранения данных напрямую (Direct-Attached FC) исчезли на серверах напрочь.

Диагностика проблемы выявила, как минимум, две возможных ситуации:

  1. Кривой драйвер в составе дистрибутива –  qlnativefc 4.1.14.0-26vmw.703.0.20.19193900. Пересобрали образ с самой новой версией 5.1.68.0-1OEM.703.0.0.18644231 и проблема у нас ушла.
  2. Начиная с версии vSphere 7.0 Update 3, драйвер brcmnvmefc больше не доступен. Функциональность NVMe over FC, ранее реализованная в  brcmnvmefc, теперь включена в драйвер lpfc.Чтобы включить поддержку только протокола SCSI в драйвере lpfc, установите lpfc_enable_fc4_type=1.
    Чтобы включить поддержку протоколов SCSI и NVMe, установите lpfc_enable_fc4_type=3.

    1. Переведите хост ESX в режим обслуживания
    2. Включите SSH-доступ к хосту ESX и подключитесь к хосту ESXi от имени root.
    3. Используйте следующую команду esxcli, чтобы отключить поддержку FC-NVMe в драйвере lpfc:
      esxcli system module parameters set -m lpfc -p lpfc_enable_fc4_type=1
    4. Перезагрузите хост ESXi для завершения изменений.
]]>
https://bonlesave.ru/2022/08/11/poterya-dostupnosti-lun-ov-i-vmfs-tomov-na-hranilishhah-s-pryamym-fc-podkljucheniem-posle-obnovleniya-do-vsphere-7-0-update-3/feed/ 1
Мониторинг IBM Bladecenter AMM по протоколу SNMP в Zabbix 6 https://bonlesave.ru/2022/06/06/monitoring-ibm-bladecenter-amm-po-protokolu-snmp-v-zabbix-6/ https://bonlesave.ru/2022/06/06/monitoring-ibm-bladecenter-amm-po-protokolu-snmp-v-zabbix-6/#respond Mon, 06 Jun 2022 06:12:55 +0000 https://bonlesave.ru/?p=9587 Continue reading "Мониторинг IBM Bladecenter AMM по протоколу SNMP в Zabbix 6"]]> Мы несколько лет используем Zabbix для мониторинга различных операционных систем – Linux, Windows, vSphere.

Иногда приходится добавлять и железо. Пришла задачка замониторить лезвийное шасси IBM Bladecenter H.

Поиск выдал старый шаблон Template IBM BC_AMM SNMP Chassis Stats.xml в формате Zabbix 2.0. Мы его посмотрели и наваяли свой под Zabbix 6.0.

Скачать шаблон IBM Bladecenter AMM SNMP в формате Zabbix 6.

P.S. Дополнительно залил пропавший на просторах сети шаблон для Lenovo ThinkSystem XClarity Contoller (заменить USERNAME и PASSWORD в макросах).

]]>
https://bonlesave.ru/2022/06/06/monitoring-ibm-bladecenter-amm-po-protokolu-snmp-v-zabbix-6/feed/ 0
Обновляем серверы Lenovo Thinksystem/ThinkAgile VX с помощью VMware vSphere Lifecycle Manager https://bonlesave.ru/2021/08/11/obnovlyaem-servery-lenovo-thinksystem-thinkagile-vx-s-pomoshhyu-vmware-vsphere-lifecycle-manager/ https://bonlesave.ru/2021/08/11/obnovlyaem-servery-lenovo-thinksystem-thinkagile-vx-s-pomoshhyu-vmware-vsphere-lifecycle-manager/#comments Wed, 11 Aug 2021 05:01:27 +0000 https://bonlesave.ru/?p=9193 Continue reading "Обновляем серверы Lenovo Thinksystem/ThinkAgile VX с помощью VMware vSphere Lifecycle Manager"]]> В VMware vSphere 7.0 появился новый встроенный продукт для управления обновлениями Lifecycle Manager. Кратко я о нём упоминал в статье:

VMware ESXi 7.0 и неподдерживаемое оборудование

Данный менеджер умеет проверять HCL и даже, по слухам, обновлять прошивки оборудования!

После несколько обращений по поводу функционала и неполным пониманием собеседников как это работает настало время написать про интеграцию с экосистемой Lenovo.

Lenovo XClarity Administrator (LXCA) (Опционально, но рекомендую)

Первый компонент, который нам понадобится, это LXCA. Данный продукт разработан компанией Lenovo для замены IBM Systems Director. Бесплатная версия умеет собирать события и обновлять прошивки через карты управления серверами (Lenovo Integrated Management Module 2 (IMM2) и XClarity Controller (XCC), CMM2), даёт возможность сквозной аутентификации к IMM2/XCC/CMM2.

Система разворачивается довольно просто с шаблона ВМ OVA, который берём со странички Lenovo XClarity Administrator Updates. Прописываем в DNS имя ВМ, даём интернет, добавляем серверы через Discovery и обновляем через Provisioning Firmware Updates. Функционалом можно пользоваться  и без интеграции с vSphere.

Документация на LXCA.

Примечание. Официальная позиция Lenovo заключается в том, что vLCM и LXCI не требуют LXCA для обновления прошивок адаптеров. Из обратной связи пользователей есть подтверждение, что с версии 7.2.0 LXCI обновляла прошивки без LXCA,  а версия 7.1.0 без LXCA нормально не функционировала.

Lenovo XClarity Integrator (LXCI)

Если посмотреть на картинку с общей архитектурой vLCM, то мы видим компонент Vendor  Addon.
Для оборудования Lenovo данное расширение включено в состав LXCI.

Система разворачивается довольно просто с шаблона ВМ OVA, который берём со странички Lenovo XClarity Integrator for VMware vCenter. Прописываем в DNS имя ВМ, интегрируем при установке с LXCA, даём интернет, добавляем vCenter через регистрацию.

Документация на LXCI.

Проверяем и добавляем серверы через vSphere Client – Menu – LXCI (+доступ к консолям серверов через меню). При отсутствии LXCA указываем логины и пароли к XCC:

Убеждаемся, что доступен и LXCA, если настраивали интеграцию.

Качаем пакет для наших серверов:
На данный момент пакет 3.3.0 поддерживает следующие модели серверов (расшифровка моделей):

7Y88,7D1Z,7X84,7D2G,7D2H,7D2F,7Z20,7D29,7D4L,7D5R,7Z05,7Y03,7Y02,7D20,7D27,7Y51,7Y99,7Y55,7Y98,7Z46,7D5T,7D5U,7X02,7Z03,7Y46,7Y90,7Z01,7X19,7X18,7Y95,7D5S,7Z04,7X08,7Y89,7X07,7X06,7X12,7X13,7X11,7Y47,7X05,7X70,7Y00,7X09,7Z06,7X16,7X21,7X58,7Y53,7Y54,7X82,7Z09,7Y36,7D2X,7Y52,7D2Y,7Y87,7D2T,7Y37,7Y38,7X10,7X69,7Y96,7Z02,7D1B,7D2W,7Z08,7X81,7D2V,7Y45,7X15,7X83,7X01,7D1X,7Y73,7D2U,7X98,7Y72,7D4K,7X99,7Z07,7X04,7Y16,7X03,7Y15

vSphere Lifecycle Manager

Для обновления ESXi, драйверов и прошивок необходимо кластеры перевести с VUM Baseline на  модель обновления на основе образов (Updates – Image).

При сборке образа у нас появляется сразу несколько опций:

  • добавить customization addon от производителя для установки проверенных версий драйверов и дополнительных утилит;
  • добавить Firmware and Drivers Addon с выбором hardware support manager коим у нас является LXCI и указать пакет, скаченный ранее;
  • добавить Components – заменить вручную драйверы и утилиты, доступные с репозиториев.

После проверки получаем следующий отчёт о том, что будет обновлено:


Quick Boot

На снимке экрана мы видим уведомление о несовместимости модели сервера с технологией Quick Boot, о которой в нашем бложике есть заметка:

VMware vSphere Quick (Re)Boot

Для серверов Lenovo есть хороший документ Using Quick Boot in VMware ESXi 7.0 on Lenovo ThinkSystem Servers, а проверить совместимость моделей с технологией можно в VMware HCL.

Очевидно, что технология Quick Boot может быть использована только для обновления компонентов и драйверов в ESXi и не используется при прошивке аппаратных частей сервера.

Напутственное слово

Успешных обновлений! Помните, что часть прошивок требует выполнения PowerCycle – не забывайте обесточивать серверы при проблемах после прошивки прежде, чем паниковать и терзать поддержку!

]]>
https://bonlesave.ru/2021/08/11/obnovlyaem-servery-lenovo-thinksystem-thinkagile-vx-s-pomoshhyu-vmware-vsphere-lifecycle-manager/feed/ 3
VMware vSphere Quick (Re)Boot https://bonlesave.ru/2020/09/16/vmware-vsphere-quick-reboot/ https://bonlesave.ru/2020/09/16/vmware-vsphere-quick-reboot/#comments Wed, 16 Sep 2020 08:52:55 +0000 https://bonlesave.ru/?p=8936 Continue reading "VMware vSphere Quick (Re)Boot"]]> В платформе VMware vSphere 6.7 появилась технология vSphere(ESXi) Quick Boot, предназначенная для быстрой перезагрузки ESXi хостов во время обновлений с помощью vSphere Update Manager.

Технология требует соблюдения нескольких условий, описанных в БЗ Understanding ESXi Quick Boot Compatibility (52477):

  1. Модель сервера находится в VMware HCL (функция QuickBoot для ESXi 7.0+)  либо хранится локально в ESXi 6.7 в текстовых файлах.
  2. Выключена технология TPM.
  3. Нет passthru-устройств, подключенных к ВМ с хоста.
  4. Не загружены vmklinux-драйверы на хосте.

В vSphere 7.0 третье ограничение снято, а четвертое отсутствует архитектурно.

Для проверки можно использовать локальный скрипт, выводящие информацию о совместимости модели сервера и драйверов:

/usr/lib/vmware/loadesx/bin/loadESXCheckCompat.py

Пример вывода на стендовом хосте:

LoadESX is not compatible with vmkLinux drivers.
This platform (IBM:System x3650 M2 -[794744G]-) is not compatible with loadESX.
Compatibility check failed: violating one or more strict requirements (loadESX is not supported on this machine)

Для быстрого обновления хостов технология включается в vSphere 7+ Menu->Lifecycle Manager-> Images/Baselines Remediation Settings->Quick Boot. Сокращение времени установки равно времени проверок UEFI при полной перезагрузке хоста.

Также меня заинтересовала возможность быстрой перезагрузки хостов без применения обновлений, поиск в интернете выявил два схожих варианта.

Вариант с Reddit:

/bin/loadESXEnable -e
/usr/lib/vmware/loadesx/bin/loadESX.py
reboot

Вариант от Jiří Viktorin:

/bin/loadESXEnable -e
/usr/lib/vmware/loadesx/bin/loadESXShutdown.sh prepare
reboot

Прошу проголосовать за добавление функционала в графический интерфейс на портале по сбору идей vSphere Ideas, авторизация стандартная от vmware.com.

]]>
https://bonlesave.ru/2020/09/16/vmware-vsphere-quick-reboot/feed/ 1
Хождение по граблям VMware vSphere 7.0 https://bonlesave.ru/2020/09/07/xozhdenie-po-grablyam-vmware-vsphere-7-0/ https://bonlesave.ru/2020/09/07/xozhdenie-po-grablyam-vmware-vsphere-7-0/#comments Mon, 07 Sep 2020 04:39:46 +0000 https://bonlesave.ru/?p=8894 Continue reading "Хождение по граблям VMware vSphere 7.0"]]> Цикл статей о борьбе с VMware vSphere 7.0 продолжается. Читайте содержимое предыдущих серий:

Обновление IBM/LENOVO System X M5 Embedded Hypervisor on SD-card до версии ESXi 7.0

Обновление VMware vCenter с версии 6.7 до 7.0

VMware ESXi 7.0 и неподдерживаемое оборудование

Снимки ВМ и NetApp FAS ONTAP

Самая жёсткая проблема, с которой столкнулись — это переход LUN’ов на системе хранения NetApp FAS в режим Offline при попытке сделать снимок из-под vSphere 7.0 с ошибкой “Out of space”.

Предположительно, проблема связана с All Flash LUN’ами, созданными в ONTAP версии 9.1 или 9.2. Проблема наблюдается в ONTAP 9.7P4, более поздние патчи не проверяли.

Для нас пока закончилось падением пары продуктивных баз данных при инициации резервного копирования.

Решение проблемы:

  1. Вернуть LUN в Online.
  2. Если при Rescan Storage не вернулось DataStore на хостах, то перезагрузить хосты.
  3. Смигрировать ВМ на другой LUN.
  4. Пересоздать проблемный LUN (*либо устранить корневую причину).
  5. Смигрировать ВМ обратно.

vLCM Image и Intel VMD NVMe Driver

Самая весёлая проблема, которая убила кучу времени.

При переводе кластеров с модели обновления Baseline на модель обновления Image поймали отличный конфликт компонентов там, где не ожидали.

Про драйвер читать в статье:

VMware ESXi, VSAN и Intel VMD-Enabled NVMe Driver

На текущий момент в VSAN HCL рекомендуется версия драйвера intel-nvme-vmd-2.0.0.1146, в стандартном же образе зашит другой драйвер iavmd 2.0.0.1055-3vmw.700.1.0.15843807. При попытке собрать образ, совместимый с VSAN HCL получаем невозможность установить компоненты HA. Валят скопом такие ошибки:

  • vSphere HA host status/Cannot find HA master agent
  • vSphere HA agent for this host has an error: vSphere HA agent cannot be installed or configured
  • Component vsphere-fdm cannot be found in depot
  • ‘vxd’ service, runnig on ‘cluster’, reported issue: The HA constraints in the image spec have version whereas the expected version is 7.0.0.-16386338

Решение проблемы:

  1. Отключить HA.
  2. Добавить в image драйвер intel-nvme-vmd-2.0.0.1146.
  3. Накатить на  хост image.
  4. Убрать из image intel-nvme-vmd-2.0.0.1146.
  5. Включить HA.

В итоге, проходим проверку на VSAN HCL и получаем Warning при проверке Image Compliance.

Update 11092020. 10.09.2020 драйвер iavmd 2.0.0.1055-3vmw.700 добавлен в VSAN HCL.

Image не накатывается на хосты

Ещё одна весёлая проблема, при попытке пройти проверку или накатить Image получаем шедевральную ошибку:

Unknown error occurred when invoking host API.

Самое тупое решение:

  1. Cделать сброс БД менеджера обновлений —  Resetting VMware Update Manager Database on a vCenter Server Appliance 6.5/6.7/7.0 (2147284).
  2. Перезагрузить хост.
  3. Запустить обновление снова.

Не работает vLCM Image Export

Для переноса сборки Image между кластерами или vCenter разработчики предусмотрели вариант выгрузки собранной вами конструкции.

Существует три варианта экспорта:

А теперь о проблеме: если вы используете свои сертификаты, то ни одна опция не работает, происходит ошибка браузера “ERR_SSL_PROTOCOL_ERROR”.

Решение проблемы, конкурирующие с предыдущим по интеллектуальности и попахивает уязвимостью (неавторизованный доступ):

  1. Скопировать ссылку из адресной строки браузера.
  2. Открыть приватное окно.
  3. Вставить ссылку в адресную строку.
  4. Заменить протокол с https на http и получить ожидаемое.
]]>
https://bonlesave.ru/2020/09/07/xozhdenie-po-grablyam-vmware-vsphere-7-0/feed/ 1
Обновление IBM/LENOVO System X M5 Embedded Hypervisor on SD-card до версии ESXi 7.0 https://bonlesave.ru/2020/08/21/obnovlenie-ibm-lenovo-system-x-m5-embedded-hypervisor-on-sd-card-do-versii-esxi-7-0/ https://bonlesave.ru/2020/08/21/obnovlenie-ibm-lenovo-system-x-m5-embedded-hypervisor-on-sd-card-do-versii-esxi-7-0/#respond Fri, 21 Aug 2020 10:03:13 +0000 https://bonlesave.ru/?p=8882 Continue reading "Обновление IBM/LENOVO System X M5 Embedded Hypervisor on SD-card до версии ESXi 7.0"]]> Семейство серверов IBM/LENOVO System X  серии M5 может иметь предустановленный Embedded Hypervisor на SD-карте с совместимой версией ESXi 6.x.

При попытке обновиться до версии ESXi 7.0 выходит ошибка:

<em>The boot disk has a size of 1024MB, the minimum requirement of the upgrade image is 3814MB.</em>

Управление SD-картой осуществляется в интерфейсе IMM2. Анализ адаптера показывает, что в реальности используются 32 ГБ карты, но на заводе создан виртуальный диск на 1 ГБ. Расширение размеров не поддерживается.

Для установки ESXi 7.0 придётся прибегнуть к обходной схеме:

  1. Сделать резервную копию конфигурации ESXi – подробно описано в How to back up ESXi host configuration (2042141).
  2. Переформатировать SD-карту на 30 ГБ (максимально доступный размер).
  3. Установить чистый ESXi 6.x (версии, с которой снята резервная копия).
  4. Настроить сеть.
  5. Восстановить из резервной копии конфигурации по инструкции из пункта 1.
  6. Накатить обновление до ESXi 7.x.

P.S. Возможно, данная проблема встречается и на серверах других производителей с предустановленным гипервизором.

]]>
https://bonlesave.ru/2020/08/21/obnovlenie-ibm-lenovo-system-x-m5-embedded-hypervisor-on-sd-card-do-versii-esxi-7-0/feed/ 0
VMware ESXi 7.0 и неподдерживаемое оборудование https://bonlesave.ru/2020/07/30/vmware-esxi-7-0-i-nepodderzhivaemoe-oborudovanie/ https://bonlesave.ru/2020/07/30/vmware-esxi-7-0-i-nepodderzhivaemoe-oborudovanie/#comments Thu, 30 Jul 2020 06:28:55 +0000 https://bonlesave.ru/?p=8848 Continue reading "VMware ESXi 7.0 и неподдерживаемое оборудование"]]> Disclaimer:  все дальнейшие рассуждения и действия не соответствуют политике технической поддержки VMware. Любое использование оборудования вне VMware HCL может быть использовано только на свой страх и риск. В статье рассматривается только то оборудование, на котором возможен технический запуск ESXi 6.7U3.

В связи с выходом платформы VMware vSphere 7.0 виртуальные системные администраторы стали анализировать возможность обновления либо внедрения данного продукта.

Если проблемы с vCenter 7.0 вполне решаемы и описаны в нашей статье Обновление VMware vCenter с версии 6.7 до 7.0, то с ESXi 7.0 всё не так просто.

Для “упрощения” работы администраторов VMware расширила функциональность Update Manager (VUM) полуавтоматическим анализом оборудования: сверкой моделей серверов с HCL, проверкой версий прошивок и драйверов компонентов. Данная функциональность уже была частично представлена  в VSAN [Skyline] Health Hardware compatibility для дисковой подсистемы. Новая версия VUM стала называться vSphere Lifecycle Manager (vLCM). Для загрузки HCL следует в административном интерфейсе нажать ACTIONS->Sync HCL.

Мои ожидания от vLCM были примерно такие – запускаю на хосте Updates -> Hardware Compatibility и система пишет, что оборудование не в HCL, такие-то компоненты не имеют драйверов и не будут работать. В реальности, если сервер не в HCL, то на этом проверка останавливается:

Host model is not compatible with ESXi 7.0
Skipped checking host devices.

Что как бы нас совершенно не устраивает, так как наша цель – запуститься вне HCL, и хотелось бы понимать какие компоненты не имеют драйверов и поддержки.

Поэтому с компонентами придётся разбираться самостоятельно.

Во-первых, следует проверить процессор, так как без него дальнейшие шаги просто бесполезны. Мы писали ранее о процессорах, исключенных из поддержки в статьях: Прекращение поддержки процессоров в VMware vSphere 6.7 и Чего не будет в VMware vSphere 7.0?  – то есть, если ваш процессор старее Intel Xeon E5-26xx v1, то можете выкинуть данный серверный хлам. Но! Для Westmere-EP (очень популярных Xeon _56xx) и Westmere-EX есть чит, который позволяет запускать ESXi 7.0 – Allow unsupported CPUs when upgrading to ESXi 7.0.

Во-вторых, критическими компонентами являются сетевые карты, FC-HBA и RAID/HBA-контроллеры. Без обнаружения сетевой карты установщик ESXi прекращает свою работу. Проблема в том, что для старых компонентов драйверов для ESXi 7.0 нет – количество драйверных пакетов уменьшено с 144 до 75.

Почему же в ESXi 7.0 произошла жёсткая отсечка старого оборудования? Для понимания оглянемся назад на 6-7 лет – в 2013-2014 годы. В платформе vSphere 5.5 компания VMware объявила о новой модели Native Device Driver вместо портированных с Linux драйверов, работающих через посредника API vmklinux.  Почитать о  NDD можно в статьях William’a Lam’a: ESXi 5.5 introduces a new Native Device Driver Architecture Part 1(по-русски),  Part 2.

Если раньше для решения проблем приходилось отключать новые драйверы, например, Отключение VMware ESXi Native Driver, то в семёрке убрали vmklinux.

Чтобы понять как это повлияет на инфраструктур в официальном блоге опубликована статья What is the Impact of the VMKlinux Driver Stack Deprecation? и предложен PowerCLI-скрипт от William’a Lam’aдля обнаружения vmklinux-драйверов.

Для тестов мы запустили скрипт на стенде со старыми серверами IBM (процессоры Xeon x56xx, E5-26xx v1):

VMHost VMKLinuxDriver 
------ -------------- 
hs22v vmklinux_9_2_3_0,cnic_register,bnx2x,cnic,iscsi_linux_92,bnx2i,mptsas,libfc_92,libfcoe_92,bnx2fc
hs23 vmklinux_9_2_3_0,cnic_register,mpt2sas
x3650m2 vmklinux_9_2_3_0,cnic_register,mpt2sas,megaraid_sas

Теперь наша задача  – понять, насколько критичны данные компоненты для функционирования, есть ли для них драйверы в формате Native Device Driver.

Для понимания общей картины прекращения поддержки устройств следует ознакомиться с КБшечкой и приложениями:

  1. Devices deprecated and unsupported in ESXi 7.0 (77304)
    https://kb.vmware.com/s/article/77304?lang=en_US
    https://kb.vmware.com/sfc/servlet.shepherd/version/download/0685G00000SsY5UQAV

Один из серверов нашего стенда – IBM BladeCenter HS23,  в отличие от HS22v и x3650 M2, имеется в VMware HCL (уже убрали 🙁 )! А это значит, что мы можем воспользоваться вышеупомянутым функционалом vLCM проверки хостов черех Updates -> Hardware Compatibility:

Результат удовлетворительный – система на HS23 рабочая для тестовых нужд, но без RAID, который имеет старый тип драйвера. Кусочек успешной проверки на совместимость RAID с ESXi 6.7U3:

Мы у себя не используем локальные диски серверов, а устанавливаем ESXi на USB-накопители/SD-карты. В ESXi 7.0 требования к загрузочным накопителям и раскладка томов изменились, советую ознакомиться со следующей документацией:

  1. vSphere 7 – ESXi System Storage Changes
  2. vSphere 7 – System Storage When Upgrading
  3. Installing ESXi on a supported USB flash drive or SD flash card (2004784)
  4. Running ESXi in “Degraded Mode”, what does that mean?
  5. Removal of SD card/USB as a standalone boot device option (85685)
  6. Boot option to configure the size of ESXi system partitions (81166)
  7. Potential VMFS-L Locker partition corruption on SD cards in ESXi 7.0 (83376)
  8. Storage Requirements for ESXi 7.0 Installation or Upgrade
  9. Approved Flash Devices

В итоге, мы можем использовать IBM BC HS23 в качестве стенда для ESXi 7.0, а вот серверы на процессорах Intel Xeon _56xx пора списывать – их время ушло.

P.S. Для Intel Xeon _56xx остаётся чит, но это сильно на любителя, также без правки конфигурационных файлов он работает только до перезагрузки сервера. Скорее всего будут проблемы и с драйверами.

Update 03082020. Проверка совместимости с помощью образа ESXi 7.0

Для определения Device ID неподдерживаемых устройств в vCenter 7.0 vLCM добавляем ISO с ESXi 7.0, делаем ATTACH Baseline с образом, запускаем CHECK COMPLIANCE, смотрим на ошибки и варианты решения:

  1. The upgrade has VIBs that are missing dependencies: перечисление VIB’ов
    • Взять Custom-образ от производителя
    • или собрать свой Custom-образ,
    • или удалить VIB (если это не драйверы сетевых карт) и заново запустить обновление.
  2. The boot disk has a size of 1024MB, the minimum requirement of the upgrade image is 3814MB.
    • Заменить загрузочный диск на большего размера – не менее 8 ГБ ( 4 ГБ можно использовать только при обновлении с 6.7, в данном случае проще поставить ESXi 7.0 с нуля, а это потребует 8 ГБ).
  3. Unsupported devices [перечисление Device ID] found on the host.
    • Необходимо понять сможете ли жить без этого контроллера – устройство по идентификатору, обычно, легко ищется. Например, если итак RAID не используется, то теперь его не будет в ОС совсем. Некоторые контроллеры имеют неподдерживаемые драйверы, проверяйте, что они в модели NDD.

Update 04082020. Поддержка гигабитных карт Intel типа NE1000

1-гигабитные карты Intel c драйвером NE1000 перестали поддерживаться VMware в официальном канале и ушли на поддержку в community. Драйвер можно взять по ссылке из статьи Enhancements to the community ne1000 VIB for Intel NUC 10, а инструкция по установке приведена в How to patch Intel NUC 10 with latest ESXi 7.0 update?

]]>
https://bonlesave.ru/2020/07/30/vmware-esxi-7-0-i-nepodderzhivaemoe-oborudovanie/feed/ 10