December 22nd, 2016

Оголтело очерняют межделмаш!

Внезапно:
Наблюдая сегодня за оживленной дискуссией Максим Шапошников, Александр Марков и Ononole Wasserman, я решил поделиться кейсом с участием все тех же IBM и Nutanix из личной практики.
Началось все с того, что в одной большой российской компании начались проблемы с кастомной системой, работающей на IBM Domino. В системе в то время работало около 10 тысяч пользователей (сейчас еще больше) по всей стране от Калининграда до Камчатки, и крутилась она на нескольких IBM Power7 под управлением AIX 7.1, включая топовый Power795, на котором был развернут корневой сервер системы. (к слову, к Power'ам тоже пришли не сразу. С рождения она крутилась на HP ProLiant'ах, потом пробовали Sun SPARC Enterprise T5140 на UltraSPARC T2, потом каких-то Sun'овских же монстров на AMD Opteron'ах, много всего было - тоже есть, что рассказать).
Проблемы с производительностью наблюдались постоянно, в первую очередь на Power'ах были грабли с дисковой подсистемой - Domino Lock Manager регулярно начинал дампить Long Held Lock'и уводить всю систему в жесточайший затуп.
Привлекли IBM, который предложил разместить данные на их FlashSystem, что и было сделано. Самое удивительное, что после перехода со шпинделей (одна из топовых СХД от EMC)
на SSD (FlashSystem) принципиально ничего не изменилось. IBM приезжал, тюнил, настраивал, стало получше. Но не радикально. В целом никто особо изменений не заметил.
Поставили 1 блок Nutanix NX-3060-G4 потестировать.
Сначала попробовали "синтетику":
Т.к. базы крэшились довольно часто, под восстановление встроенными утилитами в домене был выделенный сервер IBM Power730, работающий исключительно под эти задачи.
Взяли битую БД размером около 50 ГБ и запустили на P730 утилиту Fixup для восстановления БД. Данный процесс работал там почти сутки, что для нас было привычно. Непривычно было то, что было дальше:
На Нутаниксе накликали за пару минут виртуалку, вкатили туда CentOS 7, развернули Domino 9.0.1 и повторили эту же процедуру с этой же БД (именно этой же - достали ее из того же бэкапа). Так вот там безо всякого тюнинга она отработала за 2.5 часа. Впечатлились.
Далее в выходные последовал перенос продуктивных серверов с Power'ов на этот блок 3060 (виртуалки делались под SLES 11).
В понедельник начались звонки от коммерческого блока (один из основных бизнес-пользователей) с вопросами "Ребята, а что вы сделали? Почему все летает?!"
Итого:
Количество инцидентов с системой упало на порядок. Производительность не только объективно по метрикам, но и по субъективным оценкам пользователей выросла в полтора-два раза.
Если интересуют подробности, готов ответить на вопросы, т.к. сразу описывать все и вся в деталях - слишком объемно.

https://www.facebook.com/groups/itprocommunity/permalink/1560783907281832/