Еще в 2017 году мой генеральный директор пригласил меня на серию технических встреч для технических директоров и начинающих технических директоров, которые были заинтересованы в обмене своим опытом создания технологических компаний. Меня познакомили с Чаракой (техническим директором Panaseer), и я помню, как большие данные и безопасность упоминались в том же предложении, когда я спросил, что делает Panaseer.

Мои знания в области безопасности ограничивались областью веб-разработки, а мое понимание больших данных основывалось на нескольких статьях, которые я прочитал в Интернете, в которых обсуждались ограничения современных вычислительных технологий. В то время я не искал работу, но на следующих нескольких встречах мы всегда заканчивали тем, что болтали, делились идеями и знаниями. Примерно через год появилась возможность поработать вместе, поэтому я воспользовался этим как шанс переехать и узнать что-то новое.

Проведя более десяти лет в индустрии онлайн-гемблинга, которая представляет собой среду с большими объемами, малой задержкой и высокой степенью транзакций, я привык работать с большими монолитными базами данных, стоимость которых составляет миллионы фунтов стерлингов и которые находятся на пределе вычислительных возможностей того, что было раньше. доступны для коммерческой покупки в то время. У меня часто случались разговоры о планировании емкости, в которых сравнивали стоимость новой покупки, настройку производительности и изменение архитектуры платформы, чтобы уменьшить ответственность монолита в других базах данных.

Проблема с настройкой производительности платформы для единой базы данных заключается в том, что отдача уменьшается, чем больше вы делаете. Ваш первый раунд настройки производительности дает вам 50%, следующие 30%, следующие 10% и так далее. Вы можете выполнить ограниченный объем работы процессора.

Проблема с изменением архитектуры корпоративной платформы, которая разрабатывалась в течение 15 лет тысячами разработчиков и которая принимает миллионы фунтов стерлингов в день, заключается в следующем:

  • Это очень дорого;
  • Трудно сделать;
  • Вы не можете сделать все сразу;
  • У вас нет гарантии, что вы сможете доставить его в установленные сроки.

Это отнюдь не невозможно, но если у вас есть возможность потратить несколько миллионов фунтов стерлингов на новый сервер базы данных, чтобы гарантировать свою мощность, по сравнению с новым сложным ИТ-проектом с большой неопределенностью, люди часто выбирают безопасный вариант, несмотря на цена.

Другой проблемой была стоимость хранения. Администраторы баз данных также часто жаловались на огромную стоимость покупки дорогостоящих высокопроизводительных дисков в больших объемах, а мы брались за дорогостоящие проекты по архивированию данных в более дешевое хранилище. Я помню, как однажды в ранние годы сказал администратору баз данных: «Разве диски не дешевы? В наши дни я могу получить диск емкостью 1 ТБ менее чем за 100 фунтов стерлингов », на что они со смехом ответили:« Не это, это не обычный жесткий диск, который вы вставляете в компьютер. Я не просто покупаю один, мне нужно увеличивать стоимость каждого купленного концерта в 5 раз для всех различных сред, резервного копирования, репликации, производительности, аварийного восстановления ». Отсюда и мой интерес к переходу на большие данные.

Проблемное пространство не то же самое, большие данные не связаны с транзакционными системами, но поиск решения ограничений существующего программного и аппаратного обеспечения для обработки данных.

Panaseer была создана группой более ранних приверженцев экосистемы больших данных, и платформа была разработана с учетом некоторых ключевых целей.

  • Пользователи могут задать любой вопрос о своей позиции безопасности;
  • Платформа должна быть чрезвычайно масштабируемой, и это не должно влиять на то, сколько времени потребуется на получение ответа.

Решить эту проблему с помощью типичной реляционной транзакционной базы данных невозможно с финансовой и вычислительной точки зрения, поэтому меня действительно интересовало, как эта технология работает и применяется к проблеме.

Panaseer - большие пользователи фреймворка Hadoop, который предоставляет набор приложений / библиотек, которые позволяют распределенную обработку больших наборов данных на кластерах компьютеров. Hadoop - это не одно приложение само по себе, в Hadoop есть множество проектов, которые решают всевозможные проблемы распределенных вычислений. Чтобы перечислить некоторые из них, используемые Panaseer:

  • HDFS - базовая файловая система, которая позволяет многим компьютерным хранилищам выглядеть как одно целое.
  • Искра - представьте, что вам пришлось проверять огромный роман, состоящий из тысяч и тысяч страниц. У вас мало времени, чтобы завершить его сегодня, а если бы вы сделали это самостоятельно, это заняло бы дни. Однако хорошая новость в том, что у вас есть группа друзей, которые могут вам помочь. Вы берете книгу и отрываете первые 100 страниц, передавая ее первому другу, следующие 100 страниц - к следующему и т. Д., Каждый из них уходит, чтобы прочитать свои 100 страниц и внести обновления, каждый возвращается с результатами, просить Еще 100, и вы перестраиваете книгу по порядку. Это то, что Spark делает с огромными наборами данных, разбивая их на части для обработки разными компьютерами, чтобы не иметь значения, насколько велика задача, мы просто можем получить больше компьютеров, чтобы получить ответ в разумные сроки.
  • Пряжа - это немного похоже на человека, который организует таксистов в компании такси, он принимает задачи и распределяет их по ресурсам и обеспечивает справедливое планирование задач, за исключением того, что в этом случае такси - это компьютеры.
  • Hive, Avro, HBase, Phoenix, Zoo Keeper и этот список можно продолжить….

Да, их имена можно спутать с покемонами, и я мог бы попытаться привести вам более ужасные аналогии, но я могу заверить вас, что у каждого из них есть очень конкретная цель для решения проблем в этом пространстве.

Я присоединился к Panaseer чуть больше месяца назад в качестве руководителя отдела разработки с моей личной целью - стать более осведомленным в мире распределенных вычислений. Процесс собеседования начался с неформальной беседы о том, что я действительно искал в этой роли, и вскоре после этого меня пригласили в просторный офис, расположенный на берегу Темзы, чтобы обсудить мой опыт.

Еще до того, как мне предложили роль, я смог присутствовать на «Panabeers» в пятницу, что является обычным социальным событием, на которое, по желанию, может быть приглашена вся компания, где я должен был поговорить со всеми участниками бизнеса за бокалом напитка. Это действительно вселило в меня уверенность, что до прихода в компанию у компании была правильная культура, и я знал, что собираюсь вписаться в нее.

Первая неделя моего вводного курса была забавной, у меня уже есть собственный кластер Hadoop, работающий на моем ноутбуке, и я глубоко погрузился в основной вычислительный движок Panaseer, это был болезненный шаг за пределы того, к чему я привык, но это хорошая боль. Я так привык к комфорту одних и тех же технологий и парадигм для решения проблем, и Panaseer все это встряхнул.

Хотите изменить типичные технологии, с которыми вы работаете, как это сделал я? Мы набираем сотрудников, возможностей много, так что присылайте нам свое резюме!