Публикации по теме 'data-visualization'
Лучший формат файла для науки о данных
Выбор подходящего формата файла является критически важным аспектом науки о данных, поскольку он может значительно повлиять на эффективность хранения данных, доступа к ним и манипулирования ими.
В этом блоге мы рассмотрим некоторые необычные и распространенные форматы файлов и протестируем их.
Я измерю время, необходимое для чтения и записи данных для каждого из перечисленных ниже форматов, и запишу объем используемого хранилища. Набор данных, используемый для записи, будет..
Python и Bokeh - Часть III (Учебное пособие)
Руководство для новичков по созданию интерактивных информационных панелей: приложение Bokeh в реальном времени
В первых двух частях серии мы многое узнали о боке. Мы уже знаем, как создавать автономные документы с глифами Bokeh, как встраивать их в записные книжки Jupyter, настраивать и добавлять взаимодействия. Что еще более важно, мы узнали, как разрабатывать базовые приложения Bokeh и запускать их с помощью сервера Bokeh. Первые две части можно найти здесь: Часть I , Часть II ...
Визуализация в Python III: диаграмма с областями, круговая диаграмма, диаграмма с накоплением
Привет, рад снова видеть вас, я надеюсь, что вы следите за предыдущими статьями , если нет, вам следует их прочитать, нет необходимости знать эти темы для этого урока, но это, безусловно, расширит ваши знания.
Что ж, давайте продолжим с того места, на котором остановились.
Композиционные графики
Композиционные графики идеально подходят, если вы думаете о чем-то как о части целого. Для статических данных можно использовать круговые диаграммы, гистограммы с накоплением или..
Сетевая визуализация освещения в СМИ насилия в отношении женщин в Бангладеш
Сетевая визуализация освещения в СМИ насилия в отношении женщин в Бангладеш
Я только что закончил свой первый проект по визуализации сети на Python и Gephi на основе данных известной газеты Бангладеш «Dhaka Tribune». Визуализация основана на взаимосвязи совпадения между объектами, такими как местоположение, организации и люди, цитируемые в новостных статьях в Dhaka Tribune за 2012–2016 годы.
Мы хотели изучить освещение в СМИ статей о домогательствах или насилии в отношении женщин,..
Как получить координаты любой точки на заданном графике
Много раз приходится сталкиваться с графиком, где требуется знать координаты конкретной точки на данном графике.
Скажем, вам дана эта информация.
train = plt.plot(alphas,train_score)
test = plt.plot(alphas,test_score)
plt.xlabel('alphas')
plt.ylabel('scores')
plt.legend(['train_data','test_data'])
С помощью приведенной выше информации вам нужно найти значение альфа, которое уменьшает переоснащение для этого набора данных. Уменьшение переобучения означает нахождение альфы,..
Как сравнить 2 набора данных с профилированием Pandas
Вариант использования качества данных с расширенным EDA
Визуализация является краеугольным камнем EDA. Когда мы сталкиваемся с новым неизвестным набором данных, визуальный осмотр позволяет нам получить представление об имеющейся информации, нарисовать некоторые закономерности в отношении данных и диагностировать несколько проблем, которые нам, возможно, придется решить. В этом отношении Pandas Profiling был незаменимым швейцарским ножом в поясе инструментов каждого специалиста по..
Сноупарк в Снежинке
Некоторые компании изучают Snowpark и Snowflake и рекомендуют своим инженерам, ученым и аналитикам данных отказаться от DataBricks. Чтобы успешно использовать Snowpark, вы должны сначала понять его синтаксис.
Snowpark предоставляет простой в использовании API для доступа и обработки данных в конвейере данных. Вы можете использовать библиотеку Snowpark для создания приложений, которые обрабатывают данные в Snowflake, не передавая их на компьютер, на котором выполняется код вашего..