Статьи по теме data-science

Публикации по теме 'data-science'

Python Speed Test: 5 методов удаления символа $ из ваших данных на Python

В предыдущем посте о регрессионном проекте по продажам спиртных напитков в Айове я упомянул, что это был мой первый раз, когда я работал с данными, достаточно большими, чтобы беспокоиться о написании кода для оптимизации скорости. В этой статье я рассмотрю относительно простой пример этого процесса. Вот данные, с которыми мы работаем. Обратите внимание на столбец state_bottle_retail. Каждая запись начинается со знака доллара, и чтобы сделать значения числовыми, мне нужно удалить эти..

SupportVector Machine объяснил

Объяснение машины опорных векторов Итак, вы, должно быть, уже прошли через логистическую регрессию. Предположение, которое мы делаем в логистической регрессии, заключается в том, что данные должны быть линейно разделяемыми. Давайте поговорим о другом простом и элегантном алгоритме, SVM (Support Vector Machine). SVM можно использовать как в случае регрессии, так и в случае классификации. Что такое машина опорных векторов? Машина опорных векторов в основном используется в задачах..

Четыре способа фильтрации набора данных Spark по сравнению с набором значений данных

Практические руководства , РУКОВОДСТВО ПО ИСПОЛНЕНИЮ SPARK Четыре способа фильтрации набора данных Spark по сравнению с набором значений данных Фильтрация набора данных Spark по набору значений данных часто встречается во многих потоках аналитики данных. Эта конкретная история объясняет четыре разных способа достижения того же. Предположим, существует очень большой набор данных «A» со следующей схемой: root: | — empId: Integer | — sal: Integer | — name: String | — address:..

Расширенное выражение присваивания в Python - оператор Walrus: = и не только

Не только об операторе моржа, но и о многих связанных с ним понятиях Начиная с версии 3.8, в Python была включена новая функция расширенного выражения присваивания. В частности, в результате появляется новый оператор - встроенный оператор присваивания := . Из-за своего внешнего вида этот оператор более известен как оператор моржа. В этой статье я хотел бы обсудить ключевые аспекты этого оператора, чтобы помочь вам понять эту технику. Без лишних слов, приступим. Различие между..

Моей подруге Марии: искусственный интеллект здесь, чтобы сделать вас более человечными

Это рассказ о Марии. Она работает в колл-центре на Филиппинах. Мария помогает 60 000 сотрудников John Deere по всему миру сбрасывать пароли и обновлять до последней версии Microsoft Office двадцать раз в день. Работодатель Марии, Cognizant, является крупнейшим мировым поставщиком ИТ-услуг. Мария работает вместе с 350 агентами колл-центра, которые начинают работу в полночь, перерываются на обед в 4:00 утра и отправляют свое последнее электронное письмо в 9:00. У Марии двое детей,..

Преимущества облачного машинного обучения и искусственного интеллекта

По мере того, как большие данные становятся все более сложными, компании изо всех сил пытаются удовлетворить потребности в хранении и вычислениях средних организаций, а тем более крупных предприятий. Здесь в игру вступают облачные машинное обучение и искусственный интеллект. Что означает Cloud Native? Ваша вычислительная мощность ограничена. Независимо от того, какое оборудование и программное обеспечение вы покупаете, вы всегда будете идти на цыпочках к устареванию. Это нормально..

Отдельный () против dropDuplicates () в Spark

В чем разница между отдельными () и dropDuplicates () в Spark? В Spark DataFrame API есть две функции, которые можно использовать для удаления дубликатов из заданного DataFrame. Это distinct() и dropDuplicates() . Несмотря на то, что оба метода в значительной степени выполняют одну и ту же работу, на самом деле у них есть одно отличие, которое очень важно в некоторых случаях использования. В этой статье мы собираемся изучить, как работают обе эти функции и в чем их основное..