Статьи по теме hadoop

Публикации по теме 'hadoop'

Лучшие стартапы в области аналитики данных

Будь то определение поведения и предпочтений потребителей или рыночных тенденций и закономерностей, аналитика данных имеет большое значение для организаций. Компании используют исчерпывающие наборы данных, чтобы принимать более обоснованные и обоснованные решения для своего бизнеса. Многие предприятия используют расширенную аналитику для организации больших и разнообразных наборов данных. Если посмотреть на текущие потребности клиентов, ожидается, что в ближайшие годы глобальный рынок..

Большие данные не такие уж и большие: наука о данных для малых и средних предприятий

Новая основа для любого бизнеса Текущие достижения в области технологий во многом подпитываются растущим потоком данных, поступающих из различных источников и анализируемых для создания конкурентных преимуществ. И отдельные пользователи, и предприятия переходят на цифровую систему, которая, в свою очередь, генерирует пулы информации. В свою очередь, организации делятся данными с другими компаниями, порождая цифровые экосистемы, которые начинают стирать традиционные отраслевые границы...

Прогнозирование оттока пользователей - Apache Spark

Определение проекта Я всегда стремлюсь изучать новые фреймворки и расширять свои возможности, поэтому, когда я услышал о возможности проекта, использующего Apache Spark и Hadoop, я был уже очень заинтригован. Изучив основы API PySpark Apache Spark, нет лучшего способа продемонстрировать мастерство машинного обучения, чем в контексте больших данных. Этот проект вращается вокруг ключевой бизнес-проблемы, с которой сталкиваются многие фирмы; Как узнать, какие клиенты хотят уйти, и как..

Чему я научился на стажировке в Ampool.io

В мире науки о данных и обработки больших данных Ampool.io — это стартап, который делает все быстрее. Ampool — это хранилище данных, которое хранит данные в памяти (ОЗУ) для быстрых вычислений и аналитики в реальном времени. Это быстрее, чем распределенная файловая система Hadoop (отраслевой стандарт последних нескольких лет). Ampool построен с использованием Apache Geode и имеет интерактивный интерфейс, очень похожий на gfsh, который называется mash. Вы еще не можете выполнять..

Подробное описание оконных функций Apache Spark

ТЕХНОЛОГИЯ ЭКСПЕДИА ГРУПП - ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ Подробное описание оконных функций Apache Spark Оконные функции работают с группами данных и возвращают значения для каждой записи или группы. В этом сообщении блога мы подробно рассмотрим оконные функции Apache Spark. Вам также могут быть интересны мои предыдущие сообщения об Apache Spark. Начните свое путешествие с Apache Spark - Часть 1 Начните свое путешествие с Apache Spark - Часть 2 Начните свое путешествие с..

Вопросы по теме 'hadoop'

Как управлять именем и содержимым выходных файлов задания потоковой передачи Hadoop?

Есть ли способ управлять именами выходных файлов задания Hadoop Streaming? В частности, я хотел бы, чтобы содержимое и имя выходных файлов моей работы были организованы кетом, который выводит редуктор - каждый файл будет содержать значения только для...

9654 просмотров

hadoop mapreduce distributed-computing

07.06.2022

Расширенные запросы в HBase

Учитывая следующий сценарий схемы HBase ( из официального FAQ )... Как бы вы спроектировали таблицу Hbase для связи «многие ко многим» между двумя объектами, например «Студент» и «Курс»? Я бы определил две таблицы: Студент:...

6525 просмотров

nosql sql hadoop hbase

16.04.2022

Ошибка в Hadoop MapReduce

Когда я запускаю программу mapreduce с помощью Hadoop, я получаю следующую ошибку. 10/01/18 10:52:48 INFO mapred.JobClient: Task Id : attempt_201001181020_0002_m_000014_0, Status : FAILED java.io.IOException: Task process exit with nonzero...

11870 просмотров

hadoop mapreduce

01.05.2022

Поиск совпадающих строк с помощью Hadoop/MapReduce

Я играю с Hadoop и настроил двухузловой кластер на Ubuntu. Пример WordCount работает нормально. Теперь я хотел бы написать свою собственную программу MapReduce для анализа некоторых данных журнала (основная причина: это выглядит просто, и у меня...

2010 просмотров

java hadoop mapreduce

18.11.2023

Как объединить множество файлов в один внутри Hadoop без сопоставления или сокращения

Я пытаюсь объединить несколько файлов в нескольких входных каталогах в один файл по разным странным причинам, в которые я не буду вдаваться. Моя первоначальная попытка состояла в том, чтобы написать «нулевой» преобразователь и редуктор, который...

1614 просмотров

hadoop

05.03.2022

Поиски (и общие запросы) с помощью HBase и/или Cassandra (лучшие практики?)

У меня есть объект модели User с несколькими полями (свойствами, если хотите). Произнесите «имя», «фамилию», «город» и «год рождения». Каждый пользователь также получает «уникальный идентификатор». Я хочу иметь возможность искать по ним. Как мне...

1755 просмотров

nosql cassandra hadoop hbase

10.06.2023

Настройка ведения журнала Hadoop, чтобы избежать слишком большого количества файлов журнала

У меня проблема с тем, что Hadoop создает слишком много файлов журналов в $HADOOP_LOG_DIR/userlogs (файловая система Ext3 допускает только 32000 подкаталогов), что похоже на ту же проблему в этом вопросе: Ошибка в Hadoop MapReduce Мой вопрос:...

13552 просмотров

java hadoop mapreduce log4j

26.03.2023

Бесплатные большие наборы данных для экспериментов с Hadoop

Знаете ли вы какой-нибудь большой набор данных для экспериментов с Hadoop, который является бесплатным или недорогим? Любые связанные указатели/ссылки приветствуются. Предпочтение: Не менее одного ГБ данных. Данные производственного...

41222 просмотров

hadoop resources opendata

02.04.2022

R: Создание CSV из сериализованных объектов

Я пытаюсь взять список и сериализовать каждый элемент и поместить его в файл CSV с ключом, чтобы создать текстовый файл с парами ключ/значение. В конечном итоге это будет работать через потоковую передачу Hadoop, поэтому, прежде чем вы спросите, я...

538 просмотров

r hadoop serialization

03.01.2023

Структура списка смежности в HBase

Я пытаюсь реализовать следующий алгоритм сокращения графа в Граф является неориентированным взвешенным графом Я хочу удалить все узлы только с двумя соседями и обновить вес Взгляните на следующую иллюстрацию:...

859 просмотров

hadoop mapreduce hbase

05.04.2023

Как объединить несколько заданий Hadoop MapReduce в одно?

У меня есть огромное количество входных данных (поэтому я использую Hadoop), и есть несколько задач, которые можно решить с помощью различных шагов MapReduce, из которых первому сопоставителю нужны все данные в качестве входных данных. Моя цель:...

3394 просмотров

java hadoop mapreduce

09.04.2023

Разница между свиньей и ульем? Почему есть оба?

Мой опыт - 4 недели в мире Hadoop. Немного поэкспериментировал с Hive, Pig и Hadoop, используя виртуальную машину Hadoop от Cloudera. Прочитал документ Google по Map-Reduce и GFS ( ссылка в формате PDF ). Я это понимаю- Свиной язык...

207795 просмотров

hadoop hive apache-pig

03.02.2024

Есть ли каноническая проблема, которую нельзя решить с помощью map/reduce?

Я пытаюсь понять границы hadoop и map/reduce, и это помогло бы узнать нетривиальную проблему или класс проблем, с которыми, как мы знаем, map/reduce не может помочь. Конечно, было бы интересно, если бы изменение одного фактора проблемы позволило...

1515 просмотров

hadoop mapreduce apache-pig

22.01.2024

Pig Latin: загрузка нескольких файлов из диапазона дат (часть структуры каталогов)

У меня следующий сценарий- Используемая версия свиньи 0,70 Пример структуры каталогов HDFS: /user/training/test/20100810/<data files> /user/training/test/20100811/<data files> /user/training/test/20100812/<data files>...

47518 просмотров

hadoop apache-pig

09.01.2023

Можно ли запустить Hadoop в псевдо-распределенном режиме без HDFS?

Я изучаю варианты запуска приложения hadoop в локальной системе. Как и во многих приложениях, первые несколько выпусков должны работать на одном узле, если мы можем использовать все доступные ядра ЦП (да, это связано с этот вопрос ). Текущее...

4136 просмотров

local-storage hadoop hdfs mapreduce

25.10.2023

Как вы используете собственный компаратор с SingleColumnValueFilter в HBase?

Я пытаюсь отфильтровать строки из таблицы HBase, используя два SingleColumnValueFilter , чтобы вернуть все записи, попадающие в диапазон длинных значений для столбца. Согласно документации для SingleColumnValueFilter, он выполняет лексикографическое...

4002 просмотров

java hadoop hbase

08.04.2022

Как эффективно программно копировать файлы из HDFS в S3

Моя работа в Hadoop генерирует большое количество файлов в HDFS, и я хочу написать отдельный поток, который будет копировать эти файлы из HDFS в S3. Может ли кто-нибудь указать мне на любой java API, который его обрабатывает. Спасибо

16494 просмотров

amazon-s3 hadoop hdfs

03.09.2022

Запрос Hadoop относительно метода setJarByClass класса Job

В документации Hadoop API указано тот setJarByClass public void setJarByClass(Class<?> cls) Set the Jar by finding where a given class came from. Что именно означает это объяснение? создает ли он файл JAR из аргумента файла...

10580 просмотров

hadoop

24.05.2024

Как я могу использовать тип данных карты в Apache Pig?

Я хотел бы использовать Apache Pig для создания большого сопоставления ключей -> значений, поиска вещей на карте и перебора ключей. Однако, похоже, даже не существует синтаксиса для выполнения этих действий; Я проверил руководство, вики, пример...

28053 просмотров

syntax hadoop map apache-pig

19.04.2023

1 миллион предложений для сохранения в БД — удаление нерелевантных английских слов

Я пытаюсь обучить классификатор Naive Bayes с положительными/отрицательными словами, извлеченными из настроения. пример: Я люблю этот фильм :)) ненавижу когда идет дождь :( Идея состоит в том, что я извлекаю положительные или отрицательные...

900 просмотров

database nlp hadoop sentiment-analysis classification

01.04.2023