Публикации по теме 'hadoop'
Лучшие стартапы в области аналитики данных
Будь то определение поведения и предпочтений потребителей или рыночных тенденций и закономерностей, аналитика данных имеет большое значение для организаций. Компании используют исчерпывающие наборы данных, чтобы принимать более обоснованные и обоснованные решения для своего бизнеса. Многие предприятия используют расширенную аналитику для организации больших и разнообразных наборов данных. Если посмотреть на текущие потребности клиентов, ожидается, что в ближайшие годы глобальный рынок..
Большие данные не такие уж и большие: наука о данных для малых и средних предприятий
Новая основа для любого бизнеса
Текущие достижения в области технологий во многом подпитываются растущим потоком данных, поступающих из различных источников и анализируемых для создания конкурентных преимуществ. И отдельные пользователи, и предприятия переходят на цифровую систему, которая, в свою очередь, генерирует пулы информации. В свою очередь, организации делятся данными с другими компаниями, порождая цифровые экосистемы, которые начинают стирать традиционные отраслевые границы...
Прогнозирование оттока пользователей - Apache Spark
Определение проекта
Я всегда стремлюсь изучать новые фреймворки и расширять свои возможности, поэтому, когда я услышал о возможности проекта, использующего Apache Spark и Hadoop, я был уже очень заинтригован. Изучив основы API PySpark Apache Spark, нет лучшего способа продемонстрировать мастерство машинного обучения, чем в контексте больших данных. Этот проект вращается вокруг ключевой бизнес-проблемы, с которой сталкиваются многие фирмы; Как узнать, какие клиенты хотят уйти, и как..
Чему я научился на стажировке в Ampool.io
В мире науки о данных и обработки больших данных Ampool.io — это стартап, который делает все быстрее. Ampool — это хранилище данных, которое хранит данные в памяти (ОЗУ) для быстрых вычислений и аналитики в реальном времени. Это быстрее, чем распределенная файловая система Hadoop (отраслевой стандарт последних нескольких лет). Ampool построен с использованием Apache Geode и имеет интерактивный интерфейс, очень похожий на gfsh, который называется mash. Вы еще не можете выполнять..
Подробное описание оконных функций Apache Spark
ТЕХНОЛОГИЯ ЭКСПЕДИА ГРУПП - ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ
Подробное описание оконных функций Apache Spark
Оконные функции работают с группами данных и возвращают значения для каждой записи или группы.
В этом сообщении блога мы подробно рассмотрим оконные функции Apache Spark. Вам также могут быть интересны мои предыдущие сообщения об Apache Spark.
Начните свое путешествие с Apache Spark - Часть 1 Начните свое путешествие с Apache Spark - Часть 2 Начните свое путешествие с..
Вопросы по теме 'hadoop'
Как управлять именем и содержимым выходных файлов задания потоковой передачи Hadoop?
Есть ли способ управлять именами выходных файлов задания Hadoop Streaming? В частности, я хотел бы, чтобы содержимое и имя выходных файлов моей работы были организованы кетом, который выводит редуктор - каждый файл будет содержать значения только для...
9654 просмотров
schedule
07.06.2022
Расширенные запросы в HBase
Учитывая следующий сценарий схемы HBase ( из официального FAQ )...
Как бы вы спроектировали таблицу Hbase для связи «многие ко многим» между двумя объектами, например «Студент» и «Курс»?
Я бы определил две таблицы:
Студент:...
6525 просмотров
schedule
16.04.2022
Ошибка в Hadoop MapReduce
Когда я запускаю программу mapreduce с помощью Hadoop, я получаю следующую ошибку.
10/01/18 10:52:48 INFO mapred.JobClient: Task Id : attempt_201001181020_0002_m_000014_0, Status : FAILED
java.io.IOException: Task process exit with nonzero...
11870 просмотров
schedule
01.05.2022
Поиск совпадающих строк с помощью Hadoop/MapReduce
Я играю с Hadoop и настроил двухузловой кластер на Ubuntu. Пример WordCount работает нормально.
Теперь я хотел бы написать свою собственную программу MapReduce для анализа некоторых данных журнала (основная причина: это выглядит просто, и у меня...
2010 просмотров
schedule
18.11.2023
Как объединить множество файлов в один внутри Hadoop без сопоставления или сокращения
Я пытаюсь объединить несколько файлов в нескольких входных каталогах в один файл по разным странным причинам, в которые я не буду вдаваться. Моя первоначальная попытка состояла в том, чтобы написать «нулевой» преобразователь и редуктор, который...
1614 просмотров
schedule
05.03.2022
Поиски (и общие запросы) с помощью HBase и/или Cassandra (лучшие практики?)
У меня есть объект модели User с несколькими полями (свойствами, если хотите). Произнесите «имя», «фамилию», «город» и «год рождения». Каждый пользователь также получает «уникальный идентификатор».
Я хочу иметь возможность искать по ним. Как мне...
1755 просмотров
schedule
10.06.2023
Настройка ведения журнала Hadoop, чтобы избежать слишком большого количества файлов журнала
У меня проблема с тем, что Hadoop создает слишком много файлов журналов в $HADOOP_LOG_DIR/userlogs (файловая система Ext3 допускает только 32000 подкаталогов), что похоже на ту же проблему в этом вопросе: Ошибка в Hadoop MapReduce
Мой вопрос:...
13552 просмотров
schedule
26.03.2023
Бесплатные большие наборы данных для экспериментов с Hadoop
Знаете ли вы какой-нибудь большой набор данных для экспериментов с Hadoop, который является бесплатным или недорогим? Любые связанные указатели/ссылки приветствуются.
Предпочтение:
Не менее одного ГБ данных.
Данные производственного...
41222 просмотров
schedule
02.04.2022
R: Создание CSV из сериализованных объектов
Я пытаюсь взять список и сериализовать каждый элемент и поместить его в файл CSV с ключом, чтобы создать текстовый файл с парами ключ/значение. В конечном итоге это будет работать через потоковую передачу Hadoop, поэтому, прежде чем вы спросите, я...
538 просмотров
schedule
03.01.2023
Структура списка смежности в HBase
Я пытаюсь реализовать следующий алгоритм сокращения графа в
Граф является неориентированным взвешенным графом
Я хочу удалить все узлы только с двумя соседями
и обновить вес
Взгляните на следующую иллюстрацию:...
859 просмотров
schedule
05.04.2023
Как объединить несколько заданий Hadoop MapReduce в одно?
У меня есть огромное количество входных данных (поэтому я использую Hadoop), и есть несколько задач, которые можно решить с помощью различных шагов MapReduce, из которых первому сопоставителю нужны все данные в качестве входных данных.
Моя цель:...
3394 просмотров
schedule
09.04.2023
Разница между свиньей и ульем? Почему есть оба?
Мой опыт - 4 недели в мире Hadoop. Немного поэкспериментировал с Hive, Pig и Hadoop, используя виртуальную машину Hadoop от Cloudera. Прочитал документ Google по Map-Reduce и GFS ( ссылка в формате PDF ).
Я это понимаю-
Свиной язык...
207795 просмотров
schedule
03.02.2024
Есть ли каноническая проблема, которую нельзя решить с помощью map/reduce?
Я пытаюсь понять границы hadoop и map/reduce, и это помогло бы узнать нетривиальную проблему или класс проблем, с которыми, как мы знаем, map/reduce не может помочь.
Конечно, было бы интересно, если бы изменение одного фактора проблемы позволило...
1515 просмотров
schedule
22.01.2024
Pig Latin: загрузка нескольких файлов из диапазона дат (часть структуры каталогов)
У меня следующий сценарий-
Используемая версия свиньи 0,70
Пример структуры каталогов HDFS:
/user/training/test/20100810/<data files>
/user/training/test/20100811/<data files>
/user/training/test/20100812/<data files>...
47518 просмотров
schedule
09.01.2023
Можно ли запустить Hadoop в псевдо-распределенном режиме без HDFS?
Я изучаю варианты запуска приложения hadoop в локальной системе.
Как и во многих приложениях, первые несколько выпусков должны работать на одном узле, если мы можем использовать все доступные ядра ЦП (да, это связано с этот вопрос ). Текущее...
4136 просмотров
schedule
25.10.2023
Как вы используете собственный компаратор с SingleColumnValueFilter в HBase?
Я пытаюсь отфильтровать строки из таблицы HBase, используя два SingleColumnValueFilter , чтобы вернуть все записи, попадающие в диапазон длинных значений для столбца. Согласно документации для SingleColumnValueFilter, он выполняет лексикографическое...
4002 просмотров
schedule
08.04.2022
Как эффективно программно копировать файлы из HDFS в S3
Моя работа в Hadoop генерирует большое количество файлов в HDFS, и я хочу написать отдельный поток, который будет копировать эти файлы из HDFS в S3.
Может ли кто-нибудь указать мне на любой java API, который его обрабатывает.
Спасибо
16494 просмотров
schedule
03.09.2022
Запрос Hadoop относительно метода setJarByClass класса Job
В документации Hadoop API указано
тот
setJarByClass
public void setJarByClass(Class<?> cls)
Set the Jar by finding where a given class came from.
Что именно означает это объяснение? создает ли он файл JAR из аргумента файла...
10580 просмотров
schedule
24.05.2024
Как я могу использовать тип данных карты в Apache Pig?
Я хотел бы использовать Apache Pig для создания большого сопоставления ключей -> значений, поиска вещей на карте и перебора ключей. Однако, похоже, даже не существует синтаксиса для выполнения этих действий; Я проверил руководство, вики, пример...
28053 просмотров
schedule
19.04.2023
1 миллион предложений для сохранения в БД — удаление нерелевантных английских слов
Я пытаюсь обучить классификатор Naive Bayes с положительными/отрицательными словами, извлеченными из настроения. пример:
Я люблю этот фильм :))
ненавижу когда идет дождь :(
Идея состоит в том, что я извлекаю положительные или отрицательные...
900 просмотров
schedule
01.04.2023