Разделение клиентов в Hadoop

У меня есть файл, в котором есть такие записи, как chicken 10 . Я хочу разделить данные на основе , а не /t, чтобы получить chicken в качестве ключа и 10 в качестве значения.

Я думаю, что нам нужно изменить метод getPartition, но я не могу сделать это правильно.

У кого-нибудь есть пример этого?


person Deepika Sethi    schedule 09.01.2012    source источник
comment
Почти дубликат stackoverflow.com/questions/7271641/   -  person Chris Shain    schedule 10.01.2012


Ответы (1)


В Streaming функция карты считывает строку из STDIO, и функция карты (пользовательский код) обрабатывает ее. Вот пример кода для функции карты Python

import re
import sys
for line in sys.stdin:
    val = line.strip()
    (year, temp, q) = (val[15:19], val[87:92], val[92:93])
    if (temp != "+9999" and re.match("[01459]", q)):
        print "%s\t%s" % (year, temp)
person Praveen Sripati    schedule 10.01.2012