Кумулятивная функция распределения для набора значений

У меня есть гистограмма, где я подсчитываю количество случаев, когда функция принимает определенные значения в диапазоне от 0,8 до 2,2.

Я хотел бы получить кумулятивную функцию распределения для набора значений. Правильно ли просто подсчитывать общее количество вхождений до каждого конкретного значения.

Например, cdf при 0,9 будет суммой всех вхождений от 0,8 до 0,9?

Это правильно?

Спасибо


person DCuser    schedule 23.10.2012    source источник


Ответы (1)


Сумма, нормализованная по количеству записей, даст вам оценку cdf, да. Это будет так же точно, как гистограмма является точным представлением PDF. Если вы хотите оценить cdf в любом месте, кроме конечных точек бина, имеет смысл включить часть счетчиков, так что если у вас есть точки останова b_i и b_j, то для оценки cdf в какой-то точке b_i ‹ p ‹ b_j вы должны добавьте долю отсчетов (p - b_i) / (b_j-b_i) из соответствующей ячейки. По существу это предполагает равномерную плотность внутри клеток.

Вы также можете получить оценку cdf из базовых значений (основываясь на вашем вопросе, я не совсем уверен, к чему у вас есть доступ, независимо от того, учитывается ли его бункер в гистограмме или фактические значения). Имейте в виду, что это приведет к разрывам (шагам) CDF в каждой точке данных, поэтому подумайте, достаточно ли у вас и для чего вы используете CDF, чтобы определить, подходит ли это.

В качестве последнего предупреждения: имейте в виду, что оценка cdf за пределами диапазона наблюдаемых значений даст вам расчетную вероятность, равную нулю или единице (ноль для x‹0,8, единица для x>2,2). Вы должны рассмотреть, действительно ли функция ограничена этим интервалом, и если нет, использовать некоторое сглаживание, чтобы гарантировать небольшое количество вероятностной массы за пределами диапазона наблюдаемых значений.

person Ben Allison    schedule 24.10.2012