Сумма, нормализованная по количеству записей, даст вам оценку cdf, да. Это будет так же точно, как гистограмма является точным представлением PDF. Если вы хотите оценить cdf в любом месте, кроме конечных точек бина, имеет смысл включить часть счетчиков, так что если у вас есть точки останова b_i и b_j, то для оценки cdf в какой-то точке b_i ‹ p ‹ b_j вы должны добавьте долю отсчетов (p - b_i) / (b_j-b_i) из соответствующей ячейки. По существу это предполагает равномерную плотность внутри клеток.
Вы также можете получить оценку cdf из базовых значений (основываясь на вашем вопросе, я не совсем уверен, к чему у вас есть доступ, независимо от того, учитывается ли его бункер в гистограмме или фактические значения). Имейте в виду, что это приведет к разрывам (шагам) CDF в каждой точке данных, поэтому подумайте, достаточно ли у вас и для чего вы используете CDF, чтобы определить, подходит ли это.
В качестве последнего предупреждения: имейте в виду, что оценка cdf за пределами диапазона наблюдаемых значений даст вам расчетную вероятность, равную нулю или единице (ноль для x‹0,8, единица для x>2,2). Вы должны рассмотреть, действительно ли функция ограничена этим интервалом, и если нет, использовать некоторое сглаживание, чтобы гарантировать небольшое количество вероятностной массы за пределами диапазона наблюдаемых значений.
person
Ben Allison
schedule
24.10.2012