Поиск объектов из пространств имен других пакетов в коде пакета

Я рефакторинг пакета, который импортирует полные пространства имен многих других пакетов. Я считаю, что многие из этих зависимостей используются для вызовов отдельных функций, которые лучше обрабатывать с помощью importFrom, или являются потерянными зависимостями, которые больше не используются.

В пакете достаточно кода, поэтому было бы утомительно вручную проверять каждую строку в поисках незнакомых вызовов функций.

Как определить, где и сколько раз объекты из импортированных пространств имен используются в пакете? Обратите внимание, что этот пакет не включает модульные тесты.

Вот воспроизводимый пример:

DESCRIPTION файл:

Package: my_package
Title: title
Version: 0.0.1
Authors@R: person(
  given = "A",
  family = "Person",
  role = c("aut", "cre"),
  email = "[email protected]"
)
Description: Something
License: Some license
Encoding: UTF-8
LazyData: true
RoxygenNote: 7.1.1
Imports: 
  dplyr,
  purrr,
  stringr

NAMESPACE файл:

import(dplyr)
import(purrr)
import(stringr)

my_package.R файл:

#' my_package
#' @docType package
#' @name my_package
NULL
#' @import dplyr
#' @import purrr
#' @import stringr
NULL

functions.R файл

#' add 1 to "banana" column and call it "apple"
#' @description demonstrate a variety of dplyr functions
#' @param x a data.frame object
#' @return a data.frame object with columns "apple" and "banana"
#' @examples
#' my_fruit <- data.frame(banana = c(1,2,3), pear = c(4,5,6))
#' my_function(my_fruit)
#' @export
my_function <- function(x) {
  x %>%
    mutate(apple = banana + 1) %>%
    select(apple, banana)
}

Я ищу решение, которое идентифицирует, что %>%, mutate и select являются экспортом из dplyr, %>% является экспортом из purrr, и нет используемых экспортов из прикрепленного пространства имен stringr. В случае таких функций, как %>%, экспортируемых из нескольких пространств имен, для меня не так важно различать, из какого пространства имен происходит экспорт (в примере оба %>% являются реэкспортами из зависимости magrittr), поскольку там, где происходит фактическое маскирование, генерируется предупреждение, когда пакет загружается.


person bcarlsen    schedule 11.05.2021    source источник
comment
Вам следует рассмотреть возможность использования awk/perl/sed для просмотра каждого файла и проверки вызовов определенных функций из других пакетов.   -  person Onyambu    schedule 11.05.2021
comment
Вам будет легче помочь, если вы включите простой воспроизводимый пример с образцом ввода и желаемым выводом, которые можно использовать для тестирования и проверки возможных решений. Вы можете удалить импорт и запустить проверку пакета, чтобы найти все ошибки. или некоторый вариант этого ответа о поиске свободных переменных может работать.   -  person MrFlick    schedule 11.05.2021
comment
@MrFlick Я добавил репрекс   -  person bcarlsen    schedule 12.05.2021


Ответы (2)


Вот базовое решение

pkgs <- readLines("NAMESPACE")
pattern <- "^import\\((.*?)\\)$"
pkgs <- pkgs[grepl(pattern, pkgs)]
pkgs <- sub(pattern, "\\1", pkgs)
pkgs
#> [1] "dplyr"   "purrr"   "stringr"

exports <- sapply(pkgs, getNamespaceExports)
exports <- do.call(rbind, Map(data.frame, package = pkgs, fun = exports))
rownames(exports) <- NULL
head(exports)
#>   package         fun
#> 1   dplyr rows_upsert
#> 2   dplyr   src_local
#> 3   dplyr  db_analyze
#> 4   dplyr    n_groups
#> 5   dplyr    distinct
#> 6   dplyr  summarise_

code <- sapply(list.files("R", full.names = TRUE), parse)
funs <- sapply(code, function(x) setdiff(all.names(x), all.vars(x)))
funs <- funs[lengths(funs) > 0]
funs <- do.call(rbind, Map(data.frame, fun = funs, file = names(funs)))
rownames(funs) <- NULL
funs
#>        fun          file
#> 1       <- R/functions.R
#> 2 function R/functions.R
#> 3        { R/functions.R
#> 4      %>% R/functions.R
#> 5   mutate R/functions.R
#> 6        + R/functions.R
#> 7   select R/functions.R

окончательный вывод:

merge(exports, funs)
#>      fun package          file
#> 1    %>% stringr R/functions.R
#> 2    %>%   purrr R/functions.R
#> 3    %>%   dplyr R/functions.R
#> 4 mutate   dplyr R/functions.R
#> 5 select   dplyr R/functions.R

Это не на 100% надежно, так как, например, функция function(x) {select<-identity; select(x)} покажет, что select взят из {dplyr}.

Также будут пропущены функции, которые не используются в форме fun(), как в lapply(my_list, fun).

На самом деле мы не можем обнаружить их надежно, обходной путь, который может привести нас к этому или, по крайней мере, приблизиться, если у нас будет 100% тестовое покрытие, состоит в том, чтобы каррировать эти импортированные функции, чтобы они сообщали нам, когда они вызываются, а затем запускать тесты .

Хотя, наверное, вам это не нужно.

person Moody_Mudskipper    schedule 15.05.2021

Вы можете использовать getParsedData, чтобы получить все вызовы функций, используемые в пакете, и соединить их с доступными функциями в NAMESPACE, чтобы выяснить их происхождение.

Проверено на воспроизводимом примере my_package:

library(dplyr)
library(purrr)
library(stringr)

# List functions used in Package
path <- "./my_package"
files <- file.path(path,list.files(path= path, recursive = TRUE, pattern ='\\.R$'))

functions <- files %>% map_dfr(~{
  getParseData(parse(.x, keep.source=TRUE)) %>% 
          filter(token %in% c("SYMBOL_FUNCTION_CALL","SPECIAL")) %>%
          mutate(file = .x) %>%
          rename(fctname = text) %>%
          select(file, fctname) %>% unique })

# List of all possible functions imports
imports <- readLines(file.path(path,"NAMESPACE"))
imports <- str_match(imports, "import\\(\\s*(.*?)\\s*\\)")[,2]
imports <- imports[!is.na(imports)]

possible.imported.functions <- imports %>% map_dfr(~{
  data.frame(package.import = .x,fctname = getNamespaceExports(.x)) })

# Imported functions in use
inner_join(functions,possible.imported.functions, by = c('fctname'='fctname')) %>%
  arrange(package.import,fctname) %>%
  select(file,package.import,fctname)
#>                             file package.import fctname
#> 1 my_package/R/functions.R          dplyr     %>%
#> 2 my_package/R/functions.R          dplyr  mutate
#> 3 my_package/R/functions.R          dplyr  select
#> 4 my_package/R/functions.R          purrr     %>%
#> 5 my_package/R/functions.R        stringr     %>%

person Waldi    schedule 14.05.2021