Я пытаюсь извлечь данные из html-страницы в R с помощью кода ниже:
wiki_url_html <- read_html("https://en.wikipedia.org/wiki/List_of_Major_League_Baseball_players_suspended_for_performance-enhancing_drugs")
bb_player_PED <- (wiki_url_html %>%
html_nodes(xpath = '//table[3]') %>% html_table())[[1]]
head(bb_player_PED, 10)
дает мне данные ниже:
Player Team Date announced Drug Penalty Position
1 Sánchez, AlexAlex Sánchez Tampa Bay Devil Rays 000000002005-04-03-0000April 3, 2005 010 !10 days OF
2 Montero, AgustínAgustín Montero Texas Rangers 000000002005-04-20-0000April 20, 2005 010 !10 days P
3 Strong, JamalJamal Strong Seattle Mariners 000000002005-04-26-0000April 26, 2005 010 !10 days OF
4 Rincón, JuanJuan Rincón Minnesota Twins 000000002005-05-02-0000May 2, 2005 010 !10 days P
5 Betancourt, RafaelRafael Betancourt Cleveland Indians 000000002005-07-08-0000July 8, 2005 010 !10 days P
6 Palmeiro, RafaelRafael Palmeiro SS GG Baltimore Orioles 000000002005-08-01-0000August 1, 2005 Stanozolol 010 !10 days DH
7 Franklin, RyanRyan Franklin Seattle Mariners 000000002005-08-02-0000August 2, 2005 010 !10 days P
8 Morse, MikeMike Morse Seattle Mariners 000000002005-09-07-0000September 7, 2005 010 !10 days SS
9 Almanzar, CarlosCarlos Almanzar Texas Rangers 000000002005-10-04-0000October 4, 2005 010 !10 days P
10 Heredia, FélixFélix Heredia New York Mets 000000002005-10-18-0000October 18, 2005 010 !10 days P
Response Ref.
1 [a] [5]
2 [b] [7]
3 [c] [9]
4 [d] [9]
5 [e] [12]
6 [f] [14]
7 [g] [16]
8 [h] [18]
9 [i] [20]
10 [j] [22]
мой вопрос заключается в том, как удалить тег span из данных, чтобы определенные данные не появлялись дважды в таких столбцах, как «Игрок», «Дата объявления», «Наказание»?
Я понимаю, что это связано с тем, что в таблице есть теги span, и использование приведенного выше кода объединяет данные тега span.
Я пробовал следующее:
removeNodes(getNodeSet(xmlTreeParse(wiki_url_html, useInternalNodes = T), "//table/tr/th/i/span"))
как из сообщения о переполнении стека:
Очистка сложная таблица HTML в data.frame в R
чтобы удалить теги span, но он просто возвращает NULL.
Любая помощь будет оценена по достоинству, спасибо.