В SSIS нет ничего родного для анализа веб-страниц, подобных этому. Тем не менее, я надеюсь, вам нравится кодирование .NET.
Я сделал что-то подобное с Html Agility Pack. Изучите их документацию и примеры, чтобы понять основы того, как анализировать HTML с их библиотекой.
После того, как вы определились с этим, достаточно просто определить путь к нужному элементу (элементам). Я нашел лучший способ открыть страницу в Chrome, щелкнуть правой кнопкой мыши интересующую вещь и выбрать «Проверить элемент». Расширяйте поля, пока не дойдете до того, что вам нужно, а затем щелкните правой кнопкой мыши в окне инспектора и выберите Copy XPath
.
Это приводит к следующему селектору xpath
//*[@id="aboutSection"]/div/div/div/div[1]/p[1]/span/span
Затем я бы использовал его в коде, например
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(this.html);
string createDate = string.Empty;
createDate = doc.DocumentNode.SelectSingleNode("//*[@id="aboutSection"]/div/div/div/div[1]/p[1]/span/span").InnerText.Trim();
Вам нужно будет повозиться с точной механикой вызова SelectSingleNode, но это общая концепция. Вы также можете заметить, что у вас есть атрибут data-rawdatetime со значением. Я предполагаю, что это дата эпохи, но если вы можете перевести это в представленное значение «20 октября 2011 г.», вам может быть лучше, поскольку это числовое значение не будет зависеть от региональных настроек.
person
billinkc
schedule
09.10.2013