Пожалуйста, помогите разобраться. Мне нужно распарсить страницу
inter.ua/ru/tv/2010/09/13, у меня возникли трудности и вопросы. Буду очень благодарна за помощь и за ответы на эти самые вопросы.
читать дальше
Это в порядке вещей, что функция loadHTMLfile выдает просто уйму ошибок по поводу html файла? Не можно как-то обойти, применить другую функцию?
В исходном коде страницы находятся </!--tv_schedule_day в единственном экземпляре, но использование item(0) не дает никаких результатов. Я как-то неправильно его применяю в следующем коде?
Можно ли каким-то образом применять повторно getElementsByTagName() к DomNodeListу? Ну, например
Вообще говоря, получить все элементы <dt> должно быть возможно и вызовом метода getElementsByTagName() самого документа, т.е. в данном случае $dom->getElementsByTagName('dt') по идее должно дать то, что надо (не знаю правда, насколько прямо DOM реализован в php).
Далее, у элементов <dd> и <dt> нету своих собственных типов в структуре DOM, все эти элементы являются экземплярами типа HTMLElement, для которого стандартом установлено, что его nodeValue должен быть всегда null. Т.е. чтобы получить текст, записанный в эти элементы, необходимо будет разбирать их дочерние элементы, смотреть, не равен ли их nodeType значению константы TEXT_NODE, и только тогда брать nodeValue.
Простой пример на яваскрипте:
Или, в виде одной строки (для вставки в поле адреса):
А вообще, какая задача стоит? Потому что судя по всему, с разбором тамошних dd'шек средствами DOM придётся повозиться неслабо.
Спасибо большое! Вы мне очень помогли! Кажется, теперь я знаю, как дальше делать!
Задача, как мне кажется, не сложная, но весьма трудоёмкая. Удачи.