Парсинг html страницы
Пользователи, просматривающие топик: none
|
Зашли как: Guest
|
Имя |
Сообщение |
<< Старые топики Новые топики >> |
|
|
Парсинг html страницы - 2010-07-03 21:30:25.800000
|
|
|
22kiborga
Сообщений: 9
Оценки: 0
Присоединился: 2010-07-03 14:50:46.246666
|
Есть у меня такая задача, нужно "выдрать"/достать/извлечь конкретную область сайта(в моем случае это сайт deviantart). Что я имею ввиду по словами "выдрать"/достать/извлечь конкретную область сайт? Т.е. необходимо чтобы любая часть/блок сайта, допустим блок с фотографиями, отображался у меня в WebBrowser. И чтобы там были именно только фотографии конкретного блока и ничего больше. Либо допустим, только блок с комментариями. Пример: 1. главная 2. отпарсиная Вот 1. это сайт, главная страница, а 2., то что нужно достать… то есть, тут пример про картинки. но можно допустим и только новости "выдрать", а все остальное чтобы не было видно, ну или сообщения только. Помогите пожалуйста реализовать, потому что уже третий день мучаюсь всё никак, мозги уже не работают. у меня защита диплома на след. неделе, а это часть программы диплома. Может как-то через DOMDocument, но вопрос как??? Может как-то через getElementById, но тоже не могу понять…
|
|
|
RE: Парсинг html страницы - 2010-07-03 21:32:36.606666
|
|
|
hromjo
Сообщений: 434
Оценки: 0
Присоединился: 2009-12-31 15:42:15.823333
|
Регулярные выражения ?
|
|
|
RE: Парсинг html страницы - 2010-07-03 21:34:07.623333
|
|
|
22kiborga
Сообщений: 9
Оценки: 0
Присоединился: 2010-07-03 14:50:46.246666
|
quote:
ORIGINAL: hromjo Регулярные выражения ? Честно, я далековат от этого. Можно хотя бы простейший пример…
|
|
|
RE: Парсинг html страницы - 2010-07-03 21:38:08.666666
|
|
|
hromjo
Сообщений: 434
Оценки: 0
Присоединился: 2009-12-31 15:42:15.823333
|
http://forum.vingrad.ru/articles/topic-213075.html
|
|
|
RE: Парсинг html страницы - 2010-07-04 06:00:39.720000
|
|
|
УMА
Сообщений: 58
Оценки: 0
Присоединился: 2010-06-26 19:23:37.116666
|
юзай pos, copy
|
|
|
RE: Парсинг html страницы - 2010-07-04 12:49:44.500000
|
|
|
22kiborga
Сообщений: 9
Оценки: 0
Присоединился: 2010-07-03 14:50:46.246666
|
quote:
ORIGINAL: УMА юзай pos, copy [:-]
|
|
|
RE: Парсинг html страницы - 2010-07-04 12:51:00.990000
|
|
|
22kiborga
Сообщений: 9
Оценки: 0
Присоединился: 2010-07-03 14:50:46.246666
|
quote:
ORIGINAL: hromjo http://forum.vingrad.ru/articles/topic-213075.html Спасибо, интересная статейка. Да вот времени не особо то и много. [&o] Писать пытаюсь под c#.
|
|
|
RE: Парсинг html страницы - 2010-07-04 13:50:12.660000
|
|
|
sbk
Сообщений: 144
Оценки: 0
Присоединился: 2008-12-20 19:01:57.273333
|
В С Шарпе для использования регексов есть класс Regex (System.Text.Regularеxprеssions)
|
|
|
RE: Парсинг html страницы - 2010-07-04 15:56:08.720000
|
|
|
22kiborga
Сообщений: 9
Оценки: 0
Присоединился: 2010-07-03 14:50:46.246666
|
Написал код, но не могу вывести графически, т.е. чтобы отобразилось не древовидно, а графически.
HtmlWeb web = new HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web.Load("http://tracker.zp.ua/");
// Get all columns in the document
HtmlNodeCollection cols = doc.DocumentNode.SelectNodes("//td//div/a");
// Get the value of the column and print it
foreach (HtmlNode col in cols)
{
webBrowser1.Navigate(col.InnerText);
}
Есть идеи, что можно изменить или добавить?
|
|
|
RE: Парсинг html страницы - 2010-07-08 16:54:04.356666
|
|
|
MotoKiller
Сообщений: 1732
Оценки: 56
Присоединился: 2008-03-02 20:08:53.810000
|
Через pos copy прекрасно все получается, нужно только терпения на целый день.
|
|
|
RE: Парсинг html страницы - 2010-07-09 03:51:43.550000
|
|
|
kreol
Сообщений: 823
Оценки: 0
Присоединился: 2007-03-08 03:13:06.876666
|
Один ответ краше другого. Хорошо, что у меня нет привычки ставить минусы за вредные советы. http://www.google.com/search?ie=UTF-8&oe=UTF-8&sourceid=navclient&gfns=1&q=C%23+html+parser и конкретно http://htmlagilitypack.codeplex.com/ В более сложных случаях также: http://www.google.com/search?hl=en&&sa=X&ei=NWE2TOT_AtqIOLC-oJ8E&ved=0CBgQvwUoAQ&q=C%23+web+scraping&spell=1
|
|
|
|
|