16 messaggi dal 22 giugno 2004
Ciao a tutti, ho bisogno di analizzare l'html di un blog ed estrarne i contenuti, titolo, nome post, testo post, commenti...

Sto cercando qualcosa in grado di effettuare un parsing dell'HTML non well formatted (sarebbe stato troppo semplice così...).

Copme posso fare?

Ho provato le espressioni regolari ma su testi molto complessi non funzionano, cioè se ho molti tag annidati con lo stesso nome (quasi sempre div) e non so quanti sono non riesco ad estrarre il testo che corrisponda esattamente al nodo div che voglio io.

Sapete se esiste qualche libreria che mi può aiutare?


Grazie

Davide Taibi
http://www.taibi.it
dade81 ha scritto:
Sapete se esiste qualche libreria che mi può aiutare?


Prova con HtmlAgilityPack: http://www.codeplex.com/htmlagilitypack/

Matteo Casati
GURU4.net
637 messaggi dal 12 agosto 2005
Hai pensato di vedere il problema in modo diverso? Se ad esempio utilizzassi RSS avresti già titolo, descrizione, contenuto, etc separati e pronti all'uso.

ScottGu ha recentemente pubblicato una libreria per i feed RSS:
http://weblogs.asp.net/scottgu/archive/2007/02/18/asp-net-ajax-tutorials-disk-output-cache-and-rss-toolkit-codeplex-projects-and-podcasts-of-me.aspx
r.chiodaroli ha scritto:
Hai pensato di vedere il problema in modo diverso? Se ad esempio utilizzassi RSS avresti già titolo, descrizione, contenuto, etc separati e pronti all'uso.


Concordo perfettamente. Il problema è che RSS non riporta *tutti* i contenuti che richiede dade81 (ad esempio i commenti; spesso non c'è nemmeno il testo completo del post...)

Attenzione però che il parsing dell'html è molto rischioso: la tua applicazione che "pesca" dal blog potrebbe smettere di funzionare qualora il proprietario del blog cambi la struttura della pagina (o anche il semplice skin del blog...)

Matteo Casati
GURU4.net
637 messaggi dal 12 agosto 2005
m.casati ha scritto:

Concordo perfettamente. Il problema è che RSS non riporta *tutti* i contenuti che richiede dade81 (ad esempio i commenti; spesso non c'è nemmeno il testo completo del post...)


Beh, il mio era più un suggerimento che una soluzione completa  . Dipende dal contenuto del feed generato e dalle informazioni richieste. Credo sia possibile inserire anche i commenti nei feed, però non è certo d'uso comune...
16 messaggi dal 22 giugno 2004
m.casati ha scritto:
r.chiodaroli ha scritto:
Hai pensato di vedere il problema in modo diverso? Se ad esempio utilizzassi RSS avresti già titolo, descrizione, contenuto, etc separati e pronti all'uso.


Concordo perfettamente. Il problema è che RSS non riporta *tutti* i contenuti che richiede dade81 (ad esempio i commenti; spesso non c'è nemmeno il testo completo del post...)

Attenzione però che il parsing dell'html è molto rischioso: la tua applicazione che "pesca" dal blog potrebbe smettere di funzionare qualora il proprietario del blog cambi la struttura della pagina (o anche il semplice skin del blog...)


Inizialmente pensavo proprio di utilizzare rss, ma poi ho scoperto che una buona parte di blog non lo mettono a disposizione e, la maggior parte di quelli che lo rendono disponibile, non include i commenti...

Quello che cerco è proprio una libreria che mi permetta di scorrere i nodi (tipo XMLDocument) di un documento html.
16 messaggi dal 22 giugno 2004
m.casati ha scritto:
dade81 ha scritto:
Sapete se esiste qualche libreria che mi può aiutare?


Prova con HtmlAgilityPack: http://www.codeplex.com/htmlagilitypack/


Fantastico, ho letto solo la descrizione e, a quel che sembra dovrebbe funzionare!!!

Vi terrò aggiornati.

Ciao a tutti

Davide
www.taibi.it
637 messaggi dal 12 agosto 2005
dade81 ha scritto:

Inizialmente pensavo proprio di utilizzare rss, ma poi ho scoperto che una buona parte di blog non lo mettono a disposizione


Come?? Scherzo  , però vorrei che mi segnalassi questi blog anomali!


Quello che cerco è proprio una libreria che mi permetta di scorrere i nodi (tipo XMLDocument) di un documento html.


Allora usa l'HtmlAgilityPack che ha consigliato Matteo, è un'ottima libreria.

Torna al forum | Feed RSS

ASPItalia.com non è responsabile per il contenuto dei messaggi presenti su questo servizio, non avendo nessun controllo sui messaggi postati nei propri forum, che rappresentano l'espressione del pensiero degli autori.