HTMLParser (Jsoup) im SpreadsheetMapper

Ist es möglich HTML innerlhalb von SpreadsheetMapper mit Hilfe von Jsoup zu parsen ?

Ähnlich wie im "HTMLParser" Step ?

Hallo Alex,

aktuell nicht. Wir nehmen das ganz in die Wunschliste mit auf und diskutieren das mal im Team.

Kannst du uns noch kurz deinen Beispiel-Anwendungsfall schildern? Wir können uns zwar etwas denken, wäre aber gut für die Planung, um auch etwas zu entwickeln, dass dir hilft.


Frage in die Forenrunde: Wer braucht dieses Feature noch?


Vielen Dank


Ja klar.

Folgende Szenario:

Ich habe eine Liste von Urls zu den Seiten, wo ich bestimte Informationen sammeln möchte.


Der Flow muss einfach eine Liste von Urls lesen können, und Inhalte parsen.


Ich kann mir vorstellen, dass ich das auch mit den Steps "LoopStart", "LoopEnd" und "HTMLParser" dazwischen hin kriege. Ich muss das aber noch ausprobieren.


Es wäre natürlich viel leichter, wenn man schon innerhalb von "SpreadsheetMapper" jsoup verwenden könnte.


Danke.

Ok verstanden. Wir machen uns mal Gedanken und versuchen das einzuplanen. Die Loop-Steps bitte nicht verwenden. Die werden abgeschafft. Vermutlich werden die versehentlich in eurem Partneraccount angezeigt. Im normalen Account werden die aber nicht funktionieren.

"Brauchen" wär jetzt stark übertrieben... aber wir hätten durchaus Anwendungsszenarien dafür, ja!
Nur derzeit keine Kapazitäten die umzusetzen, aber für die Zukunft wäre das nice to have :)

Es wird in den nächsten Tagen dazu ein neuer Step kommen.

Hallo Alex,


in Vorbereitung auf den neuen Step gibt es eine Änderung, die du an deinem Flow vornehmen musst, da wir den aktuellen HTMLParser Step auch anpassen werden.


  • die option "expression" des Steps wird entfernt. Dadurch entfällt auch die Variable elements im processingTemplate, die du aktuell verwendest.
  • beides wurde im processingTemplate durch die neue Funktion selectHTML(cssExpression) welche ein Elements-Objekt zurückgibt ersetzt.
  • Ein Beispiel findet sich hier: http://docs.synesty.com/display/SSUD/HTMLParser


TODOs für dich:
Bitte passe deinen HTMLParser so an, dass du folgendes machst.
Das Feld 'expression' wird noch 1 Woche lang funktionieren, danach wird es entfernt.

bisher:
expression: a
processingTemplate:
<#list elements as e>${e.attr('href')!}</#list>


neu:
processingTemplate:
<#list selectHTML('a') as e>${e.attr('href')!}</#list>



Dieser Schritt ist die Vorbereitung auf den neuen Step, der es dann auch ermöglicht die selectHTML() auch auf eine Spreadsheet-Spalte anzuwenden.



Es gibt jetzt den Step HTML2Spreadsheet (Handbuch)

image