nonick = entwickler
@grooveman: sag ja, das hilft dir so sicherlich schon weiter. auch wenn txt nicht das anwenderfreundlichste format ist.
drgonzo = projektmanager
Code: Alles auswählen
#!/bin/bash
URL='https://www.dialog-ueber-deutschland.de/DE/20-Vorschlaege/10-Wie-Leben/Einzelansicht/vorschlaege_einzelansicht_node.html?cms_idIdea=2070'
BASEPATH=./backup
DATE_DIR=`date +"%Y-%m-%d"`
BACKUP_DIR=$BASEPATH/$DATE_DIR
mkdir $BACKUP_DIR
# create clean files
rm $BACKUP_DIR/*.html
echo "" > $BACKUP_DIR/comments.txt
cnt=1
while [ ! -z $URL ]; do
# fetch page
html=$(wget -O - $URL)
echo $html > $BACKUP_DIR/dialog_ueber_deutschland_idea_2070_site_$cnt.html
# extract and print comments to stdout
comments=$(echo -e "$html" | sed -n -e '/<div class="comment-list"/,/<\/div>/ p' | html2text | sed -e 's/^ \+\*/----------\n/')
# store them to file
echo -e "$comments" >> $BACKUP_DIR/comments.txt
# find the next page or exit loop
URL=$(echo -e "$html" | sed -n -e '/class="next"/ s/amp;//; /class="next"/ s/.\+href="\(.\+\)" t.\+/https:\/\/www\.dialog-ueber-deutschland\.de\/\1/p')
cnt=`expr $cnt + 1`
doneCode: Alles auswählen
sed -i -e 's/^ \+//' $BACKUP_DIR/comments.txt
sed -i -e '/\*\*\+/ d' $BACKUP_DIR/comments.txt
sed -i -e 's/"/"/g' $BACKUP_DIR/comments.txtJo bin gerade dabei... hab mich beim testen von 4shared selbst überlistetoldrich hat geschrieben:Hat vielleicht jemand die Möglichkeit die Dateien bei einem Hoster hochzuladen bei dem man sich nicht registrieren muss?
Oder mache ich irgendwas falsch beim Download?