Sammeln der kommentierten Fakten

DrGonzo · Beitrag von **DrGonzo** » Di 10. Apr 2012, 19:00

grooveman85 = anwender
nonick = entwickler

@grooveman: sag ja, das hilft dir so sicherlich schon weiter. auch wenn txt nicht das anwenderfreundlichste format ist.

drgonzo = projektmanager

Beitrag von **Florian Rister** » Di 10. Apr 2012, 19:48

JA

nonick · Beitrag von **nonick** » Di 10. Apr 2012, 20:45

Das Ausgabeformat ist mir ziemlich Wurst. Wenn der Herr Anwender seine Absichten genauer definiert und der Herr Projektmanager ihm dann erklärt, was er eigentlich will, dann können wir auch gerne eine eierlegende Wollkuhmilchsau zusammen frickeln

TheBeginning · Beitrag von **TheBeginning** » Di 10. Apr 2012, 20:49

Hi, hab noch ne leicht modifizierte Variante von nonick's Script

Code: Alles auswählen

#!/bin/bash

URL='https://www.dialog-ueber-deutschland.de/DE/20-Vorschlaege/10-Wie-Leben/Einzelansicht/vorschlaege_einzelansicht_node.html?cms_idIdea=2070'

BASEPATH=./backup
DATE_DIR=`date +"%Y-%m-%d"`

BACKUP_DIR=$BASEPATH/$DATE_DIR

mkdir $BACKUP_DIR

# create clean files
rm $BACKUP_DIR/*.html
echo "" > $BACKUP_DIR/comments.txt

cnt=1

while [ ! -z $URL ]; do
   # fetch page
   html=$(wget -O - $URL)
   echo $html > $BACKUP_DIR/dialog_ueber_deutschland_idea_2070_site_$cnt.html
   # extract and print comments to stdout
   comments=$(echo -e "$html" | sed -n -e '/<div class="comment-list"/,/<\/div>/ p' | html2text | sed -e 's/^ \+\*/----------\n/')
   # store them to file
   echo -e "$comments" >> $BACKUP_DIR/comments.txt

   # find the next page or exit loop
   URL=$(echo -e "$html" | sed -n -e '/class="next"/ s/amp;//; /class="next"/ s/.\+href="\(.\+\)" t.\+/https:\/\/www\.dialog-ueber-deutschland\.de\/\1/p')

   cnt=`expr $cnt + 1`
done

Es wird in einem definierten Ordner (BASEPATH) ein Unterordner für den aktuellen Tag erstellt im Format (yyyy-mm-dd)
Somit kann man ohne Probleme das Script z.b. einmal am Tag aufrufen.
Desweiteren werden die Original Html Dateien gesichert.
Zusätzlich werden alle Comments gleich in eine comments.txt Datei geschrieben, was das umlenken der Ausgabe erspart.

nonick · Beitrag von **nonick** » Di 10. Apr 2012, 20:54

Nice! ... die Entwickler hier müssen unbedingt mal unter einen Hut gebracht werden. Mit ein bisschen Absprache könnte man so viele tolle Sachen realisieren. Wie wärs mit einer Gruppe und einem nur für Entwickler zugänglichem Unterforum?

TheBeginning, hier noch ein paar Zeilen zur Nachbearbeitung der Datei:

Code: Alles auswählen

sed -i -e 's/^ \+//' $BACKUP_DIR/comments.txt
sed -i -e '/\*\*\+/ d' $BACKUP_DIR/comments.txt
sed -i -e 's/"/"/g' $BACKUP_DIR/comments.txt

Beitrag von **Florian Rister** » Di 10. Apr 2012, 22:32

Ihr könnt euch hier problemlos absprechen, gerne auch in nem eigenen Thread. Der Bereich Diskussionen bietet sich fürs erste an. Wenn es wirklich viel wird, kann man schon über ein unterforum nachdenken, aber im Moment sehe ich da keinen Vorteil für euch, korrigiert mich wenn ich falsch liege...

nonick · Beitrag von **nonick** » Sa 14. Apr 2012, 01:03

Textdatei
http://zukunftsdialog.99k.org/files/dud ... 29.txt.zip
http://zukunftsdialog.99k.org/files/dud_20120429.txt

MySQL Datenbank
http://zukunftsdialog.99k.org/files/dud ... 29.sql.zip
http://zukunftsdialog.99k.org/files/dud_20120429.sql

Zuletzt aktualisiert: 29.04.2012 00:23

oldrich · Beitrag von **oldrich** » So 15. Apr 2012, 13:59

Hat vielleicht jemand die Möglichkeit die Dateien bei einem Hoster hochzuladen bei dem man sich nicht registrieren muss?
Oder mache ich irgendwas falsch beim Download?

nonick · Beitrag von **nonick** » So 15. Apr 2012, 14:02

oldrich hat geschrieben:Hat vielleicht jemand die Möglichkeit die Dateien bei einem Hoster hochzuladen bei dem man sich nicht registrieren muss?
Oder mache ich irgendwas falsch beim Download?

Jo bin gerade dabei... hab mich beim testen von 4shared selbst überlistet

oldrich · Beitrag von **oldrich** » So 15. Apr 2012, 14:08

Das wäre wirklich super!
Danke nonick!

nonick · Beitrag von **nonick** » Di 17. Apr 2012, 23:56

Hab noch ein bisschen gespielt und import Funktionen für phpBB3 hinzugefügt. Sieht dann in etwa so aus http://zukunftsdialog.atwebpages.com/ ... Das ganze ist nur ein Beispiel, also nicht auf die Idee kommen da zu posten. Sollten irgendwelche Fehlermeldungen angezeigt werden, einfach später nochmal versuchen; ich achte an der Stelle nicht wirklich auf die Verfügbarkeit

edit: nun auf einem server der mehr als 0.02kb/s upload erlaubt

TheBeginning · Beitrag von **TheBeginning** » Mi 18. Apr 2012, 00:28

Nice

Deutscher Hanfverband Forum

Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten

Re: Sammeln der kommentierten Fakten