Hilfe - Suche - Mitglieder - Kalender
Vollansicht: Webgrab 2.0
Forum Sefrengo.org > Downloads > Module
mistral
Modulname:
---------------------------------------------------------------------------
Webgrab


Status:
---------------------------------------------------------------------------
beta




Bechreibung:
---------------------------------------------------------------------------
Ermöglicht das Abgreifen von Content von anderen Webseiten.
Links und Inhalte werden umgewandelt oder gefiltert bzw. ersetzt.


Features:
---------------------------------------------------------------------------
- Frontend editing
- Globale und spezifische Konfiguration
- Links und Inhalte werden umgewandelt oder gefiltert bzw. ersetzt.



Autor(en):
---------------------------------------------------------------------------
Michael Brauchl Version 1.0
Paul Eppner (paul@twomoons.de) Version 1.2
Karsten Pawlik Version 1.3
Karsten Pawlik Version 1.3.1 (bugfix release for 1.3)
Aki Version 2.0
bratzi Anleitung Version 2.0

Lizenz:
---------------------------------------------------------------------------
GPL


Benötigte Sefrengo Version:
---------------------------------------------------------------------------
>= 01.02.00 (Sefrengo 1.2)


Installation:
---------------------------------------------------------------------------
Wechseln Sie in Ihrer Sefrengo Version in den Bereich "Design->Module". Am
unteren Ende des Bereichs befindet sich ein Uploadfeld. Wählen Sie hier die
gewünschte "*.cmsmod"- Datei aus. Mit einem Klick auf das Diskettensymbol
wird das Modul in das CMS importiert. Das Modul ist nun innerhalb des CMS
nutzbar.


Update/ Migration:
---------------------------------------------------------------------------



Dokumentation:
---------------------------------------------------------------------------
Ausführliche Dokumentation in der Moduleinstellung.
sachakun
Hallo Mistral

Ich habe heute versucht, das Modul zu benutzen.
Ich will eine Seite grabben, den unnötigen Code löschen, und nur den Text anzeigen.

Ich dachte ich fange mal einfach an. Aber das Modul löscht nichts, oder besser gesagt es ersetzt nicht die Blöcke mit einem Leerzeichen.

Die Seite die ich Grabben möchte ist: www.losungen.de/heute.php die generiert die Infos für den aktuellen Tag.

Die Konfiguration ist wie folgt:
Startseite:
QUELLTEXT
http://www.losungen.de/heute.php

Die eigentliche Konfig:
QUELLTEXT
$location[0][]="www.losungen.de/heute.php";
$location[0]['search'][0] = '<html>';
$location[0]['replace'][0] = ' ';
$location[0]['search_block_start'][0] =  '<head>';
$location[0]['search_block_stop'][0] = '</head>';
$location[0]['replace_block_line'][0] = ' ';

Mir ist bewusst, dass es noch mehr Arbeit gibt, aber ich versuche Schritt für Schritt zu gehen.
Wenn ich aber den Sourcecode anschaue, dann ist der immer gleich.
Ich habe auch den Cache gelöscht.

Wie immer bin ich um eure Hilfe froh.
Gruss und Merci
Sacha
gunwalt
ZITAT(sachakun @ Wed. 19. July 2006, 11:35) *
QUELLTEXT
$location[0][]="www.losungen.de/heute.php";


hier fehlt ein value. Zumindestens funktioniert eine andere Seite damit. Und der Pfad darf nur auf den Root der Domain zeigen
QUELLTEXT
$location[0]['value']="www.losungen.de/";


Das ist in der Anleitung etwas unglücklich ausgedrückt.
gunwalt
Folgende Einschränkungen, ich betrachte das nicht als Bug, hat das Modul im Moment.

1.) Das Webgrabmodul kann nicht mehrmals auf einer Seite eingesetzt werden.

2.) Bestimmte URLs können nicht ausgelesen werden.
Der Typ URL muss immer mit einem Extender enden. Daraufgekommen bin ich, weil ich versucht habe eine Sefrengo-Seite mit deaktiviertem modrewrite zu grabben. (http://www.domain.de/index.php?idcat=6). Das geht nicht. Ausgelesen wird in diesem Fall nur die Indexseite. Anscheinend wird alles nach *.php abgeschnitten.
Nehme ich das gleiche Projekt, schalte modrewrite ein, verändert sich gleichzeitig die URL (http://www.domain.de/cat6.htm) und Webgrab funktioniert.
toto
Servus. wird es eine Lösung geben, damit auch Seiten mit .php?blablabla gegrabbt werden können? Das wär für mich ne erleichterung, weil ich so eine seite einbinden muß. Leider funktioniert es ja so nicht. sad.gif

Danke falls das problem gelöst wird. Ich brauch unbedingt ein Newsletter Modul, muß momentan aber auf einen opensource zurückgreifen. smile.gif

Gruß toto
mike
Also ich checke es überhaupt nicht wie es mit dem Webgrab funktionniert. Das mit den search/replace Parametern scheint überhaupt nicht zu gehen. Kein einziger meiner Versuche hat zu eine Code änderung geführt. Es wird wie in den vorherigen Beiträge erwähnt nichts geändert. Weiterhin schreibt das Modul immer okokokokokokokokokokokokok am Anfang des Webgrabbereiches.

Lt. Forum-Suche gibt es nicht viele Lösungen. Benutzt einer von Euch dieses Modul? Wenn ja, wie ist es konfiguriert? Vielleicht wäre eine detaillierte Beschreibung besser.
bkm
@Mike
Das okokokokokok wink.gif habe ich Dir beseitigt , beim Rest hilft Dir vielleicht @gunwalt (da scheints ja zufunktionieren)
gunwalt
ZITAT(bkm @ Tue. 10. April 2007, 00:34) *
@Mike Das okokokokokok wink.gif habe ich Dir beseitigt , beim Rest hilft Dir vielleicht @gunwalt (da scheints ja zufunktionieren)

bis auf die oben genannte Einschränkung ...

@Mike: Diese Konfiguration geht bei mir, läuft auf 1.40. Die Entwicklungspsychologie kennt die Formulierung Lernen durch Nachahmen laugh.gif smile.gif cool.gif
Wichtig sind alle Stiche und alle Backslashes

Startseite
http://www.domain.tdl/terminausgaben/bergisches/index.php

Webgrab-Config
$location[0]['value'] ='www.domain.dtl/';

$location[0]['search'][0] = '<table width="550px" border="0" cellspacing="0" cellpadding="0" class=content>';
$location[0]['replace'][0] = '<table border="0" cellpadding="4" cellspacing="4" class="ksallgemein">';

$location[0]['search'][1] = '<br>';
$location[0]['replace'][1] = '<br />';

$location[0]['search_block_start'][0] = 'http://langenfeld';
$location[0]['search_block_stop'][0] = '<b>Adresse:</b>';
$location[0]['replace_block_line'][0] = '<br /><br /><b>Adresse:</b>';
mike
Ich habe mir jetzt die Zähne daran ausgebissen! Eigentlich klingt es idiotensicher, aber irgendwie klappt es nicht.
Egal welche Änderung ich durchführe, nichts ändert sich.
Nicht mal ein border der von 0 auf 2 geändert wird.

$location[0]['search'][0] = '<table cellspacing="0" cellpadding="0" border="0">';
$location[0]['replace'][0] = '<table cellspacing="0" cellpadding="0" border="2">';

Ein weitere Problem, das zwar warscheinlich nichts mit dem Modul zu tun hat ist, das eine Änderung des Seitentyp von utf-8 in iso-8859-1 im Head-Bereich keine Auswirkung auf den Webgrab hat.
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
outline4
gibt es vielleicht ein tool das ähnliches macht, aber speziell für interne seiten?
ich will gewisse bereiche der seite nur einmal eingeben und auf anderen seiten anzeigen lassen...

cheers! *s*
gunwalt
ZITAT(outline4 @ Mon. 16. April 2007, 17:11) *
gibt es vielleicht ein tool das ähnliches macht, aber speziell für interne seiten?
ich will gewisse bereiche der seite nur einmal eingeben und auf anderen seiten anzeigen lassen...

cheers! *s*


Schau Dir mal den Categorywalker an. Vielleicht ist es das, was du suchst.
tobaco
für den dirigenten gibte es zwei module, die genau das machen, was du möchtest:

http://www.der-dirigent.de/de/dedi/downloa...n/index.html#ia
http://www.der-dirigent.de/de/dedi/downloa.../index.html#iac

ich glaube, die wurden noch nicht portiert.
sollte aber nicht allzu schwer sein. hier gibt es eine anleitung


EDIT:

hab mal schnell IncludeArticle portiert: Klicken um den Anhang anzusehen

geht wirklich einfach. IncludeArticle importiert komplette seiten. wenn man bei start- und end-tag jeweils body eingibt, wir nur der seiteninhalt dargestellt, ohne head und so.
andi
feniweb hat hier mal versucht, das modul «IncludeArticle Content» zu portieren. soviel ich weiss allerdings erfolglos.


gruss andi
alexander
Bei dem Modul includeArticel muss man nur aufpassen, dass allowurlfopen in der PHP-Konfiguration erlaubt ist wenn ich mich dunkel erinnere. Ist schon ewig her, als ich das zuletzt unter IDED benutzt habe.
tobaco
ZITAT(alexander @ Tue. 17. April 2007, 22:49) *
… als ich das zuletzt unter IDED benutzt habe.


neue kodierte schreibweise? laugh.gif
alexander
wir wollen doch Google nicht mit unnützen Suchbegriffen füttern smile.gif
mike
Cool! Hier wird was geschrieben und keiner kann mir weiterhelfen! sad.gif

Siehe Beitrag #9
Olaf
Hm, das einzige was mir einfällt wäre zu prüfen ob es der Richtung Unstimmigkeiten gibt, beachte " und '
QUELLTEXT
$location[0]['search'][0] = '<table cellspacing='0' cellpadding='0' border='0'>';
$location[0]['replace'][0] = '<table cellspacing="0" cellpadding="0" border="2">';

Also genau den Code vergleichen...
MoinMoin
ZITAT(gunwalt @ Tue. 10. April 2007, 09:51) *
@Mike: Diese Konfiguration geht bei mir, läuft auf 1.40. Die Entwicklungspsychologie kennt die Formulierung Lernen durch Nachahmen laugh.gif smile.gif cool.gif
Wichtig sind alle Stiche und alle Backslashes


Genau da liegt bei mir auch der Knackpunkt - die Konfiguration funktioniert nur mit der 1.04 Version von Webgrab (muss man sich aus dem Modulpaket der 1.03.01 Version von Sefrengo raussuchen), nicht mit der aktuellen 2.0. Scheint also ein neuer Bug zu sein.

Oder hat jemand eine funktionsfähige 2.0 im Einsatz?

Vielleicht finde ich ja nächste Woche mal Zeit, zu vergleichen und den Fehler zu suchen (was nicht immer finden heißt).

Gruß,
Nils

PS: Bin auch fast wahnsinnig geworden, dass sich nie was verändert.
MoinMoin
So, nach einiger Suche habe ich den Fehler gefunden. Beim Einfügen der Konfiguration in den Output war MOD_VALUE[1] mit Anführungszeichen umschlossen, so dass sie nur als String vorhanden war.

Zusammen mit dem "ok"-Bugfix und einigen Umformulierungen der etwas missverständlichen Anleitung (ich hoffe, ich hab's nicht noch schlimmer gemacht) habe ich eine neue Version veröffentlicht: Webgrab 2.1 - bitte testen!

Diese lokale/globale Konfiguration habe ich noch nicht richtig verstanden. Ist das lokale ein Spezialfall, für den man selbst die Datenbank mit der Konfig befüllen muss? Bei mir waren nie Werte dafür in der DB. Naja, sollte weiterhin funktionieren.

Gruß,
Nils
Dieses ist eine vereinfachte Darstellung unseres Foreninhaltes. Um die detaillierte Vollansicht mit Formatierung und Bildern zu betrachten, bitte hier klicken.
Invision Power Board © 2001-2024 Invision Power Services, Inc.