Kandu.dk - rekursiv wget cross domain?


/ Forside / Teknologi / Operativsystemer / Linux / Nyhedsindlæg

Glemt dit kodeord?

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Find en bruger

Stil et spørgsmål

Skriv et tip

Fortæl en ven

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

Linux

#	Navn	Point
1	o.v.n.	11177
2	peque	7911
3	dk	4814
4	e.c	2359
5	Uranus	1334
6	emesen	1334
7	stone47	1307
8	linuxrules	1214
9	Octon	1100
10	BjarneD	875

rekursiv wget cross domain?
Fra : Thomas Damgaard Niel~

Dato : 30-01-04 13:07

Hej,

Hvis jeg vil lave et mirror af et site med alle billeder er jeg vant til
at gøre noget i stil med:

$ wget -r -A "html,jpg,gif,png" http://minserver.dk/dok.html

Problemet er bare at det ikke henter links/billeder som ligger udenfor
http://minserver.dk/.
Jeg vil gerne have at den laver et mirror af dem der ligger på
http://minandenserver.dk/images/* osv.

Jeg kan ikke rigtigt finde noget om det i manualen.

Kan I hjælpe mig?

Mvh
Thomas Damgaard

Jesper Louis Anderse~ (30-01-2004)

Kommentar
Fra : Jesper Louis Anderse~

Dato : 30-01-04 15:19

On Fri, 30 Jan 2004 13:07:03 +0100,
Thomas Damgaard Nielsen <tdn@ircnet.org> wrote:
>
> $ wget -r -A "html,jpg,gif,png" http://minserver.dk/dok.html
>
> Problemet er bare at det ikke henter links/billeder som ligger udenfor
> http://minserver.dk/.
> Jeg vil gerne have at den laver et mirror af dem der ligger på
> http://minandenserver.dk/images/* osv.
>
> Jeg kan ikke rigtigt finde noget om det i manualen.

wget -c --tries=45 --waitretry=10 --mirror --wait=30 \
-HDimages.aoeu.com,aoeu.com http://aoeu.com

Hvis du partout _vil_ droppe --wait=30 boer du nok lige laese
http://www.robotstxt.org/wc/guidelines.html

wget er ioevrigt noget skidt programmel. Folkene der har skrevet det
kender blandt andet ikke til usleep():

http://mail-index.netbsd.org/netbsd-bugs/2004/01/24/0011.html

(og laeser man lidt videre finder man ud af at de heller ikke forstaar
nanosleep())

Jeg er begyndt at foretraekke 'curl' i stedet, sat sammen med lidt
scripting til at parse HTML med. Noget crude awk(1) kan man som regel
komme rimeligt langt med.

--
Jesper

Thomas Damgaard Niel~ (31-01-2004)

Kommentar
Fra : Thomas Damgaard Niel~

Dato : 31-01-04 00:59

Jesper Louis Andersen wrote:

> wget -c --tries=45 --waitretry=10 --mirror --wait=30 \
> -HDimages.aoeu.com,aoeu.com http://aoeu.com

Tak for det!
Men hvad nu hvis det er _alle_ domæner jeg gerne vil have.
Altså hvis jeg ikke har en specificeret liste over dem?

> Hvis du partout _vil_ droppe --wait=30 boer du nok lige laese
> http://www.robotstxt.org/wc/guidelines.html

Vil jeg da lige gøre.

> Jeg er begyndt at foretraekke 'curl' i stedet, sat sammen med lidt
> scripting til at parse HTML med. Noget crude awk(1) kan man som regel
> komme rimeligt langt med.

OK.
Jeg vil se nermere på curl.

Mvh
Thomas Damgaard

Thomas Damgaard Niel~ (31-01-2004)

Kommentar
Fra : Thomas Damgaard Niel~

Dato : 31-01-04 01:39

Jesper Louis Andersen wrote:

> wget -c --tries=45 --waitretry=10 --mirror --wait=30 \
> -HDimages.aoeu.com,aoeu.com http://aoeu.com
>
> Hvis du partout _vil_ droppe --wait=30 boer du nok lige laese
> http://www.robotstxt.org/wc/guidelines.html

Ved godt det ikke altid er så venligt... Men det er til brug på egne
servere.. Kan man få wget til at ignorere robots.txt ?

Mvh
Thomas Damgaard

Søg

Reklame

Statistik

Spørgsmål :	177743
Tips :	31970
Nyheder :	719565
Indlæg :	6410367
Brugere :	218905

Månedens bedste

Årets bedste

Sidste års bedste