/ Forside / Teknologi / Udvikling / SQL / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
SQL
#NavnPoint
pmbruun 1704
niller 962
fehaar 730
Interkril.. 701
ellebye 510
pawel 510
rpje 405
pete 350
gibson 320
10  smorch 260
URL genkendelse
Fra : Andrew Engels Rump (~


Dato : 11-08-04 10:08

FUT: dk.edb.programmering

Dette er meget langt - men jeg tror faktisk det er ret interessant
ud fra mange forskellige indfaldsvinkler og jeg håber jeg forklare
mig selv tydeligt nok herunder! Hvis der er nogen der gerne
vil forstå hvad jeg har gang i, kan de læse min foregående posting
news:Xns9535991BB1296newandrewrumpdk@212.242.40.196 - som ikke fik
nogen svar, så nu prøver jeg igen efter råd fra dem der læste den.

Jeg har et "lille" problem med at overskue en samling URL'er samt
gemme dem på en fornuftig måde for senere genkendelse.

Det lyder vel som noget højtravende noget, så her er et eksempel:

URL'en: http://www.macromed.biz/ er nem at gemme - hvis den kun
fandtes i denne ene udgave - men jeg skal holde styr på alle andre
kombinationer hvor domænenavnet macromed.biz indgår - desværre kan
jeg ikke bare kigge på domænenavnet for nogle gange er det domæner
alle kan "bruge" som f.eks. hotmail.com, ..., eller også er jeg
ligeglad med domænet, men kigger på resten af URL'en!

Derfor er der i min kode mulighed for at lave regulære udtryk. Jeg
vil ikke begynde at forklare regulære udtryk, men bare sige at de
er meget stærkt værktøj - også i dette system, for jeg kan samle
alle URL'er i en linie i stedet for at skrive hver enkelt i koden.
Ovenstående kan samles til:

   http%3A%2F%2Fwww.macromed.biz(%2F(uns.htm)?)?

Den vil match disse tre abused adresser (%3A = :, %21F = /):
   http://www.macromed.biz/uns.htm
   http://www.macromed.biz/
   http://www.macromed.biz

(Ja jeg ved godt nogle af jer med det samme vil sige. "Hov, men
.. (dot) matcher alle bogstaver!", men det har været nemt for mig
at få programmet til at skrive ovenstående abused adresse om til:
"http%3A%2F%2Fwww\.macromed\.biz(%2F(uns\.htm)?)?" - OK!?! og
netop fordi programmet bruger HTML entities går der ikke kludder
med f.eks. spørgsmålstegn m.m.)

Her er bare et par eksempler på hvilke udtryk der ligger i "basen"
"http%3A%2F%2F[a-z]+.mostlyyes.info%2F[a-z]+%2F[a-z]+%2Findex.htm"
som matcher alle URL'er der henviser til "mostlyyes.info/nogle
bogstaver/nogle bogstaver/index.htm".

Når det går hedt til matcher jeg ikke på domænet længere!!!
"http%3A%2F%2F([a-z0-9(%7C)]+.)?[a-z0-9]+.com%2F(nomoremail%2F|
gen_ads%2Fgen_mail.php(%3Fgrid%3D[0-9]+%26ape%3D[a-z0-9]+)?)"

Men her begynder filmen at knække! Jeg kan ikke altid huske
hvilket mønster jeg har lavet i forvejen der matcher en URL.

Er der nogen der har forslag til hvordan jeg gemmer oplysningerne
i en database, så de er nemme og hurtige at søge i? I starten var
det min plan at bruge domænenavnene "bagfra (fra toplevel og ned)
men det blev ret uoverskueligt specielt da nogle URL'er er helt
ens - lige med undtagelse af domænenavnet!

Det skal også være nemt at se hvilke gamle mønstre evt. nye
mønstre matcher! osv. osv. osv!

Andrew
--
*** The opinions expressed are not necessarily those of my employer. ***
* Software Engineer Andrew Engels Rump * BLIK og ROERarbejderforbundet *
* Immerkaer 42, 2650 Hvidovre * Tlf: +45 3638 3638, Fax: +45 3638 3639 *
Home: N55°41'38.9" E12°29'08.6" (WGS 84) Work: N55°39'50.9" E12°27'47.4"
E-mail: mailto:newandrew@rump.dk WWW http://www.rump.dk/homepage/andrew/



Andrew
--
*** The opinions expressed are not necessarily those of my employer. ***
* Software Engineer Andrew Engels Rump * BLIK og ROERarbejderforbundet *
* Immerkaer 42, 2650 Hvidovre * Tlf: +45 3638 3638, Fax: +45 3638 3639 *
Home: N55°41'38.9" E12°29'08.6" (WGS 84) Work: N55°39'50.9" E12°27'47.4"
E-mail: mailto:newandrew@rump.dk WWW http://www.rump.dk/homepage/andrew/

 
 
Søg
Reklame
Statistik
Spørgsmål : 177514
Tips : 31968
Nyheder : 719565
Indlæg : 6408618
Brugere : 218887

Månedens bedste
Årets bedste
Sidste års bedste