Fri, 10 Jan 2003 10:21:17 +0100, skrev Lars Jørgen Helbo:
>On Fri, 10 Jan 2003 07:09:06 +0100, "Flemming Svendsen"
><zeus1@mail.dk> wrote:
>
>>
>>Søger man, i DDD efter eksempelvis "Tygesen", får man ikke Thygesen med, som
>>man gør i mormondatabasen.
>>(Fonetisk søgning hedder det vist)
>>
>>Ville det være umuligt at lave?
>>Tænk bare på Svendsen, Svensen. Svendson, Schwensen og så videre . . . .
>>Bare et bitte pip.
>>Måske pip?
>
>Det kan godt lade sig gøre; men eksperterne er noget uenige om,
>hvordan man skal gøre det.
Eksperter har det med at være uenige, især når det drejer sig om
diffuse problemer, f.eks. drivhuseffekten og torskebestanden i
Østersøen. Her har vi imidlertid at gøre med noget meget konkret, der
umiddelbart kan efterprøves, måles og vejes, så eventuelle
diskussioner frem og tilbage er spild af tid. Smøg ærmerne op og kom
igang.
>Jeg er enig i, at FamilySearch fungerer fint på det punkt; men
>desværre er det tilsyneladende en hemmelighed, hvordan de har lavet
>det. Det er dog ikke bare fonetisk søgning. Hvis man søger efter Maren
>Hansdatter får man f.eks. også Maren Hansen. Ligeledes, hvis man søger
>efter Maren Hansdoter, får man både Maren Hansdatter og Maren Hansen.
Almidelig husmandslogik lyder noget i denne retning:
Man forsyner søgeformularen med nogle valg:
1. Skal søgningen være præcis - altså som det der indtastes i feltet
2. eller skal der søges på tværs af stavevarianter
3. Skal der søges på specifikt køn, eller alle forekomster
o.s.v., o.s.v.
Først parser man navnefeltet og undersøger det for patronymer. Hvis
der forekommer endelser a la -sen eller -datter, eller varianter heraf
(specificeret i et array, eller hvad sådan noget nu hedder), så beder
man bare søgerutinen om at finde alle forekomster - uanset endelse.
Det kan vel ikke være så svært.
>En anden mulighed er en søgning, som bygger på et tabelsystem. Man
>kunne f.eks. tage hele FT-1801, dele op i fornavn og efternavn og
>derefter sortere den alfabetisk. Man ville så få en liste med alle
>forekommende navne, og dem kunne man så "putte i kasser", d.v.s man
>beslutter manuelt, hvilke navne, der skal betragtes som synonyme. Hvis
>man så bagefter søger på et af navnene i en kasse, vil man som
>resultat få alle i denne kasse. Her kunne man så beslutte, at Hansen
>og Hansdatter skal betragtes som synonyme.
*Det* er i hvert fald nemt. Når jeg indtaster lister af forskellig
art, bruger jeg f.eks. bogstavet X som mellemrum istedet for
mellemrunstangenten. På et splitsekund kan jeg derefter bede Excel om
at opdele navnefeltet i lige så mange felter som der brug for og så
har jeg hver navnedel i hver sit felt og så kan jeg sortere alt det
jeg har lyst til.
>Problemet ved det er, at det er et stort arbejde, som først bør sættes
>i gang, når man har hele årgange. Ellers skulle man jo starte forfra,
>hver gang en ny FT bliver færdig. Måske bør årgangen også være
>korrekturlæst, før man starter.
Sikke noget fis. Når først det grundlæggende arbejde er gjort, f.eks.
oprettelse af nogle tabeller med kvindefornavne og mandefornavne,
varianter af patronymer m.m. er lavet (og lad det så tage et par
timer), så er det kun et spørgsmål om løbende at tilføje "nyheder"
efterhånden som man kommer i tanker om varianter, man ikke havde tænkt
på i første omgang.
Faktisk kan man jo bare lave en rutine på serveren der danner en log
over de søgninger der ikke har givet noget resultat. Dem kigger man på
hver fredag i starten og sorterer dem fra som er oplagt brugersjusk og
piller så dem ud der kan bruges og fylder i de allerede eksisterende
tabeller. På den måde trænes systemet til at blive bedre og bedre og
inden ret længe, vil hit-procentern være øget betragteligt i forhold
til nu.
Gør det nu ikke til noget stort og meget bekosteligt. Vi *kan* altså
godt nøjes med noget der forbedrer det nuværende med 90% istedet for
100%.
>Et andet problem er, at der efter opdelingen i "kasser" vil være en
>rest af meget sjældne navne, som nok skal klares på en anden måde,
>hvis det hele ikke skal blive for tungt.
Jeg er overbevist om at flertallet af brugere søger på flertallet af
navne. Den lille rest du taler om, må altså ikke blokere for at
implementere en forbedring, der vil løse *de fleste* af de nuværende
problemer.
>Der er altså nogle problemer i sagen; men der arbejdes med det, og
Aha! Hvad arbejdes der på? Har man specificeret et krav til en ny
søgerutine? Hvornår kan det forventes klar o.s.v.?
Venlig hilsen
Kurt hansen