-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1
"Casper Bang" <webmaster_fjerndette@fjerndette_secretsofwar.net> writes:
>> Jeg mener, at MS SQL understøtter fuldtekstindeksering
>> out-of-the-box, så hvis foo og bar i dit eksempel er ord eller dele
>> af ord, behøver det ikke at betyde det helt store... hvis altså der
>> bliver indekseret ordenligt.
>
> Ahh, det ville vel nok betyde en hel del - 1,5 million records, med
> lad os sige i gennemsnit 10 ord i hver - det bliver alligevel et ret
> stort indeks :)
10 unike ord? Der er vist nok kun omkring 150.000 ord i det danske
sprog (jeg ved ikke, hvor jeg har det tal fra). Tag et meget større
sprog som engelsk, og der vil stadig være langt under en million for
langt, langt de fleste anvendelser. Desuden behøver det ikke at være
et problem. Et indeks er jo trods alt en ordnet størrelse, så det
bliver nok sjældent nødvendigt at søge det hele igennem.
Mere avancerede fuldtekstindekser kan dele et indeks op i to dele: en
meget almindelige ord og en til mindre almindelige. Afhængigt af
hvordan indekset er lavet og/eller bliver brugt, kan du udskifte
'almindelige' med 'efterspurgte'. Det betyder, at man ofte kun skal
søge et lille indeks igennem, mens det store står i reserve. Om denne
type indeks er tilgængeligt i en hvermands-RDBMS som MS SQL, skal jeg
ikke kunne sige, men hvis det er kritisk for ens applikation, kan man
sikkert sagtens udvilke et selv. Den bagvedliggende teori er jo ikke
voldsomt kompliceret, og kan bygges oven på den type indeks, man nu
mener, passer bedst til formålet.
Martin
- --
Homepage:
http://www.cs.auc.dk/~factotum/
GPG public key:
http://www.cs.auc.dk/~factotum/gpgkey.txt
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.4 (GNU/Linux)
Comment: Using Mailcrypt+GnuPG <
http://www.gnupg.org>
iEYEARECAAYFAkHwG/MACgkQYu1fMmOQldVkpwCg6Ns7dTPwAkVlUcGK0vYiNSYO
QkMAoJKrwypSWsy29+GF2/W71o5wMGfl
=7SBK
-----END PGP SIGNATURE-----