Hej
Jeg arbejder løs på at lave en korrekturlæser på spansk. Det skal være
til en hjemmeside hvor man skal kunne læse korrektur por en indtastet
tekst.
Jeg har nu fået skaffet mig en liste med ca 50.000 spanske ord, hvilke
skulle dække et rimeligt behov.
Denne liste har jeg så smidt ind i en MySQL 4.1 database. tabellen har 3
felter: ord, lyd, laengde. selve ordet gemmes i "ord", i "lyd" gemmer
jeg det der svarer til soundex(ord), og laengde er naturligvis
length(ord).
Min ide er så at for hvert ord der ikke findes i ordlisten, laver jeg en
søgning a la:
SELECT ord
FROM esp_dict
WHERE lyd = soundex('MITORD')
AND longitud > length('MITORD') - 2
AND longitud < length('MITORD') + 2
for således at finde alle enslydende ord med en længde der tilnærmer sig
det indtastede ord.
Det er jo alt sammen ganske enkelt, men nu kommer det svære: Hvad skal
jeg gøre med alle bøjninger af ordene? Jeg kan jo ikke så godt gemme
alle bøjningerne af ordene i min database, da den jo ville blive helt
enorm, men et eller andet må der jo gøres. Nogen der har en idé til
hvordan jeg kan gemme endelser på en smart måde, således at jeg kan
foretage hurtige søgninger, evt. ved hvilke metoder der bruges i andre
produkter med korrekturlæsere?
Med venlig hilsen
Lars Hoffmann
X-post: dk.edb.programmering, dk.edb.database da jeg ikke kan overskue
hvor den hører hjemme.
--
Posted via Mailgate.ORG Server -
http://www.Mailgate.ORG