/ Forside / Teknologi / Udvikling / Java / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
Java
#NavnPoint
molokyle 3688
Klaudi 855
strarup 740
Forvirret 660
gøgeungen 500
Teil 373
Stouenberg 360
vnc 360
pmbruun 341
10  mccracken 320
Ordliste ? [?off-topic?]
Fra : rofe


Dato : 07-04-03 12:21

Hejsa NG

Jeg ved ikke hvor jeg ellers skal stille dette spørgsmål, så jeg stiller det
her, i "den tro"/håb om, at andre har haft en ligende problemstilling, og
derfor har brugt en sådanne ordliste.

Jeg skal udvikle et system der benytter en form for datamining, ud fra nogle
nøgleord i en artikel. Det vil sige, ud fra nogle nøgleord. finde nogle
relationer mellem dem.
Før jeg har nøgleordene skal alle andre ord fjernes, og i den forbindelse
skal jeg bruge en ordliste der indeholder "stop-ord" på engelsk. Det vil
sige ord som this, one, me, him, go, count, sleep, eat, live osv. Kan ikke
huske hvad den type ord hedder (udsagnsord?), men den type ord jeg ønsker at
stå tilbage med som nøgleord er navneord/begreber som computer, c++,
network, database etc.

Er der nogle herinde der ligger inde med en ordliste af den type, eller ved
hvor jeg kan finde en sådanne ?

Hvis det er off-topic, hvilket jeg lidt frygter :o|
Så fut mig til den korrekte gruppe.


Med venlig hilsen
Ronni
rofe@FJERNDETTEmailme.dk




 
 
allan (08-04-2003)
Kommentar
Fra : allan


Dato : 08-04-03 17:26

rofe wrote:
> Hejsa NG
>
> Jeg ved ikke hvor jeg ellers skal stille dette spørgsmål, så jeg stiller det
> her, i "den tro"/håb om, at andre har haft en ligende problemstilling, og
> derfor har brugt en sådanne ordliste.
>
> Jeg skal udvikle et system der benytter en form for datamining, ud fra nogle
> nøgleord i en artikel. Det vil sige, ud fra nogle nøgleord. finde nogle
> relationer mellem dem.
> Før jeg har nøgleordene skal alle andre ord fjernes, og i den forbindelse
> skal jeg bruge en ordliste der indeholder "stop-ord" på engelsk. Det vil
> sige ord som this, one, me, him, go, count, sleep, eat, live osv. Kan ikke
> huske hvad den type ord hedder (udsagnsord?), men den type ord jeg ønsker at
> stå tilbage med som nøgleord er navneord/begreber som computer, c++,
> network, database etc.
>
> Er der nogle herinde der ligger inde med en ordliste af den type, eller ved
> hvor jeg kan finde en sådanne ?
>
> Hvis det er off-topic, hvilket jeg lidt frygter :o|
> Så fut mig til den korrekte gruppe.
>
>
> Med venlig hilsen
> Ronni
> rofe@FJERNDETTEmailme.dk
>
>
>
For at fjerne stopordene kan jeg lige komme i tanke om to løsninger. Den
ene er at finde en stopords liste på nettet. Jeg ved der findes en på
engelsk. Det er dog ikke en særlig fleksibel løsning da den kun kan
bruges til engelske tekster. En anden løsning er at lave en statistisk
analyse af ord forekomster. De ord der bliver brugt meget har en tendens
til at miste deres betydning. Det kræver dog nogle flere beregninger.

Det er dog ikke uproblematisk at fjerne stopord. Hvis du skal søge efter
Shakespeare og tekst strengen "to be or not to be" så vil man formentlig
ikke kunne finde noget da de alle er stopord

Til at finde ud af om et ord er et navne ord vil jeg tro du kan bruge en
thesaurus eller en ontologi. Jeg har dog ikke selv prøvet det men du
kunne prøve at kigge på noget der hedder wordnet. En anden ting du kunne
overveje er at gruppere navneord. For eksempel er mange enkelt ord på
engelsk ikke sammensatte som de er på dansk.(system administrator og
computer science)

Håber det kan bruges eller må du skrive tilbage


mvh. Allan


Søg
Reklame
Statistik
Spørgsmål : 177558
Tips : 31968
Nyheder : 719565
Indlæg : 6408924
Brugere : 218888

Månedens bedste
Årets bedste
Sidste års bedste