Mads wrote:
> Er der nogen der kender en god forklaring af beregning af entropien for
> mere komplekse sandsynligheds modeller.
Modellerne udgør et forsøg på at matematisk at beskrive informationskilden.
Jo mere præcist beskrivelsen er jo bedre et estimat får du af dens entropi,
dvs. hvor mange bits information du får per output.
Du vil dog altid ende med en eller anden form for kompliceret betinget
sandsynelighed for at komme med den observation du har fra kilden, det
giver dig en likelyhood for en specifik observation, og entropien er
så gennemsnittet over mange observationer.
Kan jeg finde ud af sandsynelighedsregning? Lets give it a try.
Har du P(a & b|c) som sandsyneligheden for at observere udfaldet c når du
i forvejen ved a og b, og a og b er uafhængige events. Så vil likelyhood
/overraskelsen for et bestemt udfald c (vidende a og b) være
L = -Log2[P(a&b|c)].
Sandsyneligheden for udfald c er P(a)P(b)P(a&b|c) fordi a sker med
sandsynelighed P(a). b sker med sandsynelighed P(b). Så a OG b sker
med sandsynelighed P(a)P(b) fordi de er uafhængige. P(a&b|c) er jo
sandsyneligheden for c når vi ved et specifikt a og b.
Gennemsnitsentropien bliver så S= integral P(a) P(b) P(a&b|c) L da db dc
Har du P(a|b|c) dvs. sandsyneligheden for c betinget at du ved b,
der igen er betinget at du ved a. Så er likelihood for udfald c betinget b
betinget a igen L = -Log2(P(a|b|c))
Gennemsnittet er lidt mere komplekst. Hvis sandsyneligheden for a er P(a)
så er sandsyneligheden for b når du ved a P(a|b)P(a), og sandsyneligheden
for c betinget b, betinget a være P(a|b|c)P(a|b)P(a) og derfor ender
gennemsnittet med at være
S = integral P(a)P(a|b)P(a|b|c) L da db dc
Har du en generel model har du en P(a|b|c|d|e|f|g ..) som du ønsker at
udregne entropien for. Og du skal så opløse denne i alle produkterne
af simplere del sandsyneligheder og så får du gennemsnittet, hvilket
i princippet er det samme som overstående blot værrer.
Hvis du prøver logikken med en første ordens Markov process så får du
P(a|b|c|d|e|f|g ..) = P(a|b)P(b|c)P(c|d).. = P(a|b)^N fordi hvert
skridt kun afhænger af det tidligerer, og alle skridt er ens. Indsætter
du i integralet burde du så få det rigtige udtryk.
--
Mvh. Carsten Svaneborg
http://gauss.ffii.org