Home
Notes
Traductions & Res.
eStudio
Vielbein
Latest notes...
Some notes on Relativity and other arguments
Informazione e gravita entropica - IV
<p style="text-align: justify;">Partiamo da un obiettivo preciso: costruire un apparato puramente informazionale in cui una variabile continua radiale r>0 (distanza della massa test m dalla sorgente M) venga descritta tramite una distribuzione di credenza p(r), ottenuta come aggiornamento “minimamente informativo” rispetto a una misura di riferimento μ(r), e in cui da tale costruzione emerga in modo trasparente un gradiente informazionale associato al potenziale assegnato U(r)=A/r. L’analisi è intenzionalmente svincolata da analogie termodinamiche: le quantità che introdurremo avranno interpretazione come costi, log-verosimiglianze, o lunghezze di codice; l’eventuale simbolo T verrà interpretato come semplice fattore di conversione duale, privo di contenuto fisico intrinseco.</p> <p style="text-align: justify;">Si consideri un sistema descritto da una singola variabile continua r definita su un dominio <img title="D\subseteq(0,\infty)" src="https://latex.codecogs.com/svg.image?D\subseteq(0,\infty)">. L’obiettivo è costruire una distribuzione p(r) che rappresenti lo stato di informazione sul valore di r. In un’impostazione puramente informazionale, in assenza di ulteriori vincoli, una scelta naturale è introdurre una misura di riferimento μ(r) che codifica la struttura “a priori” dello spazio dei possibili valori di r. Tale misura non è necessariamente una densità di probabilità normalizzata: serve come base rispetto alla quale misurare quanta informazione aggiuntiva è stata introdotta nel passaggio da μ a <em>p</em>. Nel caso radiale in tre dimensioni, la simmetria sferica suggerisce una misura geometrica proporzionale all’area delle sfere di raggio <em>r</em>. Si assume quindi</p> <p style="text-align: center;"><img title="\mu(r)=Cr^2" src="https://latex.codecogs.com/svg.image?\mu(r)=Cr^2"></p> <p style="text-align: justify;">C>0 è una costante (che può essere assorbita in una normalizzazione finale o in un termine additivo di logaritmi). Questa scelta esprime un fatto puramente combinatorio: al crescere di r cresce la “molteplicità” geometrica dei punti a distanza r dalla sorgente. In termini informazionali, μ(r) è un riferimento che assegna peso maggiore ai valori di r che corrispondono a un numero maggiore di configurazioni geometricamente distinte.</p> <p style="text-align: justify;">Per formalizzare il criterio di aggiornamento “minimamente informativo”, introduciamo la divergenza di Kullback–Leibler (relativa) tra una densità p(r) e la misura di riferimento μ(r):</p> <p style="text-align: center;"><img title="D(p||\mu)=\int _D p(r)\ln\left(\frac{p(r)}{\mu(r)}\right)dr" src="https://latex.codecogs.com/svg.image?D(p||\mu)=\int&space;_D&space;p(r)\ln\left(\frac{p(r)}{\mu(r)}\right)dr"></p> <p style="text-align: justify;">Questa quantità è ben definita quando <em>p</em> è assolutamente continua rispetto a μ. In questa formulazione, μ agisce come misura di base e D(p∥μ) quantifica la quantità di informazione introdotta passando da μ a p.</p> <p style="text-align: justify;">Il principio di minima informazione aggiunta può essere espresso come il problema variazionale</p> <p style="text-align: center;"><img title="min_p D(p||\mu)" src="https://latex.codecogs.com/svg.image?min_p&space;D(p||\mu)"></p> <p style="text-align: justify;">soggetto a vincoli che implementano ciò che si “sa” sul sistema. Il primo vincolo è la normalizzazione:</p> <p style="text-align: center;"><img title="\int _D p(r)dr=1" src="https://latex.codecogs.com/svg.image?\int&space;_D&space;p(r)dr=1"></p> <p style="text-align: justify;">Per incorporare un potenziale <span class="katex"><span class="katex-mathml">U(r) </span></span>come elemento informazionale, si può imporre un vincolo su un funzionale medio. Una scelta standard, che produce una famiglia esponenziale e mantiene la generalità del formalismo, è il vincolo sul valore atteso:</p> <p style="text-align: center;"><img title="\int _D p(r)U(r)dr=\overline{U}" src="https://latex.codecogs.com/svg.image?\int&space;_D&space;p(r)U(r)dr=\overline{U}"></p> <p style="text-align: justify;">dove <span class="katex"><span class="katex-mathml"><img title="\overline{U}" src="https://latex.codecogs.com/svg.image?\overline{U}"></span></span> è un parametro fissato che rappresenta l’informazione globale disponibile sul costo medio. In questa sede, <span class="katex"><span class="katex-mathml">U(r) </span></span>è interpretato come funzione-costo: una mappa che associa a ciascun <span class="katex"><span class="katex-mathml">r</span></span> una penalità informazionale (o una preferenza negativa) e che, tramite il vincolo, induce una selezione tra distribuzioni compatibili.</p> <p style="text-align: justify;">Introduciamo quindi la Lagrangiana funzionale:</p> <p style="text-align: center;"><img title="L\left[p,\alpha,\beta\right]=\int _D p(r)\frac{p(r)}{\mu(r)}dr+\alpha\left(\int _D p(r)dr-1\right)+\beta\left(\int _D p(r)U(r)-\overline{U}\right)" src="https://latex.codecogs.com/svg.image?L\left[p,\alpha,\beta\right]=\int&space;_D&space;p(r)\frac{p(r)}{\mu(r)}dr+\alpha\left(\int&space;_D&space;p(r)dr-1\right)+\beta\left(\int&space;_D&space;p(r)U(r)-\overline{U}\right)"></p> <p style="text-align: justify;">Il minimo rispetto a <em><span class="katex"><span class="katex-mathml">p</span></span></em> si ottiene imponendo che la derivata funzionale si annulli. Variando <img title="p\rightarrow p+\epsilon\delta p" src="https://latex.codecogs.com/svg.image?p\rightarrow&space;p+\epsilon\delta&space;p"> e imponendo <img title="\delta L=0" src="https://latex.codecogs.com/svg.image?\delta&space;L=0"> per ogni <img title="\delta p" src="https://latex.codecogs.com/svg.image?\delta&space;p"> si ottiene la condizione di stazionarietà:</p> <p style="text-align: center;"><img title="\ln\left(\frac{p(r)}{\mu(r)}\right)+1+\alpha+\beta U(r)=0" src="https://latex.codecogs.com/svg.image?\ln\left(\frac{p(r)}{\mu(r)}\right)+1+\alpha+\beta&space;U(r)=0"></p> <p style="text-align: justify;">da cui segue:</p> <p style="text-align: center;"><img title="p(r)=\mu(r)e^{-1-\alpha}e^{-\beta U(r)}" src="https://latex.codecogs.com/svg.image?p(r)=\mu(r)e^{-1-\alpha}e^{-\beta&space;U(r)}"></p> <p style="text-align: justify;">La quantità <img title="e^{-1-\alpha}" src="https://latex.codecogs.com/svg.image?e^{-1-\alpha}"> è una costante che viene determinata dalla normalizzazione. Definendo</p> <p style="text-align: center;"><img title="Z(\beta)=\int _D\mu(u)e^{-\beta U(u)}du" src="https://latex.codecogs.com/svg.image?Z(\beta)=\int&space;_D\mu(u)e^{-\beta&space;U(u)}du"></p> <p style="text-align: justify;">si ottiene la forma normalizzata:</p> <p style="text-align: center;"><img title="p_{\beta}(r)=\frac{\mu(r)e^{-\beta U(r)}}{Z(\beta)}" src="https://latex.codecogs.com/svg.image?p_{\beta}(r)=\frac{\mu(r)e^{-\beta&space;U(r)}}{Z(\beta)}"></p> <p style="text-align: justify;">Questa è la famiglia esponenziale indotta dal criterio di minima KL rispetto alla misura <span class="katex"><span class="katex-mathml">μ</span></span> con vincolo sul valore atteso di <span class="katex"><span class="katex-mathml">U</span></span>. Il moltiplicatore <span class="katex"><span class="katex-mathml">β</span></span> è determinato dalla condizione <span class="katex"><span class="katex-mathml"><img title="\int p_{\beta}U=\overline{U}" src="https://latex.codecogs.com/svg.image?\int&space;p_{\beta}U=\overline{U}"></span></span>. È cruciale notare che <span class="katex"><span class="katex-mathml">β</span></span> non è introdotto come temperatura fisica: è un parametro duale, un “prezzo ombra” del vincolo, che quantifica la sensibilità dell’ottimo alla specifica <span class="katex"><span class="katex-mathml"><img title="\overline{U}" src="https://latex.codecogs.com/svg.image?\overline{U}"></span></span>.</p> <p style="text-align: justify;">Introduciamo ora una quantità informazionale locale associata a <span class="katex"><span class="katex-mathml">r</span></span>: il <em>surprisal</em> della realizzazione <span class="katex"><span class="katex-mathml">r</span></span> sotto <span class="katex"><span class="katex-mathml"><img title="p_{\beta}" src="https://latex.codecogs.com/svg.image?p_{\beta}"></span></span>:</p> <p style="text-align: center;"><img title="S_{\beta}(r)=-\ln p_{\beta}(r)" src="https://latex.codecogs.com/svg.image?S_{\beta}(r)=-\ln&space;p_{\beta}(r)"></p> <p style="text-align: justify;">da cui si ottiene:</p> <p style="text-align: center;"><img title="S_{\beta}(r)=-\ln\mu(r)+\beta U(r)+\ln Z(\beta)" src="https://latex.codecogs.com/svg.image?S_{\beta}(r)=-\ln\mu(r)+\beta&space;U(r)+\ln&space;Z(\beta)"></p> <p style="text-align: justify;">Questa equazione mostra che <span class="katex"><span class="katex-mathml"><img title="S_{\beta}(r)" src="https://latex.codecogs.com/svg.image?S_{\beta}(r)"></span></span> contiene tre contributi: un termine di misura <span class="katex"><span class="katex-mathml"><img title="-\ln\mu(r)" src="https://latex.codecogs.com/svg.image?-\ln\mu(r)"></span></span>, un termine dinamico <span class="katex"><span class="katex-mathml"><img title="\beta U(r)" src="https://latex.codecogs.com/svg.image?\beta&space;U(r)"></span></span> e un termine globale indipendente da <span class="katex"><span class="katex-mathml">r</span></span>. Poiché vogliamo studiare il comportamento locale lungo la coordinata <span class="katex"><span class="katex-mathml">r</span></span>, consideriamo la derivata rispetto a <span class="katex"><span class="katex-mathml">r</span></span>, ossia il <em>gradiente informazionale</em>:</p> <p style="text-align: center;"><img title="\frac{dS_{\beta}(r)}{dr}=-\frac{d}{dr}\left(\ln\mu(r)\right)+\beta\frac{dU(r)}{dr}+\frac{d}{dr}\left(\ln Z(\beta)\right)" src="https://latex.codecogs.com/svg.image?\frac{dS_{\beta}(r)}{dr}=-\frac{d}{dr}\left(\ln\mu(r)\right)+\beta\frac{dU(r)}{dr}+\frac{d}{dr}\left(\ln&space;Z(\beta)\right)"></p> <p style="text-align: justify;">poichè <img title="Z(\beta)" src="https://latex.codecogs.com/svg.image?Z(\beta)"> non dipende da r, l'ultimo termine dell'espressione è nullo e quindi si ottiene:</p> <p style="text-align: center;"><img title="\frac{dS_{\beta}(r)}{dr}=-\frac{d}{dr}\left(\ln\mu(r)\right)+\beta\frac{dU(r)}{dr}" src="https://latex.codecogs.com/svg.image?\frac{dS_{\beta}(r)}{dr}=-\frac{d}{dr}\left(\ln\mu(r)\right)+\beta\frac{dU(r)}{dr}"></p> <p style="text-align: justify;">Questa è l’equazione generale che collega il gradiente del surprisal al gradiente del costo <span class="katex"><span class="katex-mathml">U</span></span> e al contributo della misura di riferimento. Essa spiega anche perché, quando si lavora con gradienti locali, il termine di normalizzazione <span class="katex"><span class="katex-mathml"><img title="\ln Z(\beta)" src="https://latex.codecogs.com/svg.image?\ln&space;Z(\beta)"></span></span> scompare: esso è un offset globale della codifica, irrilevante per variazioni differenziali in <span class="katex"><span class="katex-mathml">r.</span></span></p> <p style="text-align: justify;">A questo punto introduciamo la misura <img title="\mu(r)=C r^2" src="https://latex.codecogs.com/svg.image?\mu(r)=C&space;r^2"> ed il potenziale <img title="U(r)=A/r" src="https://latex.codecogs.com/svg.image?U(r)=A/r"> con A >0. Svolgendo i calcoli si ottiene:</p> <p style="text-align: center;"><img title="\frac{d S_{\beta}(r)}{dr}=-\frac{2}{r}-\beta\frac{A}{r^2}" src="https://latex.codecogs.com/svg.image?\frac{d&space;S_{\beta}(r)}{dr}=-\frac{2}{r}-\beta\frac{A}{r^2}"></p> <p style="text-align: justify;">Questa formula è centrale perché mette in evidenza la struttura additiva del gradiente: esiste un termine -<span class="katex"><span class="base"><span class="mord">2/</span><span class="mord mathnormal">r</span></span></span> che deriva esclusivamente dalla scelta della misura geometrica, e un termine <span class="katex"><span class="katex-mathml"><img title="\beta A/r^2" src="https://latex.codecogs.com/svg.image?\beta&space;A/r^2"></span></span> che deriva dalla forma del potenziale <span class="katex"><span class="katex-mathml">A/r</span></span> e dall’intensità del vincolo codificata da <span class="katex"><span class="katex-mathml">β</span></span>.</p> <p style="text-align: justify;">È utile ora esplicitare anche la densità <img title="p_{\beta}(r)" src="https://latex.codecogs.com/svg.image?p_{\beta}(r)"> che diviene:</p> <p style="text-align: center;"><img title="p_{\beta}(r)=\frac{C r^2 e^{-\beta A/r}}{Z(\beta)}" src="https://latex.codecogs.com/svg.image?p_{\beta}(r)=\frac{C&space;r^2&space;e^{-\beta&space;A/r}}{Z(\beta)}"></p> <p style="text-align: justify;">Il termine <img title="r^2" src="https://latex.codecogs.com/svg.image?r^2"> favorisce valori grandi di <span class="katex"><span class="katex-mathml">r</span></span> per ragioni geometriche, mentre il termine <img title="e^{-\beta A/r}" src="https://latex.codecogs.com/svg.image?e^{-\beta&space;A/r}"> penalizza i valori piccoli di <span class="katex"><span class="katex-mathml">r</span></span> (poiché <span class="katex"><span class="base"><span class="mord mathnormal">A</span><span class="mord">/</span><span class="mord mathnormal">r</span></span></span> è grande per <span class="katex"><span class="katex-mathml">r</span></span> piccolo). Questa competizione è puramente informazionale: da una parte c’è una molteplicità crescente, dall’altra un costo crescente avvicinandosi alla sorgente.</p> <p style="text-align: justify;">Come anticipato, la normalizzabilità su <img title="(0,\infty)" src="https://latex.codecogs.com/svg.image?(0,\infty)"> non è garantita: per <img title="r\to\infty " src="https://latex.codecogs.com/svg.image?r\to\infty&space;">, <img title="e^{-\beta A/r}\rightarrow 1" src="https://latex.codecogs.com/svg.image?e^{-\beta&space;A/r}\rightarrow&space;1"> e la densità cresce come <span class="katex"><span class="katex-mathml"><img title="r^2" src="https://latex.codecogs.com/svg.image?r^2"></span></span>, quindi <span class="katex"><span class="base"><span class="mord mathnormal">Z</span><span class="mopen">(</span><span class="mord mathnormal">β</span><span class="mclose">)</span></span></span> diverge se non si impone un cutoff o un ulteriore vincolo. Questo non inficia il calcolo del gradiente locale perché <span class="katex"><span class="base"><span class="mord mathnormal">d</span><span class="mord mathnormal">S</span><span class="mord">/</span><span class="mord mathnormal">d</span><span class="mord mathnormal">r</span></span></span> è costruito dalla forma logaritmica locale, ma se si desidera un modello probabilistico globalmente normalizzato occorre specificare un dominio <img title="D=\left[r_{min},r_{max}\right]" src="https://latex.codecogs.com/svg.image?D=\left[r_{min},r_{max}\right]"> oppure aggiungere un secondo vincolo che introduca un termine esponenziale decrescente in <span class="katex"><span class="mord mathnormal">r</span></span>.</p> <p style="text-align: justify;">Ora, poiché il nostro obiettivo è collegare il potenziale al gradiente informazionale, è utile separare la componente dovuta alla misura da quella dovuta al costo. Definiamo quindi un’informazione “<em>dinamica</em>” come surprisal relativo alla misura:</p> <p style="text-align: center;"><img title="S_{dyn}(r)=S_{\beta}(r)+\ln\mu(r)" src="https://latex.codecogs.com/svg.image?S_{dyn}(r)=S_{\beta}(r)+\ln\mu(r)"></p> <p style="text-align: justify;">sostituendo i valori si ottiene:</p> <p style="text-align: center;"><img title="S_{dyn}(r)=\beta\frac{A}{r}+\ln Z(\beta)" src="https://latex.codecogs.com/svg.image?S_{dyn}(r)=\beta\frac{A}{r}+\ln&space;Z(\beta)"></p> <p style="text-align: justify;">e se deriviamo rispetto ad r otteniamo:</p> <p style="text-align: center;"><img title="\frac{S_{dyn}(r)}{dr}=-\beta\frac{A}{r^2}" src="https://latex.codecogs.com/svg.image?\frac{S_{dyn}(r)}{dr}=-\beta\frac{A}{r^2}"></p> <p style="text-align: justify;">Questa separazione è concettualmente importante: la misura <span class="katex"><span class="katex-mathml">μ</span></span> codifica una baseline combinatoria, mentre <img title="S_{dyn}" src="https://latex.codecogs.com/svg.image?S_{dyn}"><span class="katex"><span class="mord"><span class="vlist-r"><span class="vlist-s">​</span></span></span></span> cattura esclusivamente l’informazione introdotta dal vincolo sul costo <span class="katex"><span class="katex-mathml">U</span></span>. In altre parole, <img title="S_{dyn}" src="https://latex.codecogs.com/svg.image?S_{dyn}"> è l’informazione “in eccesso” rispetto a ciò che è già implicito nella struttura geometrica.</p> <p style="text-align: justify;">A questo punto si può introdurre un fattore di conversione <span class="katex"><span class="katex-mathml">T</span></span> definito come inverso del moltiplicatore duale:</p> <p style="text-align: center;"><img title="T=\frac{1}{\beta}" src="https://latex.codecogs.com/svg.image?T=\frac{1}{\beta}"></p> <p style="text-align: justify;">Questa definizione ha un significato operativo: <span class="katex"><span class="katex-mathml">β</span></span> misura quanto forte è il vincolo in unità di “nats per unità di costo”, mentre <span class="katex"><span class="katex-mathml">T</span></span> misura il contrario, ovvero “costo per nat”. È un puro cambio di unità nella relazione coniugata.</p> <p style="text-align: justify;">Con tale definizione si ottiene la relazione differenziale:</p> <p style="text-align: center;"><img title="\beta\frac{dS_{dyn}}{dr}=-\frac{A}{r^2}\Rightarrow\frac{U(r)}{dr}=T\frac{dS_{dyn}}{dr}\Rightarrow F(r)=T\frac{dS_{dyn}}{dr}" src="https://latex.codecogs.com/svg.image?\beta\frac{dS_{dyn}}{dr}=-\frac{A}{r^2}\Rightarrow\frac{U(r)}{dr}=T\frac{dS_{dyn}}{dr}\Rightarrow&space;F(r)=T\frac{dS_{dyn}}{dr}"></p> <p style="text-align: justify;" data-start="12037" data-end="12600">La struttura informazionale risultante ha quindi una lettura precisa: la misura geometrica <span class="katex"><span class="katex-mathml"><img title="r^2" src="https://latex.codecogs.com/svg.image?r^2"></span></span> introduce un contributo inevitabile al surprisal totale, che riflette la crescita combinatoria dei microstati geometrici; il potenziale <span class="katex"><span class="base"><span class="mord mathnormal">A</span><span class="mord">/</span><span class="mord mathnormal">r</span></span></span> entra come costo che, tramite il moltiplicatore duale <span class="katex"><span class="katex-mathml">β</span></span>, induce un termine <img title="1/r^2" src="https://latex.codecogs.com/svg.image?1/r^2"> nel gradiente informazionale dinamico; la parte “di forza” associata al potenziale coincide con il gradiente negativo del costo e può essere riscritta come gradiente di informazione dinamica riscalato dal fattore <span class="katex"><span class="katex-mathml">T=1/β</span></span>.</p> <p style="text-align: justify;" data-start="12602" data-end="13182" data-is-last-node="" data-is-only-node="">Questo conclude il ragionamento: partendo da una misura <img title="\mu(r)=Cr^2" src="https://latex.codecogs.com/svg.image?\mu(r)=Cr^2"> e imponendo un potenziale informazionale <span class="katex"><span class="katex-mathml">U(r)=A/r</span></span>, la procedura di minima KL conduce a una famiglia <img title="p_{\beta}(r)" src="https://latex.codecogs.com/svg.image?p_{\beta}(r)"><span class="katex"><span class="mord"><span class="vlist-r"><span class="vlist-s">​</span></span></span></span>, da cui si ricava in modo trasparente il surprisal <img title="S_{\beta}" src="https://latex.codecogs.com/svg.image?S_{\beta}"><span class="katex"><span class="mord"><span class="vlist-r"><span class="vlist-s">​</span></span></span></span> e il suo gradiente; separando il contributo geometrico della misura si ottiene un gradiente informazionale dinamico proporzionale a <span class="katex"><span class="katex-mathml">−A/r2</span></span>, e si mostra come tale gradiente sia direttamente collegato alla derivata del potenziale tramite il parametro duale <span class="katex"><span class="katex-mathml">β</span></span> (o il fattore di conversione <span class="katex"><span class="katex-mathml">T=1/β</span></span>).</p>