Blog

On Hermitian Operators

The second postulate of quantum mechanics states: “To every observable in classical mechanics corresponds a linear and Hermitian operator in quantum mechanics“. The third then continues entering the details of the relationship between this operator and the associated observable, and finally on how the original wave function changes following the measurement of the observable,

The first time I came across this relationship, I had the feeling of being in front of something magical. How could observables be associated only with hermitian operators?


Certainly the Hermitian operators have only real eigenvalues ​​and this is necessary if we want these eigenvalues ​​to be the measurable values ​​for the observable. But how can you be sure that this operator exists for any observable?
Things became clearer to me by reading the first chapters of the book “Principles of Quantum Mechanics” by professor R. Shankar, in which the author deals with the case of a particle that can only move along an x ​​axis. At each position x we ​​naturally associate a ket |x> which (being in the continuous case) can be imagined as a Dirac pulse in x itself.

More precisely, the following relationships apply:

Any wave function can be expressed as a function of x and we know that the probability of finding the particle in the interval [x, x + dx] is equal to

We also know that

can be expressed as “superposition” of the | x>.
Is there a way to relate the measurable position x with the relative state | x> via a linear operator? The answer is yes and it is through an X operator such that

where X is such that

It is a clearly Hermitian operator whose eigenvalues ​​and associated eigenvectors are x and | x> very simply. Whatever the orthonormal basis of the Hilbert space in which we decide to express X and | x>, the relationship just seen will always be worth:

But what we have seen for position x can be repeated for any observable. No observable is “better” then the others!

The presence therefore of a Hermitian linear operator associated with an observable (whose eigenvalues ​​and eigenstates have the well-known meaning) is therefore not so “magic”.

The postulate that the wave function is the same for all observables and that associated eigenstates bases belong to the same Hilbert space, this is the real magic of Quantum Mechanics!

Sovrapposizione degli stati energetici di un elettrone in un atomo

Dialogo tra Susana Cooper e Daneel Olivar, appassionati studenti di fisica.

Erano le sei di sera, quando, ormai stanco dopo un pomeriggio di studio in biblioteca, mi stavo preparando per rientrare in appartamento. In quel momento entrò nell’aula Susan (Cooper) e mi si avvicinò velocemente; mi guardò dritto negli occhi e sotto voce mi chiese se avevo 10 minuti da dedicarle. Quindi mi condusse attraverso diversi corridoi in un’aula che non avevo mai visto prima e una volta lì mi disse che voleva parlarmi di un problema di fisica che credeva di avere finalmente risolto. Non che questo problema non fosse già stato risolto da moltissimo tempo, ma quando si imbatteva in un argomento che la affascinava, le piaceva provare a venirne a capo da sola.

SUSAN: qualche tempo fa ho seguito una lezione di meccanica quantistica relativamente alla quantizzazione dell’energia di un elettrone in orbita intorno ad un nucleo atomico.

DANEEL: ok Susan. L’ho seguita anch’io e mi era sembrata molto chiara oltre che interessante.

SUSAN: ricordi cosa accadde verso la fine?

DANEEL: non ricordo niente di particolare, ad essere sincero.

SUSAN: ad un certo punto uno studente ha chiesto se l’elettrone potesse trovarsi in una sovrapposizione di stati di energia. E il professore ci ha invitati a provare a dare una risposta al quesito.

Ci fu una brevissima pausa.

DANEEL: capisco. E naturalmente tu, non hai potuto evitare di lanciarti in questa sfida.

SUSAN: ormai mi conosci Daneel.

Ci scambiammo uno sguardo di intesa con un impercettibile sorriso.

DANEEL: ora sono curioso e tutt’orecchi.

SUSAN: non sono sicurissima che la soluzione che ho trovato sia corretta, ho ancora qualche dubbio, per questo vorrei una tua opinione.

DANEEL: allora forza!

SUSAN : per prima cosa, l’equazione di Schrödinger non vieta in alcun modo questa possibilità, essendo una equazione lineare: 2 eigenstate dell’energia corrispondono a 2 onde stazionarie, entrambe soluzioni dell’equazione, quindi una qualunque loro sovrapposizione ne sarà ancora una soluzione.

Il problema riguarda un altro aspetto. In generale, qualunque corpo ha un’energia data dalla famosa equazione

E = \sqrt{p^2 c^2 + {m_0}^2 c^4}

dove m_0 è la massa a riposo del corpo, p la sua quantità di moto relativistica e c la velocità della luce; essa sostituisce la vecchia energia cinetica E_k = \frac{1}{2}m_0v^2. Ora, immaginiamo che il corpo in questione sia un atomo di idrogeno e che esso non sia immerso in alcun campo potenziale, in altri termini che non sia sottoposto ad alcuna forza esterna. Immaginiamo poi che il suo elettrone sia in una sovrapposizione di stati di energia. Siccome l’energia dell’atomo include anche quella dell’elettrone, allora anche l’atomo si trova in una sovrapposizione di stati di energia. Ma tale sovrapposizione può essere attribuita ad una eventuale sovrapposizione di stati legati alla sua quantità di moto?

DANEEL: hmmm…a prima vista direi di no.

SUSAN: anch’io la penso così. L’orbitale o eigenstate energetico assunto dall’elettrone riguarda unicamente la relazione tra nucleo ed esso, nulla ha a che fare con il moto nel suo complesso dell’atomo. Se un atomo è fermo all’istante t e un fotone viene assorbito dal suo elettrone, che quindi si sposta su un orbitale con maggiore energia, questo incremento vale tanto per il sistema di riferimento originario rispetto a cui l’atomo era fermo, quanto per un riferimento rispetto a cui l’atomo continui a risultare fermo! E’ un incremento intrinseco.

DANEEL: capisco.

SUSAN: ma allora tale sovrapposizione dovrebbe essere attribuita alla sua energia a riposo, cioè m_0c^2. In altre parole la sua stessa massa a riposo dovrebbe trovarsi in una sovrapposizione di stati! Ma nell’equazione di Schrödinger la massa è una ed una sola, e lo è anche nella sua versione relativistica per particelle con spin 0, l’equazione di Klein Gordon.

Ci fu una pausa di alcuni secondi. Quindi le dissi…

DANEEL: se il tuo ragionamento è corretto, allora un elettrone non può trovarsi mai in una sovrapposizione di stati energetici.

SUSAN: esatto!

DANEEL: E che mi dice del caso vi sia più di un elettrone intorno al nucleo?

SUSAN: in tal caso la funzione d’onda della nuvola di elettroni è data dal prodotto tensore delle funzioni d’onda dei singoli elettroni. Quindi basta che un solo elettrone sia contemporaneamente in più di uno stato di energia perché la nuvola di elettroni e quindi l’atomo nella sia interezza si trovi in una sovrapposizione di stati di energia, contraddicendo il fatto che l’energia intrinseca deve essere una ed una sola, come detto prima.

Fisica del ciclista in discesa

Il mio amico Valerio, appassionato ciclista, mi ha inviato di recente questo link ad un pdf in cui si spiega perché la velocità in discesa (senza pedalare) aumenti con l’aumentare della massa del ciclista. Ho trovato l’argomento molto interessante e ho voluto ragionarci un po’ su. Di seguito i miei pensieri su carta. La mia scrittura, persino in stampatello è orribile, devo ammetterlo, ma spero comunque si riescano a seguire i ragionamenti sviluppati, che sono un po’ diversi da quelli del pdf citato.

Quadrivettore Flusso del Numero di particelle: dialogo tra 2 studenti

Daneel Olivar si trovava nella biblioteca del dipartimento di fisica. Il pomeriggio era quasi giunto al suo termine e molti studenti se n’erano già andati, probabilmente per dirigersi verso la mensa dove cenare. Di fronte a lui, due tavoli più avanti, si trovava una studentessa, Susan Cooper, più avanti di lui nei corsi di un anno.

Daneel sapeva che Susan aveva superato piuttosto bene l’esame di Relatività Generale ma soprattutto che la sua passione per la fisica moderna era uguale se non superiore alla sua. Spesso aveva notato altri studenti andare a chiederle spiegazioni su argomenti che non avevano capito; i loro sguardi, dopo averle parlato, mostravano sempre un’evidente soddisfazione. E lui, che stava seguendo il corso di relatività generale con il professor Baley, aveva un dubbio a proposito del “Quadrivettore Flusso del Numero di particelle”, ma non poteva rivolgersi a lui, visto che sarebbe stato via per un giro di conferenze ancora per una settimana. Avrebbe potuto pazientare un po’ e al suo rientro chiedergli un incontro, ma non vedeva l’ora di scogliere quel dubbio che si frapponeva tra lui e l’argomento successivo, lo “Stress Energy Tensor”.

Così Daneel decise di rivolgersi a Susan, pur non conoscendola di persona. Si rese però conto, proprio quando stava per farsi avanti, di quanto lei fosse immersa in qualcosa di difficile. Poi, quando ormai non erano rimasti nella sala della biblioteca che loro due, mentre la vide alzarsi e dirigersi verso la lavagna bianca che si trovava in fondo alla sala, si fece coraggio e alzandosi dalla sedia disse: “Scusa, posso disturbarti un attimo? Sono uno studente del terzo anno. Mi chiamo Daneel Olivar”.

SUSAN – Ciao! Non mi disturbi affatto. Io mi chiamo Susan Cooper. Come posso esserti di aiuto?

DANEEL – Ho un dubbio a proposito del “Quadrivettore Flusso del Numero di particelle” e non trovo il modo di risolverlo. So che tu hai già studiato l’argomento l’anno scorso e volevo chiederti se potessi aiutarmi a venirne a capo.

SUSAN – Ok, ci posso provare. Ho giusto una curiosità prima di entrare nell’argomento. Perché io? La tua è una scelta casuale dettata solo dal sapere che ho già seguito il corso di Relatività Generale?

DANEEL – No Susan. Il fatto è che non ho potuto fare a meno di notare con quanta passione studi la fisica e quanti studenti si rivolgano a te per chiarire i propri dubbi.

SUSAN – Capisco… Allora Daneel, dimmi di che si tratta. Sono curiosa!

DANEEL – Il mio dubbio riguarda la generalizzazione della misura del flusso del numero di particelle attraverso una qualunque superficie. Ho compreso i casi “normali”, cioè quelli in cui le superfici in questione sono quelle classiche, cioè con una delle coordinate costanti, che poi corrispondo alle componenti del quadrivettore stesso in un sistema di riferimento inerziale, ma non capisco, se non in modo intuitivo, come si sia giunti alla sua generalizzazione utilizzando il prodotto scalare tra il quadrivettore stesso e il vettore unitario normale alla superficie.

SUSAN – Ok Daneel. Ti è chiara la generalizzazione del concetto di superficie attraverso l’uso di un campo scalare \phi, utilizzando l’equazione \phi(T, x, y, z) = costante? E successivamente attraverso la definizione dello “unit normal one-form”?

DANEEL – Credo di sì.

SUSAN – Prova allora a raccontarmelo, come se dovessi spiegarlo a qualcuno che ancora non conosce l’argomento.

Susan notò un’espressione lievemente perplessa sul volto di Daneel.

SUSAN – Daneel, non voglio farti un esame, ci mancherebbe! Mi serve capire qual è il tuo grado di comprensione di ciò che sta alla la base del problema che mi hai descritto.

A questo punto, Daneel prese un pennarello e si mise alla lavagna…

DANEEL – Capisco! Dunque, possiamo in generale definire una superficie S come il luogo dei punti nel nostro “manifold”, lo spazio-tempo, che soddisfano l’equazione \phi(T, x, y, z) = costante, come hai già ricordato tu. In effetti il flusso del numero di particelle attraverso, per esempio una superficie con x costante, è coperta da questa definizione: basta considerare un campo che dipenda solo dalla coordinata x. Analogamente per le altre coordinate.
Ora se si considera un punto P su tale superficie e il gradiente di \phi in P, cioè \widetilde{d\phi}, e se \vec{V} è un vettore in P tangente alla superficie S, allora sicuramente \widetilde{d\phi} (\vec{V}) = 0.

SUSAN – E per quale motivo dovrebbe essere necessariamente \widetilde{d\phi} (\vec{V}) = 0?

DANEEL – Dire che \vec{V} è tangente ad S in P, significa che esiste una curva \gamma appartenente ad S e passante per P che definisce \vec{V}. Nel senso che per qualunque campo f \in C^\infty(M):

\vec{V} (f) = (f \circ \gamma)'(\lambda_0), essendo \gamma( \lambda_0 ) = P

e siccome \phi è costante lungo tutta \gamma, ne consegue che \vec{V} (\phi) = 0.

Una impercettibile espressione di soddisfazione apparve sul volto della ragazza.

SUSAN – Ok Daneel! Vai pure avanti.

DANEEL – \widetilde{d\phi} (\vec{V}) = \vec{V} ( d\phi ) = 0 per quanto appena visto.

Se ora usiamo il tensore metrico di Lorentz e supponiamo di essere in un sistema di coordinate inerziale, in cui quindi il tensore si può rappresentare come \eta_{\alpha\beta} = \begin{bmatrix}-1 & 0 & 0 \\0 & 1 & 0\\0 & 0 & 1 \end{bmatrix}, possiamo derivare un vettore da \widetilde{d\phi} che chiameremo \vec{d\phi}, definito come segue in termini delle sue componenti rispetto alla base indotta in P per il sistema inerziale in oggetto: (-\Phi_0, \Phi_1, \Phi_2 ,\Phi_3), essendo \Phi_i le componenti di \widetilde{d\phi} rispetto alla base duale.

Fece una piccola pausa e si voltò verso Susan, che continuava a guardare la lavagna assorbita.

Quindi <\vec{d\phi} \bullet  \vec{V}> = 0, visto che <\vec{V_1} \bullet  \vec{V_2}> := \eta( \vec{V_1} ,  \vec{V_2}) e che \eta( \vec{d\phi}, \vec{V}) = \widetilde{d\phi} (\vec{V}).

Ora possiamo finalmente defire il “normal unit one-form” e il suo corrispondente “normal unit vector”:

\widetilde{n} := \frac{\widetilde{d\phi}}{|\widetilde{d\phi}|} e \hat{n} :=  \frac{\vec{d\phi}}{|\vec{d\phi}|}

dove |\widetilde{d\phi}| = |\vec{d\phi}| := \sqrt{|\eta( \vec{d\phi}, \vec{d\phi} )|}.

SUSAN – Ottimo Daneel! Sei stato chiarissimo…

DANEEL – Non ci vuole ora molto per verificare che, scelto \phi in modo da definire una superficie “classica”, cioè una di quelle con x_i = costante, <\vec{N} \bullet \hat{n}> ci dà proprio il flusso del numero di particelle attraverso la superficie unitaria definita da \hat{n}, dove \vec{N} è il quadrivettore flusso del numero di particelle.

SUSAN – Direi che ora ci siamo. Tornando alla tua domanda iniziale…

DANEEL – Mi chiedevo come si potesse verificare che il flusso del numero di particelle attraverso una qualunque superficie unitaria sia effettivamente dato da <\vec{N} \bullet \hat{n}>.

Fece una piccola pausa…

In pratica, per essere più concreti, mentre è relativamente facile dedurre il flusso attraverso superfici classiche, le cose si complicano parecchio quando si considerino superfici in cui spazio e tempo variano insieme.

SUSAN – Sono d’accordo con te, Daneel. Se cerchiamo di arrivarci con un ragionamento “classico” è molto dura. Tuttavia la formula che stiamo valutando, cioè <\vec{N} \bullet \hat{n}>, è basata interamente su tensori. Il prodotto scalare altro non è che l’applicazione del tensore metrico, e \vec{N} e \hat{n} sono due vettori.

DANEEL – E quindi è invariante rispetto ad un cambio di sistema di coordinate…

SUSAN – Esatto!

DANEEL – Adesso capisco. Data una superficie che localmente, nel punto in cui vogliamo valutare il flusso di particelle attraverso di essa, risulti attraversare contemporaneamente spazio e tempo rispetto al sistema di coordinate scelto, possiamo sceglierne un altro rispetto a cui la superficie, almeno in un intorno sufficientemente piccolo del nostro punto, sia “standard”, cioè con una delle 4 coordinate fisse.

SUSAN – Esatto. Scegliendo opportunamente la velocità del nuovo sistema di riferimento e con una opportuna rotazione degli assi spaziali rispetto al sistema originario possiamo sempre riportarci in un caso “standard”.

DANEEL – E in tale sistema vale senz’altro l’equazione Fl =<\vec{N} \bullet \hat{n}> dove con Fl intendo il flusso (del numero di particelle attraverso la superficie nel punto P). Ma siccome esso, Fl, non dipende dal sistema di coordinate e anche <\vec{N} \bullet \hat{n}> non vi dipende, la formula ha carattere generale, indipendente dal sistema di coordinate scelto.

SUSAN – Proprio così Daneel! Questa è la potenza dei Tensori, oggetti matematici meravigliosi.

Daneel rimase in silenzio per un po’. Sembrava ci fosse ancora qualcosa che non gli tornava.

SUSAN – Ho la sensazione che ci sia ancora qualcosa che non ti convince, vero?

DANEEL – Tutto torna da un punto di vista prettamente matematico, tuttavia…è sul significato fisico del flusso del numero di particelle quando la superficie considerata attraversa tempo e spazio, che ho un dubbio. Come ben spiegato nel volume di Bernard Schutz su cui sto studiando (“A first course in General Relativity”), un’interpretazione di carattere generale del flusso prevede di considerare il numero di “world line” associate alle particelle che attraversano una sezione unitaria della superficie, che nel nostro caso, essendo lo spazio-tempo quadridimensionale, corrisponde ad un volume unitario. Tanto è vero che con questa interpretazione la densità di particelle, cioè la prima componente del quadrivettore flusso, può essere interpretata in modo analogo al flusso attraverso una superficie strettamente spaziale (per esempio con x costante)…

SUSAN – Se non ho capito male, il tuo dubbio riguarda il modo in cui si debba calcolare “l’area” della superficie considerata nel caso ci trovassimo in un sistema di riferimento in cui essa attraversi spazio e tempo contemporaneamente, giusto Daneel?

DANEEL – Proprio così Susan! Mi stupisce come tu capisca al volo i problemi…ma forse è perché ci avevi già pensato…

SUSAN – In effetti sì…sono una che scava e non si accontenta fino a che tutto non torna…direi come te, Daneel.

I due si scambiarono un breve sguardo d’intesa.

Nel nostro caso, più che di area dovremmo parlare di volume, come già ricordavi tu. Ora immagina di traslare, ruotare e modificare la velocità del nostro sistema di riferimento iniziale in modo da ricondurci ad un flusso “standard”, in pratica una delle 4 componenti del quadrivettore flusso del numero di particelle. Scegliamo ora il volumetto per il flusso come un cubetto i cui spigoli rappresentativi siano quindi tra loro ortogonali e di lunghezza piccola a piacere. Quando parliamo di lunghezza o di ortogonalità tra vettori nello spazio tempo, dobbiamo usare il tensore metrico di Lorentz! Ed è questo il punto cruciale: usando tale tensore, come è naturale, il nostro cubetto si mantiene tale in qualunque altro riferimento, sia in termini di volume sia di ortogonalità tra i suoi spigoli rappresentativi. Grazie quindi al tensore metrico, possiamo scegliere il nostro cubetto di volume desiderato, in qualunque sistema di riferimento!

DANEEL – Fantastico Susan! Non ho più dubbi…grazie mille!

Trasformazioni di Lorentz: dialogo sulla Coordinata Y

Il professore E. Baly, ha appena fatto accomodare nel suo studio D. Olivar, studente che sta seguendo il suo corso di Relatività Speciale, per parlare di un dubbio che Olivar ha a proposito della coordinata Y nelle trasformazioni di Lorentz. Baly ha notato sin dal primo giorno con quanta attenzione lo studente segua le sue lezioni…

Baly: dimmi Daneel a cosa devo questa tua visita?

Daneel: come sa sto seguendo il suo corso sulla Relatività Speciale e ho compreso bene il ragionamento con cui si ricavano le trasformazioni di Lorentz per 2 sistemi di coordinate in moto uniforme l’uno rispetto all’altro lungo i rispettivi assi x e x’:

X' = (X-VT) \gamma
T' = (T-VX) \gamma

dove T=ct, V=v/c , e \gamma=1/\sqrt{1-V^2} essendo v la velocità un sistema rispetto all’altro.

Baly: molto bene.

Daneel: il mio dubbio riguarda le altre coordinate spaziali, Y,Y’, Z e Z’. Intuisco la validità della relazione Y=Y', ma mi piacerebbe capire come si possa dimostrare in modo rigoroso.

Baly: capisco Daneel. E’ una buona cosa per un aspirante fisico come te, cercare di capire in profondità questioni che spesso si tende a dare per scontate. Spero tu mantenga anche in futuro questa voglia di capire; è l’essenza di un buon scienziato.

Daneel: grazie!

Baly: venendo alla tua domanda, ecco come possiamo procedere per concludere senza dubbi la validità della relazione Y=Y'. Partiamo sempre dal presupposto che le origini dei due sistemi di coordinate O e O' siano associate allo stesso evento: in pratica l’osservatore O’ del sistema S’ incontra l’osservatore O del sistema S quando i rispettivi orologi segnano entrambi il tempo 0; niente di diverso da quanto già fatto per ricavare le trasformazioni di Lorentz che mettono in relazione X e T con X' e T'.

Immaginiamo ora che O’ accenda una torcia elettrica rivolta verso l’alto, cioè nella direzione del suo asse Y’, proprio quando incontra O. Come si muove per O’ il raggio di luce emesso dalla torcia, o meglio per essere più precisi il suo estremo superiore?

Daneel: X’ non varia mentre Y’ = T’.

Baly: esatto. La sua velocità è ovviamente 1 (c con coordinate X’ e t’). E come si muove rispetto ad O?

Daneel: lungo l’asse X si muove con velocità V, ma lungo Y non saprei…tuttavia la sua velocità deve essere 1 anche nel sistema S, per i 2 postulati su cui si fonda la teoria: il principio di relatività e il fatto che sia legge di natura che la luce viaggi con velocità costante 1.

Baly: molto bene! Ora, visto che il raggio di luce deve seguire una traiettoria rettilinea anche in S, converrai con me che dette X ed Y le coordinate in S del suo estremo superiore all’istante T, vale l’equazione: \sqrt{X^2+Y^2}=T.

Daneel: la traiettoria è rettilinea anche in S visto che la velocità lungo X è V, quella complessiva è 1 e quindi quella lungo Y non può che essere costante. Giusto?

Baly: esatto Daneel! Ora sfruttiamo le trasformazioni di Lorentz che ci dicono che T=(T'-VX')\gamma=T'\gamma, visto che X’ è sempre 0. Ma poiché Y'=T', segue che T=\gamma Y'. Puoi andare avanti tu ora…

Daneel: ok. Eleviamo al quadrato entrambi i termini dell’equazione \sqrt{X^2+Y^2}=T e sostituendo a T quanto appena trovato, abbiamo che:
X^2+Y^2=T^2=\gamma^2 Y'^2,
ma X=VT da cui X^2=V^2 T^2 = V^2 \gamma^2 Y'^2.
Quindi sostituendo questo valore ad X nella precedente equazione otteniamo:
V^2 \gamma^2 Y'^2 + Y^2 =\gamma^2 Y'^2 e quindi Y^2 =  Y'^2  \gamma^2 (1- V^2 ) = Y'^2.

Baly: questo ci dice che Y’ e Y coincidono in termini di valore assoluto, cioè al netto del segno…

Daneel: beh professore, direi che è evidente che il raggio di luce si muove verso l’alto anche per l’osservatore O.

Baly: sono d’accordo con te!

Daneel: tuttavia ho ancora un dubbio. Abbiamo appena dimostrato l’uguaglianza di Y e Y’ per l’estremità di un raggio di luce che si muova verso l’alto (direzione Y’) rispetto ad S’ e per simmetria tale corrispondenza vale anche nel caso di una raggio che si muova solo in direzione Y rispetto ad S. Ma noi vogliamo dimostrare che Y=Y' per qualnque evento…

Baly: giustissimo! Per fare questo usiamo l’esempio del treno in movimento rispetto alla banchina, lo stesso usato da Einstein per dimostrare che non esiste un tempo assoluto. Ci basterà dimostrare che l’altezza dei vagoni del treno in S’ è la stessa per S. Sei d’accordo?

Daneel: direi di sì, visto che per qualunque evento possiamo immaginare un vagone la cui altezza corrisponda alla coordinata Y di esso: l’appartenenza di un evento al tetto del vagone non dipende certo dal sistema di coordinate da cui si osserva!

Baly: ebbene…

Daneel: ma certo! Lo abbiamo appena dimostrato con il raggio di luce emesso verso l’alto da O’. L’evento che corrisponde al raggio che incontra il tetto del vagone ha stessa altezza sia per S sia per S’, quindi senz’altro il vagone ha stessa altezza per i 2 sistemi di coordinate!

Baly: molto bene Daneel! Inutile dire che puoi sempre chiedere di me per qualunque dubbio.

Daneel: grazie professore…sarà un piacere!

Riemann Curvature Tensor and Covariant Derivative

This post is is aimed at all those who studied general relativity on the book “A First Course in GENERAL RELATIVY” by Bernard Schutz, and found themselves in trouble reading the chapter 6.5 about the curvature tensor where the author explains the relation between the covariant derivative and the Riemann tensor itself.

The crucial question is the first mathematical relationship: \nabla_\alpha \nabla_ \beta V^ \mu = ({V^ \mu}_{;\beta})_{, \alpha} + {\Gamma^ \mu }_ {\sigma \alpha} {V^ \sigma}_{;\beta } - { \Gamma ^ \sigma }_{ \beta \alpha } {V^ \mu}_{; \sigma }

How did he get it? I spent 2 hours getting out of it! All subsequent steps are based on this first relationship, so it is crucial to understand it. Obviously some readers might accept this relationship and continue anyway, but I believe there is nothing more beautiful than grasping every single passage given the beauty of the subject.

And now let’s start proving this relationship.

First of all, the correct interpretation of \nabla_\alpha \nabla_ \beta V^ \mu is (\nabla_\alpha \nabla_ \beta V)^ \mu, otherwise we would have the simple equivalence: \nabla_\alpha \nabla_ \beta V^ \mu = \frac{ \partial^2V^ \mu }{ \partial x^ \alpha \partial x^ \beta }, which is not so interesting. So we have to prove that:

(\nabla_\alpha \nabla_ \beta V)^\mu = ({V^ \mu}_{;\beta})_{, \alpha} + {\Gamma^ \mu }_ {\sigma \alpha} {V^ \sigma}_{;\beta } - { \Gamma ^ \sigma }_{ \beta \alpha } {V^ \mu}_{; \sigma }

Now consider the tensor field of type (1\;1): T(\tilde{ \omega }, \vec{X}) :=  \tilde{ \omega } (\nabla_{ \vec{X} }  \vec{V}) where:

  • \tilde{ \omega } is a covector field
  • \vec{X} is a vector field
  • \vec{V} is a given vector field

For a tensor of this type the following relation holds (which can be found using Leibniz rules):

{T^ \mu}_{ \nu; \beta } = {T^ \mu}_{ \nu, \beta } + {T^ \alpha}_{ \nu}\;{\Gamma^ \mu}_{ \alpha \beta } -  {T^ \mu}_{ \alpha} \;{\Gamma^ \alpha}_{ \nu \beta }

where {T^ \mu}_{ \nu; \beta } = {(\nabla_{\beta} T)^{\mu}}_{\nu} and {T^ \mu}_{ \nu, \beta } =  \nabla_{\beta} ({T^{\mu}}_{\nu}).

In the case of the tensor just defined, the relation seen becomes:

{({\nabla_\beta T})^\mu}_\nu = {V^\mu}_{;\nu,\beta} +  {V^\alpha}_{;\nu}\; {\Gamma^ \mu}_{ \alpha \beta } -   {V^\mu}_{;\alpha}\; {\Gamma^ \alpha}_{ \nu \beta }

But {({\nabla_\beta T})^\mu}_\nu are also the components of the tensor U, of type (1\;2):

U( \tilde{ \omega }, \vec{X}, \vec{Y}) := (\nabla_Y T)( \tilde{ \omega }, \vec{X} )

In fact {U^\mu}_{\nu\beta} = (\nabla_\beta T)( \tilde{ \omega }^\mu, \vec{e}_\nu ) =  {({\nabla_\beta T})^\mu}_\nu.

The Christoffel symbols (\Gamma's) are 0 in the coordinate system used for parallel transport on which the covariant derivative is based, therefore in that coordinate system:

{U^\mu}_{\nu\beta} =  {({\nabla_\beta T})^\mu}_\nu = {V^\mu}_{;\nu,\beta}

Consider now another tensor Z of type ( 1\;2) as U, defined as folllows:

Z(  \tilde{ \omega }, \vec{X}, \vec{Y} ) := \omega(\nabla_{\vec{Y}}\nabla_{\vec{X}} \vec{V}).

In general (for a generic frame):

Z(\omega^{\mu}, \vec{e}_{\nu}, \vec{e}_{\beta}) = {Z^{\mu}}_{\nu \beta} = \omega^{\mu}(\nabla_{\beta}\nabla_{\nu} \vec{V}) = dx^{\mu}(\nabla_{\beta}({V^{\alpha}}_{;\nu}\; \frac{ \partial }{ \partial x^{\alpha}})) =  dx^{\mu}( {V^{\alpha}}_{;\nu,\beta}\; \frac{ \partial }{ \partial x^{\alpha}} +  {V^{\alpha}}_{;\nu}\; \nabla_{\beta}  \frac{ \partial }{ \partial x^{\alpha}} ) = dx^{\mu}( {V^{\alpha}}_{;\nu,\beta}\; \frac{ \partial }{ \partial x^{\alpha}} +  {V^{\alpha}}_{;\nu}\; {\Gamma^{\sigma}}_{\alpha\beta}\; \frac{ \partial }{ \partial x^{\sigma}} ) =  dx^{\mu}( {V^{\alpha}}_{;\nu,\beta}\; \frac{ \partial }{ \partial x^{\alpha}} +  {V^{\sigma}}_{;\nu}\; {\Gamma^{\alpha}}_{\sigma\beta}\; \frac{ \partial }{ \partial x^{\alpha}} ) =  dx^{\mu}( ({V^{\alpha}}_{;\nu,\beta} +  {V^{\sigma}}_{;\nu}\; {\Gamma^{\alpha}}_{\sigma\beta})\; \frac{ \partial }{ \partial x^{\alpha}} )  =  {V^{\mu}}_{;\nu,\beta} +  {V^{\sigma}}_{;\nu}\; {\Gamma^{\mu}}_{\sigma\beta}

Its components in the coordinate system used as the parallel transport for the covariant derivative computation:

{Z^{\mu}}_{\nu \beta}  =  {V^{\mu}}_{;\nu,\beta} +  {V^{\sigma}}_{;\nu}\; {\Gamma^{\mu}}_{\sigma\beta} = {V^{\mu}}_{;\nu,\beta}

because \Gamma's are 0.

Ultimately {U^\mu}_{\nu\beta} =  {Z^{\mu}}_{\nu \beta} in this special coordinate system, and because they are tensors, it follows that their components are the same in any other coordinate system:

(\nabla_\beta \nabla_ \nu V)^ \mu  =  {V^\mu}_{;\nu,\beta} +  {V^\alpha}_{;\nu}\; {\Gamma^ \mu}_{ \alpha \beta } -   {V^\mu}_{;\alpha}\; {\Gamma^ \alpha}_{ \nu \beta }

But here I have a problem:

{Z^{\mu}}_{\nu \beta}  =  (\nabla_\beta \nabla_ \nu V)^ \mu = {V^{\mu}}_{;\nu,\beta} +  {V^{\alpha}}_{;\nu}\; {\Gamma^{\mu}}_{\alpha\beta}

in the general case, as seen a few rows up. And this would imply that:

{V^\mu}_{;\alpha}\; {\Gamma^ \alpha}_{ \nu \beta } = 0

Surely I’ve done some mistake…

The problem is that Z is not a tensor; indeed it’s not linear on the second argument (‘a’ is a scalar field):

Z(  \tilde{ \omega }, a \vec{X}, \vec{Y} ) =  \omega(\nabla_{\vec{Y}}\nabla_{a\vec{X}} \vec{V}) =  \omega(\nabla_{\vec{Y}}(a\nabla_{\vec{X}} \vec{V})) =  \omega((\nabla_{\vec{Y}}a)\;\nabla_{\vec{X}} \vec{V} +a  (\nabla_{\vec{Y}}  \nabla_{\vec{X}} \vec{V} ) ) =   \omega((\nabla_{\vec{Y}}a)\;\nabla_{\vec{X}} \vec{V}) + a \omega( \nabla_{\vec{Y}}  \nabla_{\vec{X}} \vec{V} )

Therefore, U and Z are not comparable!

The only correct expression is:

(\nabla_\beta \nabla_ \nu V)^ \mu  =   {V^{\mu}}_{;\nu,\beta} +  {V^{\sigma}}_{;\nu}\; {\Gamma^{\mu}}_{\sigma\beta}

Why the columns of the Fast Fourier Transform are orthogonal

The Fast Fourier Transform is an algorithm based on a complex matrix, which we’ll call F. It’s defined as follows:

F=\begin{bmatrix}1 & 1 & 1 &\cdots & 1 \\1 & w & w^2 & \cdots & w^{n-1}\\1 & w^2 & w^4 & \cdots & w^{2(n-1)} \\\cdots & \cdots & \cdots & \cdots & \cdots\\1 & w^{n-1} & w^{2(n-1)} & \cdots & w^{(n-1)^2}\end{bmatrix}

More briefly we have that element f_{ij} of F is equal to w^{ij}, with 0<=i,j<=n-1,
where w is the complex number: w=e^{i\frac{2\pi}{n}}.

We want to show why any column of F is orthogonal to any other.

Consider 2 generic columns: C_j and C_k of F, with j<k. The inner product between them is: <C_j, C_k>=\overline{C_j}^TC_k, where with \overline{C_j}^T we mean the transposed conjugate of C_j.

It can be developed as follows:

<C_j, C_k>=\sum_{h=0}^{n-1} \overline{w^{hj}}w^{hk}=\sum_{h=0}^{n-1} (\overline{w^j})^h(w^jw^{k-j})^h}=\sum_{h=0}^{n-1} (\overline{w^j})^h(w^j)^h(w^{k-j})^h}=\sum_{h=0}^{n-1} (w^{k-j})^h}

where (\overline{w^j})^h(w^j)^h = 1 because (w^j)^h has amplitude 1 and if multiplied for its conjugate the result is its amplitude squared, so 1.

We can rewrite the last sum as follows:

<C_j, C_k>=\sum_{h=0}^{n-1} (e^{i\frac{2\pi(k-j)}{n}})^h}

Consider the set of the elements of that sum. What happens if we rotate each of them of an angle \frac{2\pi(k-j)}{n}? Does the set change? It’s simple to see that it doesn’t! The first becomes the the second, the second becomes the third and so on until the last that becomes the first. Hence also the sum result does not change. But the only complex number that does not change after a rotation is 0.

On the Determinant and the Trace of a matrix

Suppose you have a squared matrix A with n rows and columns. Is there a relationship between its eigenvalues and its determinant? And what about its trace?

Determinant of A.

Consider the determinant of \mid A- \lambda I \mid, which is a polynomial of degree n. The values of \lambda that solve the equation \mid A- \lambda I \mid = 0, are the eigenvalues of A, and are n as its degree.
We can write such a polynomial using its roots (its eigenvalues) as follows:
\mid A- \lambda I \mid = (\lambda - \lambda_1)(\lambda - \lambda_2)\cdots(\lambda - \lambda_n)

Its constant term is: (-1)^n \lambda_1\cdots\lambda_n,
but it’s also the value of \mid A- \lambda I \mid with \lambda = 0, which obviously is \mid A \mid.

So \mid A \mid = (-1)^n \lambda_1\cdots\lambda_n.

Trace of A.

If we develop the term of degree n-1 we obtain:
-(\lambda_1+\lambda_2+\cdots\+lambda_n).

For simplicity we consider the case of an 3x3 matrix:

\mid A- \lambda I \mid = \begin{bmatrix}a_{11}-\lambda & a_{12} & a_{13} \\a_{21} & a_{22}-\lambda &  a_{23} \\a_{31} & a_{32} & a_{33}-\lambda \end{bmatrix}

It can be decomposed as follows:

\mid A- \lambda I \mid = \begin{bmatrix}a_{11} & a_{12} & a_{13} \\a_{21} & a_{22}-\lambda & a_{23} \\a_{31} & a_{32} & a_{33}-\lambda \end{bmatrix}+\begin{bmatrix}-\lambda & 0 & 0 \\a_{21} & a_{22}-\lambda & a_{23} \\a_{31} & a_{32} & a_{33}-\lambda \end{bmatrix}

Now we can apply the decomposition on the second row of the second matrix:

\begin{bmatrix}-\lambda & 0 & 0 \\a_{21} & a_{22}-\lambda & a_{23} \\a_{31} & a_{32} & a_{33}-\lambda \end{bmatrix}=\begin{bmatrix}-\lambda & 0 & 0 \\a_{21} & a_{22} & a_{23} \\a_{31} & a_{32} & a_{33}-\lambda \end{bmatrix}+\begin{bmatrix}-\lambda & 0 & 0 \\0 & -\lambda & 0 \\a_{31} & a_{32} & a_{33}-\lambda \end{bmatrix}

And finally we can apply the decomposition on the third row of the last matrix:


\begin{bmatrix}-\lambda & 0 & 0 \\0 & -\lambda & 0 \\a_{31} & a_{32} & a_{33}-\lambda \end{bmatrix}=\begin{bmatrix}-\lambda & 0 & 0 \\0 & -\lambda & 0 \\a_{31} & a_{32} & a_{33} \end{bmatrix}+\begin{bmatrix}-\lambda & 0 & 0 \\0 & -\lambda & 0 \\0 & 0 & -\lambda \end{bmatrix}

The matrices that give a contribute to the n-1 degree of \mid A- \lambda I \mid are:

D1=\begin{bmatrix}a_{11} & a_{12} & a_{13} \\a_{21} & a_{22}-\lambda & a_{23} \\a_{31} & a_{32} & a_{33}-\lambda \end{bmatrix}

D2=\begin{bmatrix}-\lambda & 0 & 0 \\a_{21} & a_{22} & a_{23} \\a_{31} & a_{32} & a_{33}-\lambda \end{bmatrix}

D3=\begin{bmatrix}-\lambda & 0 & 0 \\0 & -\lambda & 0 \\a_{31} & a_{32} & a_{33} \end{bmatrix}

So their n-1 degree contribute is: (a_{11}+a_{22}+a_{33}).

Generalizing the contribution is: (-1)^{n-1}(a_{11}+\cdots+a_{nn}).

Finally Trace(A)=\sum_1^n a_{ii}=(-1)^n\sum_1^n \lambda_{j}

Projection matrices and least squares

The lesson by Gilbert Strang “Projection matrices and least squares” is very nice and useful (you can find it here), but as often happens with him you have to demonstrate some passages alone.

Now the problem. 

Given a matrix A of real numbers with m rows and n columns, its columns span a vector subspace of  R^{m}, which corresponds to it in case m <= n and at least m columns are linearly independent. Given a vector b in R^{m} not necessarily belonging to the column space of A (C(A)), which is the nearest vector of C(A) to b?

And now we start to investigate…

First consideration.
We can restrict the columns of A just to those that are independents, because they are a basis for C(A) and so they span it all.

Second consideration.
Suppose that a vector p \epsilon C(A) exists such that e=b-p is orthogonal to C(A). In such a case would it be the solution we are looking for? Yes of course. Why?
The reason is very simple: consider any other vector of C(A), that we call p_1, then b=p_1+e_1. Is e_1 longer or shorter than e? It’s longer. Indeed b=p1+(p-p1)+e, but then e1=(p-p1)+e.
Now |e_1|^2=e_1 \cdot e_1=|p-p1|^2+|e|^2+2(p-p1) \cdot e
(where the \cdot stands for the inner product between vectors).
But e is orthogonal to C(A), so (p-p1) \cdot e=0. Finally |e_1|^2 is greater than |e|^2!

But now we have another question: does surely such a vector p exist?
From previous lessons we know that R^m is the union of 2 specific subspaces: the column space of A and the null space of A^T, which is orthogonal to C(A). So any vector  b belonging to R^m can be expressed in a unique way as a linear combination of the union of 2 basis: one from C(A) and one from N(A^T). But the combination from the first base is p and the other is e! So such a projection exists and is unique.

Now we want to find the projection. Is there a way to express it as a function of A and b?
Yes, there is. Consider the vector x of R^n such that Ax=p. We know that b=p+e and that e is orthogonal to C(A).
So e=Ax-b is orthogonal to C(A).This can be expressed using the inner product as follows: (Ax-b)Az=0 for any z belonging to R^n. But then it means that (Ax-b)^TAz = 0 for any z.
As a consequence it means that the transposed vector (Ax-b)^TA must be 0!

So x^TA^TA =b^TA or equivalently A^TAx=A^Tb. But we know that surely such an x exists and that it is unique too: in fact Ax = p, and we chose to limit the columns of A to the only independent ones.

But then it means that A^TA is invertible. So x=(AA^T)^{-1}A^Tb and p=A (AA^T)^{-1}A^Tb, where the matrix P=A (AA^T)^{-1}A^T is called the projection matrix: It allows to get the projection of any b vector in C(A).

An indirect but interesting result is that if the columns of A are independent then A^TA is invertible!

 

The transpose of a matrix multiplied by itself

Suppose A is an m*n matrix with real values. It has a Null Space N(A) and a rank r. Can we infer N(ATA) and its rank?

We know that N(A) is contained in N(ATA), because if Ax = 0 then ATAx = 0. But how can we be sure that no x exists such that Ax != 0 but ATAx = 0?

Ax is a combinations of the columns of A, so it belongs to the columns space of A ( C(A) ) or equivalently to the row space of AT. At the same time, if AT(Ax) = 0, then it means that Ax belongs to the null space of AT. But we know that these 2 vector subspaces are orthogonal and share only the 0 vector; otherwise it would be that (Ax)T(Ax) = 0 while Ax != 0, but the inner product of a real vector is the square of its length, so it cannot be 0 for a non zero vector!
And this demonstrate that N(ATA) = N(A).

Because the rank of a matrix m*n is equal to n – dimension of N(matrix), we can also say that the rank(ATA) = rank(A).

Gravity and light – International Winter School

I would like to point out a very nice course on general relativity, I think the best you can find between video courses on the web. It’s title is: “International Winter School on Gravity and Light 2015” and you can find it on YouTube at the link: gravity and light

The course is taught by Professor Frederic Schuller, who has a deep understanding of the subject. It is a real pleasure to follow the logical construction that starts from the definition of what a topology is and gradually introduces more and more complex concepts: all explained always with a strong mathematical rigor but, at the same time, with great clarity.

I have found some difficulties in relation to the Affine Connection, so I started looking for articles or books that could help be on the subject. Thanks to the suggestion of Professor Edmund Bertschinger in his article, I bought the book “Geometrical methods of mathematical physics” by Bernard Schutz, which is written very well and deals with the Affine Connection in its last Chapter. I’ve not already read that chapter, but I trust that it will be treated clearly and comprehensively!

In this book some basis of algebra are required, as during the presentation of the metric tensor. If you need to refresh or learn from scratch the topic, I suggest a very nice course on MIT platform OpenCourseWare: Linear Algebra by Professor Gilbert Strang.

He does not demonstrate many passages but provides the student with many examples that allow him to find them for himself.