Cím: Az algebra alaptétele I.
Szerző(k):  Fried Ervin 
Füzet: 2006/január, 2 - 8. oldal  PDF  |  MathML 
Témakör(ök): Polinomok, Szakmai cikkek

A szöveg csak Firefox böngészőben jelenik meg helyesen. Használja a fenti PDF file-ra mutató link-et a letöltésre.

1

 

1. Az alaptétel
 

Az algebrai egyenletek megoldása, megoldhatósága ősi eredetű probléma. Feltesszük, hogy mindenki tudja, hogy egy polinom az egy
f(x)=a0+a1x+...+anxn(1)
alakú ,,kifejezés'', ahol a0,a1,...,an ismert számok (a polinom együtthatói), az x pedig határozatlan formális szimbolikus valami, amelynek a helyébe számokat beírva a jelölt műveleteket elvégezhetjük.
Ha an0, akkor azt mondjuk, hogy a fenti polinom foka n, ha an=1, akkor a polinomot normáltnak nevezzük.
Az α számot a polinom gyökének nevezzük, ha behelyettesítés után 0-t kapunk:
f(α)=a0+a1α+...+anαn=0.
Tekintettel arra, hogy egy polinomnak és (nem-0) konstansszorosának ugyanazok a gyökei, itt és a továbbiakban normált polinomokkal dolgozunk.
Már az ókorban foglalkoztak másodfokú polinomok gyökeinek a megkeresésével (másodfokú egyenletek megoldásával). A középkorban sikerült eljárást találni a harmad‐, és negyedfokú egyenletek megoldására. Az újkorban derült ki, hogy a magasabbfokú egyenleteket nem lehet úgy megoldani, ahogy szeretnénk. Pedig C. F. Gauss 1799‐ben bebizonyította az algebra alaptételét, mely szerint:
 
minden (mondjuk valós együtthatós) polinomnak van gyöke a komplex számok körében.
 

Ez volt ennek a tételnek az első kifogástalan bizonyítása. Ez a bizonyítás ‐ mint az algebra alaptételének későbbi bizonyításai is ‐ felhasználta a matematikai analízis fogalmait, például a folytonosságot. Ez nem csoda, mert a komplex számok halmazának analitikus tulajdonságai vannak.
Tisztán(?) algebrai bizonyítás(?) csak a XX. század elején született; ennél viszont halmazelméleti módszerek kerültek felhasználásra. (Azért szerepel itt kérdőjel, mert a komplex számtest analitikus tulajdonságai alapján nem is várható tisztán algebrai bizonyítás.) Valóban, az algebrai bizonyítás csak azt nyújtja, hogy minden polinomnak van valahol (egy bővebb testben) gyöke. Sürgősen megjegyezzük, hogy a kapott gyökről nem is tudható, hogy ,,hol'' helyezkedik el, az eljárás csak azt mondja meg, miképpen számolhatunk a gyökkel. És ez is valami!
Mi itt lényegében ezen az úton haladunk, azzal a különbséggel, hogy az együtthatókról nem kell feltenni (és nem is célszerű feltenni), hogy számok, csak azt, hogy olyan valamik, amikkel úgy ,,számolhatunk'', mintha számok lennének. Az ilyen algebrai struktúrákat testeknek nevezzük.
 
Definíció. Egy K elemhalmazt testnek nevezünk, ha elemei között értelmezve van két kétváltozós művelet, amelyeket összeadásnak és szorzásnak nevezünk. Ezeket megfelelően a +, illetve az egymás mellé írás jelöli. E műveletekre a racionális számoknál megismert tulajdonságok teljesülnek (kommutativitás, asszociativitás, disztributivitás, elvégezhető a kivonás és nemnulla elemmel való osztás).
 

Könnyen belátható, hogy van olyan 0,1K, amelyekre tetszőleges aK esetén teljesülnek a 0+a=a, 0a=0 és 1a=a összefüggések.
Tudjuk, hogy a racionális számok, a valós számok (vagy a komplex számok) a rajtuk értelmezett összeadásra és szorzásra testet alkotnak. Az is igaz, hogy a p prímszámmal való osztási maradékok is testet alkotnak a maradékokkal végzett műveletekre. Ezen utóbbi testeknek véges sok elemük van. Testet alkotnak továbbá a velük végezhető műveletekre a racionális törtkifejezések (a polinomok hányadosai) is, és ,,rengeteg'' más test is létezik.
 

Ha az (1) alatti polinom együtthatói a K testből valók, akkor K feletti polinomról beszélünk.
 

Tudjuk, hogy egy racionális együtthatós polinomnak általában nincs (illetve nem feltétlenül van) racionális gyöke. A gyökök ‐ az algebra alaptétele szerint is ‐ egy nagyobb testből, a komplex számtestből kerülnek ki. Éppen ezért, ha a polinom egy gyökét keressük, azt egy nagyobb testben kell tennünk. A keresett nagyobb test elemei mátrixok lesznek.
 
2. Műveletek mátrixokkal
 

A mátrixok bizonyos elemeknek ‐ eredetileg számoknak ‐ téglalap alakban való elrendezései. Mi itt csak négyzetes mátrixokkal foglalkozunk.
 
Definíció. Egy K test feletti n×n-es mátrix n sorból áll, amelyek mindegyikének n darab K-beli eleme van. A sorok ugyanannyiadik helyén álló elemei egy oszlopot alkotnak. Az i-edik sor j-edik elemét (például) ai,j jelöli (az indexek a lényegesek). Rögzített j esetén ezek alkotják a j-edik oszlopot. Itt 1i,jn.
 

Ezt a ,,táblázatot'' zárójelek közé helyezik; mi itt szögletes zárójelet használunk.
Ennek megfelelően egy mátrix a következő alakú:
[a1,1a1,2...a1,na2,1a2,2...a2,nan,1an,2...an,n].

 
Megjegyzés. A mátrixokat a matematika igen sok ágában, és ezen keresztül sok egyéb tudományágban használják. Alapvetően ezek bizonyos vektor‐vektor függvények koordinátáinak foghatók fel. Ezek a függvények esetünkben az n-dimenziós teret (bármit is jelentsen ez) képezik önmagába. (Gondolhatunk a két-, vagy háromdimenziós térre.) Úgynevezett homogén lineáris függvényekről van szó. Ez a következőt jelenti: Legyen a,bK és u,v az n-dimenziós tér (origóból kiinduló) vektorai; mármost φ akkor homogén lineáris, ha minden ilyen esetben φ(au+bv)=aφ(u)+bφ(v) teljesül.
Ezekre a függvényekre természetesen adódik a következő összeadás és szorzás: (φ+ψ):xφ(x)+ψ(x) és (φψ):xφ(ψ(x)), valamint a skalárral (K-beli elemmel) való szorzás: (aφ):xa(φ(x)).
Minden egyes ilyen függvény ‐ adott koordinátarendszer esetén ‐ egyértelműen meghatározható egy négyzetes mátrix segítségével. A φ homogén lineáris függvényhez tartozó mátrixot [φ] jelöli. A függvényekkel végzett műveletek tükröződéseként adódnak a mátrixokkal végzett műveletek: Ha cK és φ, ψ homogén lineáris függvények, akkor [φ]+[ψ]=[φ+ψ], [φ][ψ]=[φψ] és c[φ]=[cφ].

 

A fenti ,,eszmefuttatástól'' függetlenül is definiálhatók a mátrixokkal végezhető műveletek.
Először is meg kell adni, honnét valók az elemek, és a mátrix méreteit is.
Legyen adva két n×n-es K feletti mátrix (amelyeknek elemei tehát a K testből valók): A=[ai,j] és B=[bi,j], valamint egy cK. Ekkor cA=[cai,j], Ac=[ai,jc], és az A+B=[ci,j] mátrixra ci,j=ai,j+bi,j. A szorzás viszont sokkal bonyolultabban adódik: Az AB=D=[di,j] mátrix esetében a di,j elemet az A mátrix i-edik sorának és a B mátrix j-edik oszlopának a ,,szorzata'' adja. Ezt úgy kapjuk, hogy a sorban és az oszlopban ugyanannyiadik helyen álló elemeket összeszorozzuk és a kapott szorzatokat összeadjuk. (Ez bonyolult, de hát ilyen a világ.) Formulával leírva: di,j=ai,1b1,j+ai,2b2,j+...+ai,nbn,j.
Éppen a szorzás ,,bonyolultsága'' miatt megadjuk két 3×3-as mátrix szorzatát:
[a1,1a1,2a1,3a2,1a2,2a2,3a3,1a3,2a3,3][b1,1b1,2b1,3b2,1b2,2b2,3b3,1b3,2b3,3]==[a1,1b1,1+a1,2b2,1+a1,3b3,1a1,1b1,2+a1,2b2,2+a1,3b3,2a1,1b1,3+a1,2b2,3+a1,3b3,3a2,1b1,1+a2,2b2,1+a2,3b3,1a2,1b1,2+a2,2b2,2+a2,3b3,2a2,1b1,3+a2,2b2,3+a2,3b3,3a3,1b1,1+a3,2b2,1+a3,3b3,1a3,1b1,2+a3,2b2,2+a3,3b3,2a3,1b1,3+a3,2b2,3+a3,3b3,3].




Adott n és K esetén a mátrixok a fenti összeadásra és szorzásra nézve gyűrűt alkotnak, ami majdnem ugyanazt jelenti, mintha testet alkotnának, csak a következő enyhítések vannak:
(1) a szorzás nem feltétlenül kommutatív.
(2) az osztás nem feltétlenül végezhető el.
A mátrixokat lehet K-beli elemekkel szorozni. Ez a szorzás kommutatív és a mátrixszorzással felcserélhető (c(AB)=A(cB)); a mátrixösszeadásra nézve disztributív (c(A+B)=cA+cB és (a+b)C=aC+bC). Ilyen esetben K feletti algebráról beszélünk. (Amikor K feletti mátrixokat tekintünk, akkor a K elemeit skalároknak nevezzük.) Azt fogjuk megmutatni, hogy ebben a gyűrűben tetszőleges előre megadott n-edfokú polinomnak van gyöke.
Csakhogy mi azt szerettük volna megmutatni, hogy egy K-t tartalmazó testben van gyök. Ez a gyűrű viszont nem is tartalmazza K-t! Mindenekelőtt ezen segítünk. E problémán azért tudunk úrrá lenni, mert a mátrixok körében van egy E, úgynevezett egységmátrix, vagy identitásmátrix2. Az egységmátrixot E=[δi,j] definiálja, ahol δi,i=1, míg ij esetén δi,j=0. (A ,,diagonális'' minden eleme 1, míg a többi elem 0.) Könnyen ellenőrizhető, hogy ez a mátrix valóban úgy működik, mint a K-beli 1, azaz bármely ugyanekkora méretű A esetén EA=AE=A. A mátrixoknak a K elemeivel való szorzását ‐ és az erre vonatkozó összefüggéseket ‐ felhasználva azonnal látható, hogy a cE (cK) alakú úgynevezett skalármátrixok pontosan úgy viselkednek, mintha a K elemei volnának. Ez azt jelenti, hogy a ccE megfeleltetés izomorfizmus, azaz művelettartó bijekció. Még az is igaz, hogy a velük való szorzás pontosan ugyanazt az eredményt adja, mint a K elemeivel való szorzás ((cE)A=cA). Ezek után azt ,,képzelhetjük'', hogy ,,a skalármátrixok a K elemei''. Azt is jó észrevenni, hogy a O=0E (skalár)mátrix úgy viselkedik, mint a 0 szám: bármely A mátrix esetén O+A=A+O=A és OA=AO=O (az O minden eleme 0).
Mármost az (1) alatti polinom esetében az ai helyébe aiE-t kellene írni. Ezt egyedül az a0 esetében tesszük, mert a skalármátrixszal való szorzás ugyanaz, mint a megfelelő skalárral való szorzás. Ekkor behelyettesítés után
f(A)=a0E+a1A+...+anAn
adódik.
Természetesen itt is ‐ mint a K elemeinél ‐ az A-ról akkor mondjuk, hogy gyöke f(x)-nek, ha f(A)=O, ahol O a nullmátrix.
Mint említettük, a mátrixok esetében a szorzás nem kommutatív, azaz általában ABBA. Egyetlen mátrix hatványai esetében ez nem okoz gondot, hiszen AiAj és AjAi ugyanaz: Ai+j. A megfelelő szorzási eljárás E-re is alkalmazható az E=A0 definícióval.
 

Azt fogjuk bebizonyítani, hogy adott n-edfokú normált f(x) polinomhoz van olyan n×n-es A mátrix, amely az f(x)-nek gyöke. A kívánt mátrix elkészítése könnyű3, de a hosszadalmas számolás helyett az n=3 esetben adjuk meg az eljárást, kiindulva egy speciális A mátrixból:
A=[00a10b01c],A2=[0aac0ba+bc1cb+c2],A3=[aacab+ac2ba+bcac+b2+bc2cb+c2a+2bc+c3]

Láthatjuk, hogy A3=aE+bA+cA2. Eszerint A az x3-cx2-bx-a polinomnak a gyöke.
 
3. Valóban egy testet találtunk-e?
 

Azt láttuk, hogy bármely n-edfokú f(x)=xn+an-1xn-1+...+a1x+a0 (normált) polinomhoz létezik olyan n×n-es A mátrix, amelyre f(A)=O. Ezt a mátrixot a következőképpen készíthetjük el: az utolsó oszlopba rendre a -a0,-a1,...,-an-1 elemeket írjuk, ezután 1-et írunk a második sor első, a harmadik sor második, ... az n-edik sor (n-1)-edik oszlopába és az összes többi helyre 0-t írunk. Az is könnyen látható, hogy az E,A,...,An-1 mátrixok skalárszorosainak összegeként A minden polinomja előállítható; hiszen An eleve előáll így, és A-val való egymásutáni szorzással minden hatványt megkapunk. Ez mindenesetre kellemes, mert nincs szükség magasabb hatványra. Mi több, az is látható, hogy ezek a polinomok mind különbözőek, ami azzal ekvivalens, hogy ezek egyike sem az O mátrix. Valóban, a c0E+c1A+...+cn-1An-1 mátrix első oszlopában rendre a c0,c1,...,cn-1 elemek állnak. Ez a mátrix tehát csak akkor lehet O, ha ezek mindegyike 0, vagyis a polinom a nulla-polinom.
Csak az a kérdés maradt még nyitva, hogy elvégezhető-e az osztás. Legyen tehát R a c0E+c1A+...+cn-1An-1 alakú mátrixok összessége. Ezek a mátrixösszeadásra (és kivonásra) és a mátrixszorzásra zártak ‐ e műveletekre nézve gyűrűt alkotnak. Az osztás elvégezhetősége azt jelenti, hogy bármely B,CR esetén ‐ ha BO ‐ létezik olyan XR, amire C=BX. Ezt elég a C=E esetre belátni, mert ha E=BY, akkor az asszociativitás és az R-beli kommutativitás miatt X=CY megfelel: BX=BCY=C(BY)=CE=C.
Ez csak akkor lehetséges, ha R-ben nincsenek nullosztók, azaz az UV=O esetben vagy U=O vagy V=O igaz. Valóban, ha itt UO, akkor létezik olyan W, amire E=WU, és így V=EV=WUV=WO=O. Márpedig ez minden további nélkül nem igaz. Induljunk ki a racionális számtestből, és legyen például f(x)=x4+4. Legyen A e polinom gyöke, és tekintsük az U=A2+2A+2E és V=A2-2A+2E mátrixokat, amelyek tehát mindketten O-tól különbözőek. Az UV szorzatukra viszont azt kapjuk, hogy:
(A2+2A+2E)(A2-2A+2E)=(A2+2E)2-(2A)2==A4+4A2+4E-4A2=A4+4E=O,
ami azt jelenti, hogy a szóbanforgó gyűrű nem lehet test. Világos, hogy ennek a jelenségnek az az oka, hogy a szóban forgó polinom felbontható két alacsonyabbfokú polinom szorzatára: x4+4=(x2+2x+2)(x2-2x+2). Tehát csak akkor kaphatunk testet, ha a K felett irreducibilis polinomból indulunk ki; azaz olyanból, amely nem bontható fel két K-beli együtthatós alacsonyabbfokú polinom szorzatára. (Amennyiben a polinom nem ilyen, akkor ez a tulajdonság ,,jelzi'', hogy felesleges munkát akarunk végezni. Hiszen az adott polinom gyöke helyett elegendő volna valamelyik tényezőjének a gyökét meghatározni ‐ esetleg külön-külön mindegyikét.)
Kimutatjuk, hogy ekkor viszont valóban testet kapunk.
A továbbiakhoz már nincs is szükségünk arra, hogy a megtalált gyök mátrix, csak a kapott R gyűrű alábbi tulajdonságaira:
Az f(x)=xn+an-1xn-1+...+a1x+a0 polinom irreducibilis (K felett). A K-t tartalmazó R gyűrűben van az f(x)-nek egy α gyöke, és R minden eleme egyértelműen felírható c0,c1,...,cn-1K elemekkel g(α)=c0+c1α+...+cn-1αn-1 alakban. Ekkor minden R-beli β0 elemhez létezik olyan ξR, amire βξ=1.
Fel fogjuk használni azt, hogy az egész számokhoz hasonlóan a testbeli együtthatós polinomoknak is létezik legnagyobb közös osztója, amit a polinomok segítségével elő lehet állítani. Ezt a legnagyobb közös osztót a maradékos osztáson alapuló euklideszi algoritmus segítségével határozhatjuk meg:
 

A K-beli együtthatós normált f(x) és g(x) polinomokhoz léteznek olyan u(x) és v(x) (K-beli együtthatós) polinomok, amelyekre d(x)=u(x)f(x)+v(x)g(x) (normált) közös osztója a két adott polinomnak; továbbá ezeknek bármely közös osztója osztója d(x)-nek.
 

Legyen tehát adott az irreducibilis f(x) polinom, ennek egy bővebb gyűrűbeli α gyöke. Legyen R az α polinomjaiból álló gyűrű, és legyen β ennek egy eleme. Mint láttuk, ehhez létezik egy az f(x)-nél alacsonyabb fokú K feletti g(x) polinom úgy, hogy β=g(α). Legyen d(x)=u(x)f(x)+v(x)g(x) az f(x) és g(x) polinomok legnagyobb közös osztója. Mivel f(x) irreducibilis, azért csak d(x)=1 lehet (d(x) osztója f(x)-nek, így foka legfeljebb n, de d(x)=f(x) lehetetlen, mert g(x) foka kisebb, mint n). Az α behelyettesítése után azt kapjuk, hogy:
1=u(α)f(α)+v(α)g(α)=u(α)0+v(α)β=v(α)β.
Ekkor a ξ=v(α) elemre az igaz, hogy ξβ=1. Így R valóban test.
 
4. Az algebrai lezárt
 

Még mindig nem jutottunk el addig, hogy egy adott testhez olyan nála bővebb testet találtunk volna, amelyben minden (a kiinduló testbeli együtthatós) polinomnak volna gyöke. A fentebb látott eljárással egymás utáni lépésekkel egyre bővebb és bővebb testet találhatunk, amelyben előre megadott véges sok polinom bármelyikének van gyöke. Sőt azt is el lehet érni, hogy e polinomok minden gyöke benne legyen a bővebb testben. Itt azonban vigyázni kell a megfogalmazással! Az x2-2 polinomnak már a mátrixok körében is végtelen sok gyöke van, például: [1bc-1], ahol bc=1. Éppen ezért a ,,minden gyök'' helyett azt az óvatosabb megfogalmazást kell használni: ,,amelyben a polinom elsőfokú tényezők szorzatára bomlik''. (Ezzel egyszersmind a többszörös gyökök miatti problémákat is elintéztük.) Itt azért az is gondot okoz, hogy ha egy polinom egyik gyökét megtaláltuk, akkor a polinom felbomlik, és a továbbiakban valamelyik tényezőjének a gyökét keressük. Viszont e tényező együtthatói nem az eredeti testből valók.
 

Ha például az x3-2 racionális együtthatós irreducibilis polinom gyökeit keressük, akkor ilyen a 23. Ha további gyököket keresünk, akkor az eredeti polinomot fel kell bontani az a0+a123+a2(23)2 alakú számok körében (tudjuk, hogy ez test). Az eredmény: (x-23)(x2+23x+(23)2). Ellenőrizhető, hogy ennek a másodfokú polinomnak nincs gyöke a bővebb testben sem. Tehát egyre nagyobb testből kiindulva egyre bővebb testhez jutunk.
 

Ennek az a következménye, hogy az összes újabb testbeli együtthatós polinomot figyelembe kell venni, hiszen e bővebb testben újabb irreducibilis polinomok keletkeztek. Ez tulajdonképpen egy halmazelméleti jellegű kérdés, ami áthidalható. Erre itt nem térünk ki, ez már egy újabb történet.

1Köszönet illeti a T043034 és T043671 OTKA támogatását.

2Ezt a mátrixot igen gyakran I jelöli, mivel ez az identitásmátrix kezdőbetűje. A későbbiekben nekünk célszerűbb lesz egy másik mátrixot jelölni az I betűvel.

3Annak megindokolása, hogy miért ilyen alakban írjuk fel a mátrixot, egyáltalán nem magától értetődő, de az, hogy melyik helyre mit kell írni, a megadott példa alapján világos. Egyébként én erről az eljárásról analízis professzoromtól, Szász Páltól hallottam.