Gelfond 的恒等式
$$ left( egin{array}{c} x_1\ x_2\ x_3\ x_4\ x_5\ x_6 end{array} ight) = left( egin{array}{c} a \ a + b + 4c\ a + 2b + c\ a + 4b + 9c\ a + 5b + 6c\ a + 6b + 10c end{array} ight) left( egin{array}{c} y_1\ y_2\ y_3\ y_4\ y_5\ y_6 end{array} ight) = left( egin{array}{c} a + b \ a + c\ a + 2b + 6c\ a + 4b + 4c\ a + 5b + 10c\ a + 6b + 9c end{array} ight) $$
那么对于 n = 1, 2, 3, 4, 5。
$$ x_1^n + dots + x_6^n = y_1^n + dots + y_6^n $$
I. M. Gelfand 自述
李锟 译
extbf{编者按:}原文标题“A talk with I. M. Gelfand: A student and teacher followed his own interests and instincts”, 发表于Quantum, (Jan-Feb 1989), 原文链接url{http://israelmgelfand.com/talks/quantum_interview.pdf}.中译文原载于《数学译林》1990年第4期,李锟译, pp. 340--347. 这里编者重新录入时作了简单的文字整理。
Gelfand (见维基百科词条url{https://en.wikipedia.org/wiki/Israel_Gelfand}) 1913-2006,20世纪最伟大的数学家之一。据说,在20世纪的俄国,最杰出的数学家有3位,分别是Kolmogorov,Gelfand 和 Shafarevich(前不久去世)。Kolmogorov的工作广,Shafarevich的工作深,而唯有Gelfand,工作既深且广。
Gelfand(盖尔范德)照片取自《当代大数学家画传》,由Mariana Cook 提供
《败者为王》(The Loser Takes All)是英国作家格雷厄姆·格林(GrahamGreene)的一本小说。我的数学生涯是如此的幸运,以至于我多年来的生平可以视为这部小说的一个现实版本。那么,我的好运是什么呢?简单地说就是:第一,我没有上过大学;第二,由于我的家庭生活困难,以至于当我16岁半到达莫斯科时,既无双亲陪伴,也无工作。
我想借助另一个英国作家威廉·萨默塞特·毛姆(William Somerset Maugham)的短篇小说(注:这里指的是《教堂堂守》或《教堂司事》(The Verger),见《毛姆短篇小说集》pp. 311-320中叶念先的译文,北京,外国文学出版社,1983年。)来解释败者为王的含义。小说的主角是某个教堂的仆役,在鉴定教堂神职人员时发现他是文盲,所以他被解雇了。他开始成为卖烟的小贩,后来买下了烟铺,再后来又买下了另一些铺子……商业上飞黄腾达,他成为全城最富有的人和该城的市长。记者采访了他——正如你们今天采访我一样——他解释说,他是文盲,记者不禁惊呼:“您要是会识字的话,那该取得多大的成就啊!”市长的回答非常干脆:“那样的话,我可能还是教堂的仆役。”
1930年2月,当我16岁半时,来到莫斯科投靠远亲,经常失业,任何临时性工作都干,而大部分时间我呆在列宁图书馆,“恶补”那些在中学和未结业的职业技术学校里没有学到的知识。在图书馆,我结识了一些大学生,并开始去大学听课。18岁时我已经开始教课,19岁考上研究生,此后的数学经历则平常而正规,进入了数学家通常的轨道。
我并不打算把生活中的这一段经历告诉《量子》的读者,我想谈的是更早期的经历,即13岁至16岁时我是怎样学习数学的。我想介绍这方面的内容有两个原因。第一,我坚信,对大多数未来的职业数学家来说,数学的天才正好出现在13岁至16岁这一时期(当然在最强的数学家中也有例外,从20岁至30岁甚至40岁不等)。第二,我在这一时期形成了研究数学的风格。不言而喻,研究的对象是经常变化着的,但是在这个时期形成的数学的艺术形象却是我选择研究题目的品味的基础,对这些题目我至今仍感兴趣。我觉得,不了解这个动机,就不可能弄清楚我的研究风格和选择数学研究作为职业的理由。
我记得的第一件事发生在12岁左右,那时我已明白,有些几何题目是不能用代数方法求解的。每隔5度我求出弦长与弧长之比,制成了表格。很久以后我才明白存在着三角(非代数的)函数,实际上我是制作了三角函数表。
大约在那时,我做完了一本初等代数的习题集。我既没有相匹配的代数课本,也不知道相应的理论,有时只能用我当时还叫不出名字的公式去求解相当复杂的问题。如果我不会解某一个题,我会先看一下答案,尽量按照问题的提法和答案反推它们的解法。特别的,那时我已明白,并且一生都牢牢记住,通过解题可以掌握新的领域,实际上光看答案并不可耻,因为我们在解题时总是假设可能的答案。一般说来,研究数学问题与解题有类似之处,解题时我们总是知道答案的某些方面。这也是数学研究工作与大学入学考试的数学训练(这当然有必要)的差别所在。
在12到13岁时,我注意到某些几何问题。例如,有一些直角三角形,其边长是3,4,5,甚至是5,12,13。我想求出边长为整数的全部直角三角形,结果得到了这类三角形的边长的一般公式,也就是说我求得了勾股组(当然,那时我并不知道这一术语)。遗憾的是,现在我已记不清当时是怎样得出这个公式的了。
在生病和假期时,我常学习数学。我注意到,有些能力强的学生生病在家时能完成很多事。因此,我常常让我的儿子病愈后在家多住几天。
我们所用的几何课本中,有些定理是以习题的形式给出的。我得到了练习本(这在那个年代也是难得的),在每一页都写上了定理的陈述。一个假期过去,笔记本上几乎写满了这些定理的证明。这就是我怎样学会写数学著作的。
这里我将跳过一段。那时候我只注意到了Dovydov 的代数书,书中非常聪明地用初等方法(即不用微积分)求解最大值和最小值问题。例如,已知正数$a$与$b$的和为定值,求其乘积$ab$的最大值;给定矩形的周长,求其面积的最大值;给定一个正方形,若从正方形的四个角切除四个小正方形,并将其余部分做成盒子,问应该切除多大尺寸的小正方形,才能使得盒子的体积为最大?
牛顿二项式定理和组合分析公式给我很深的印象,我曾长时间思考这些问题。
我曾经在小城市生活,那里只有一所中学。数学老师Titarenko长有哥萨克式的胡子,很善良,但表面上看起来较严厉。虽然我比他知道得更多——这点他也清楚,但是我还未遇到比他更好的老师。他很喜欢我,并且经常鼓励我。对于教师来说,最主要的一点就是要善于鼓励学生,不是吗?
数学书匮乏是很一个严重的问题。我经常看见高等数学书的广告,猜测高等数学大概是非常有趣的。可惜,我的父母穷,不大可能给我买这些书。我很幸运,在15岁那年,我得了阑尾炎,需要去敖德萨做手术。我跟父母说,要是不给我买高等数学书,我就不去医院。父母终于同意了,给我买了乌克兰文的Belyayev 的《高等数学教程》,但他们的钱只够买第一卷,其内容包括微分学和平面解析几何。
我没有从一本成熟的大学教程开始学习高等数学,这是很幸运的。这是一本比较基本的书。从Belyayev 教程的引言,即可判断此书的水平。在引言中,作者提到,函数一共有三种形式:用公式表示的解析函数、用表格表示的经验函数、以及相关函数。什么是相关函数,我当时并不明白,只是在许多年以后,我才从学概率论的大学生那里知道它的含义。
手术后第3天我就开始看这本书,穿插着还读了埃米尔·左拉(Emile Zola)的小说,一共看了9天(那时,在这种手术后,需要住院12天)。在此期间,我看完了这本书。
从这本书我领会到两个非同寻常的思想。
第一,平面与空间的任何几何问题都可以用代数公式表示(我以前就猜到了这一点),我也认识到存在着某些相当漂亮的图形,如椭圆。
第二,存在着计算正弦的公式:
[sin x=x-frac{x^3}{3!}+frac{x^5}{5!}-frac{x^7}{7!}+cdots]
这使我的观念发生了转折。以前我认为,存在两种不同风格的数学——代数与几何。与代数相比,我觉得几何在原则上是“超越的”。例如,圆的周长公式中含有“几何”数$pi$(圆周率),或者说,正弦是完全用几何方法确定的。
当我发现正弦可以用代数的级数形式表示时,头脑中的代数与几何之间的鸿沟消失了,数学成为统一的数学。时至今日,我已认同这样的观点,数学的各个部分与数学物理是统一的整体。
当然,我从这本书也确信了,极值问题可以自动解答,虽然它们正在失去本身的魅力,但在你们手中却有解决此类问题的得力工具(微积分)。
学微分学时,我已知道还有积分学,它与面积和体积有关。但我无法知道它的具体内容,因为我还未得到Belyayev教程的第二卷!
我想再回忆一个习题。当我们第二年秋季在学校学习旋转体的体积时,我的同班同学,也就是后来的著名数学家D. P. Milman,提请我注意到下面的题目:当圆周围绕自身的某条切线旋转时,求旋转所形成的旋转体的体积。为了求解,我将圆划分为条带,并计算相应圆柱体的体积之和。为此,我必须求出
[cosvarphi+cos2varphi+cos3varphi+cdots+cos nvarphi . ag{1}]
与通常一样,剩下的步骤是机敏与愚蠢的混合产物。我忽略了用普通三角方法的初等解法(高中生肯定知道的),却应用了公式
[e^{ivarphi}=cosvarphi+isinvarphi.]
(这个公式被称为欧拉公式,但当时我并不知道。)在那时,我需要用到深深震撼了我的正弦、余弦以及指数函数的级数表达式,才能求得上述公式。接下来,利用等比数列的求和公式就可算出
[e^{ivarphi}+e^{i2varphi}+e^{i3varphi}+cdots+e^{invarphi}]
对所得等式两边再取实部,从而求得(1)式的值。
解此题时,我培养了解题后继续思考问题的习惯。我将圆周移开,离开直线一段距离,旋转之后得到的旋转体,使我想到了轮胎。若已知圆的半径$r$以及圆心到直线的距离$d$,可用上述方法,可以确定出旋转体的体积为$2pi^2r^2d$.这个公式的简单明了,使我非常惊讶,如果将它写成$pi r^2cdot 2pi d$,就可看清它的含义,将轮胎沿圆周切开并将它展开成一个圆柱,它的高恰好等于圆心轨迹的长度,也就是$2pi d$,而这个圆柱的体积与旋转体的体积相等。对表面积的情况也类似,我觉得这种现象并非偶然。如果将圆用另一图形如三角形来代替,那么会发生什么情况呢?
这时的旋转体体积将与一个棱柱的体积相等,该棱柱的底为所给的三角形,高为三角形三条中线的交点的轨迹的长度。由物理学可以知道,此点就是三角形的重心。若再回看圆周旋转时的情况,即可明白,圆心就是圆的重心。(注:这些结果蕴含在一个称为帕普斯定理(或古尔丁定理)的一般结果中,见维基百科:url{https://en.wikipedia.org/wiki/Pappus%27s_centroid_theorem})
在由不知从哪里得到的材料力学教科书中,我找到了重心的一般定义。书中不仅旋转了各种图形,还将图形沿各种曲线移动,并计算出所得几何体的体积和面积。这时讨论的严格性是非常重要的,我非常引以为骄傲的是,我能求得半球和半圆的重心。
幸运再次光顾了我。我们城里来了一位学识渊博的人(按照我当时的观点),他毕业于敖德萨师范学院数学物理系。他带来的书中有Kagan的《行列式理论》和Hvolson的《物理学教程》,前一本书富有教益,内容详尽,甚至有关于无穷行列式的章节。
我应指出, Filippenko——他是著名的N. K. Koltslov学派的生物学家——的生物课本,是一本极好的课本,它甚至使我在15--20年之后有兴趣研究生物学。
再回到数学问题,我仍然对与面积和体积有关的问题感兴趣,我着手计算抛物线$y=x^2$下方的面积,此时需要计算
[1^2+2^2+3^2+cdots+n^2,]
我毫无困难地解决了上述问题。
我进而想求出$p$次抛物线$y=x^p$下方的面积,其中$p=3,4,5,cdots$,从而需要求和
[S_0=1^p+2^p+3^p+cdots+n^p,]
其中$p$为任意的自然数.
与公式
[1^2+2^2+3^2+cdots+n^2=frac{n(n+1)(2n+1)}{6}]
类似,我求得$S_0$是$n$的$p+1$次多项式。事实上,为求得$p$次抛物线下方的面积,只需要知道多项式$S_0(n)$的最高次项的系数就足够了,可是我当时尚未觉察到这一点,从而开始求整个多项式。这项研究很有意义。首先让我来概括上述问题:设$f(x)=x^p$,则$S_0$可以表达为:
[S_0=f(1)+f(2)+f(3)+cdots+f(n).]
假设$F(x)$的导数$F'(x)=f(x)$,则由泰勒公式可得:
egin{align*}
F(2)-F(1)&=f(1)+frac{f'(1)}{2!}+frac{f''(1)}{3!}+cdots\
F(2)-F(1)&=f(1)+frac{f'(1)}{2!}+frac{f''(1)}{3!}+cdots\
& vdots\
F(n+1)-F(n)&=f(n)+frac{f'(n)}{2!}+frac{f''(n)}{3!}+cdots
end{align*}
将上述等式相加可以得到:
[F(n+1)-F(1)=S_0+frac{S_1}{2!}+frac{S_2}{3!}+cdots]
其中$S_0$是我感兴趣的和,而
egin{align*}
S_1 &=f'(1)+f'(2)+cdots +f'(n),\
S_2 &=f''(1)+f''(2)+cdots +f''(n),\
& vdots
end{align*}
这时得到方程组
egin{alignat*}{3}
F(n+1)-F(1)&=S_0+&frac{S_1}{2!}+&frac{S_2}{3!}+cdots,\
f(n+1)-f(1)&=&S_1+&frac{S_2}{2!}+frac{S_3}{3!}+cdots,\
f'(n+1)-f'(1)&=& &S_2+frac{S_3}{2!}+frac{S_4}{3!}+cdots,\
& vdots& &
end{alignat*}
即得到了含有无穷多个未知数$S_0,S_1,S_2,cdots$的方程组,我曾提及,在Kagan的书中叙述了无穷阶行列式的理论,所以我能应用“克莱姆法则”,以求得$S_0$为:
[
S_0=det left[ egin{matrix}
Fleft( n+1
ight) -Fleft( 1
ight)& frac{1}{2!}& frac{1}{3!}& frac{1}{4!}& cdots\
fleft( n+1
ight) -fleft( 1
ight)& 1& frac{1}{2!}& frac{1}{3!}& ddots\
f'left( n+1
ight) -f'left( 1
ight)& 0& 1& frac{1}{2!}& ddots\
vdots& vdots& ddots& ddots& ddots\
vdots& 0& cdots& 0& 1\
end{matrix}
ight],
]
将这个行列式按照第一列展开,就得到下式:
egin{align*}
egin{split}
S_0=&B_0left[ Fleft( n+1
ight) -Fleft( 1
ight)
ight] +B_1left[ fleft( n+1
ight) -fleft( 1
ight)
ight] \
&+B_2left[ f'left( n+1
ight) -f'left( 1
ight)
ight]+cdots
end{split}
ag{2}
end{align*}
其中$B_0=1$, $B_1,B_2,B_3,ldots$是一些无穷行列式。所得的表达式(2)称为Euler-Maclaurin公式,那时我并不知道这一公式。若要用此式做计算,必须求得系数$B_1,B_2,ldots$
为此,我运用了想象,即今天称为“函子”的办法,也就是,考虑到系数$B_0,B_1,B_2,cdots$与$f$无关,可以选择函数$f$使得等式(2)的左端转换成几何级数(我能求出它们的和)。选取函数$f(x)=e^{alpha (x_1)}$,代入(2)式,即可得到(请完成计算!footnote{计算如下:将(2)式应用于函数$f(x)=e^{alpha (x-1)}$,则我们得到
[1+e^{alpha}+cdots +e^{left( n-1
ight) alpha}=S_0=B_0frac{1}{alpha}left( e^{nalpha}-1
ight) +B_1left( e^{nalpha}-1
ight) +B_2left( alpha e^{nalpha}-1
ight) +B_3left( alpha ^2e^{nalpha}-1
ight) +cdots]
不妨设$alpha<0$,在上式中令$n oinfty$,则我们得到
[frac{1}{1-e^alpha}=-B_0frac{1}{alpha}-B_1-B_2alpha-B_3alpha ^2-cdots]
重新整理就是Gelfand提到的式子。})
[B_0+B_1alpha+B_2alpha^2+B_3alpha^3+cdots=frac{alpha}{e^alpha-1}.]
也就是说,得到了所求系数$B_0,B_1,B_2,cdots$的母函数($B_0,B_1,B_2,cdots$称为Bernoulli数,而关于$f(x)=x^p$的$S_0$称为Bernoulli多项式)。
我还记得这一时期考虑过的其他两个问题。我们的代数习题集产生了第一个问题:用二次方程的系数表示两根$x_1$和$x_2$的函数,如$x_1^2+x_2^2$和$x_1^3+x_2^3$.问题可以进一步概括为:用$n$次方程$x^n+a_1x^{n-1}+cdots+a_n=0$的系数表示根$x_1,ldots,x_n$的函数$x_1^2+cdots+x_n^2$和$x_1^3+cdots+x_n^3$.在Davydov的书中我得知了韦达定理,借助于这一定理可以解答上述问题。我再进一步设想了更为一般的问题:用$n$次代数方程的系数表示此方程的根的$k$次幂之和。我求得了这一问题的解(问题的答案称为牛顿公式)。
我那时考虑的第二个问题是,我发现,$cos (ix)$为实数,因为
[cos (ix)=1+frac{x^2}{2!}+frac{x^4}{4!}+cdots]
我思考了这个出人意料的事实并提出了下述一般定理:任何偶的实值函数(在复平面的延拓函数)在虚轴上取实数值。
为了证明这一定理,必须搞清楚,什么是“函数”。我思索着函数的含义,并且给出了如下定义:函数是收敛的无穷幂级数的和。这样,很容易就证明了上述定理。
在我来到莫斯科以前,这大概就是我所思考的最后一个问题了。1920年夏天我解答了这一问题,之后的半年对我和我的家庭都是艰苦的,我未从事数学研究。
我在莫斯科学习数学的第二阶段不再是这种“瞎摸瞎碰”了。在莫斯科,我受到许多完全不同风格的影响,我的发展也不再任自漂流了。正如我之前提到的,这时我开始在列宁图书馆自学,靠打零工维持生计。有一阵我就在图书馆的服务台坐班。我结识了大学里的数学系学生。有人告诉我,我很感兴趣的表达式 $f(n+1)-f(n)$是一个称为有限差分的系统理论的一部分。他告诉我应该阅读 Norlund 的《差分演算》。这是一本德文书,不过我在字典的帮助下掌握了它。
我开始参加大学的研讨班,在那里我发现自己压力很大。我做数学的方式不合适宜。当时,数学界掀起了一股风气:对严谨的证明的要求、对实变函数论的浓厚兴趣。(今天看来,这种严格性和这个特殊理论已陈腐过时,但在那时……)
直到那时,我才认识到,很重要的是:函数未必是连续的,连续的函数未必是可微分的,一阶可微分的函数未必是二阶可微分的,如此等等;甚至一个无穷次可微分的函数,其 Taylor 级数也未必是收敛的;即便收敛,也未必收敛到函数本身。如果函数的 Taylor 级数刚巧收敛到它本身,这个函数就称为解析的。(实变函数论爱好者认为)这类函数是如此狭窄,以至于它被排除在主流数学之外。而在此之前,我就只见过这类函数。
在这种观点的影响下,我读了 Vallee Poussin 的“现代化的、严格化的”分析教材。它类似于目前莫斯科大学数学力学系用的教材,但更好一些。因此我很同情那些大一学生,他们只有在历经长达一年的强调“严格基础”的痛苦考验之后,才能体会到数学分析的美妙。
即便如此,我也是幸运的,我读了 I. I. Privalov 关于单复变函数的卓越教材。读这本书时,我理解了,为什么函数$1/left(1+x^2
ight)$的 Taylor 级数在$x=1$发散,虽然它的图像是连续的。(这根源于下述事实:它所对应的复函数$1/left(1+z^2
ight)$在$z=i$有一个奇点。)
读完前100页,我感到一阵清风拂过。我发现,如果一个复变函数有一阶导数,那么就自动有任意阶的导数,并且其 Taylor 级数在某个区域内收敛到函数本身。每样东西都找到了自己的位置,又恢复了和谐。
我很快读完了 Hurwitz 和 Courant 关于复变函数论的书。我印象最深的,是关于椭圆函数的那些章节。然而时尚再一次捉弄了我——即便在那时,这个数学分支也被认为是老古董。椭圆函数论被贬低为“不过是三角函数的推广”。多年以后,这个领域才再次成为数学家关注的焦点。
我从大学的研讨班获益很多。我遇到各式各样的数学家,我可以拿我的浪漫、过时的观点,与时下流行的观点作比较。我跟着许多杰出的数学家学习,并且以这种方式持续学习至今。
后来我读了——其实是深入研究——Courant 和 Hilbert 合著的《数学物理方法》。那时我认识到,阅读基本工作非常必要。重要的是,要舍得花时间思考一个理论的真正基础。Hermann Weyl 1925年关于典型群表示的工作,就属于这一范畴。但很可惜,我们无法接触到Cayley, Schur 和“Hilbert 时期”之前的其他作者的更经典的基础性工作。
我从Schnirelman, Lavrentiev, Lusternik, Plesner, Petrovsky 那里学到很多,从 Andrey Nikolaevich Kolmogorov 学到的就更多了。特别地,我从 Kolmogorov 那里学到,一个真正的数学家必须是一个物理学家。
此后,我的故事就切换成标准的学术传记。然而,这种东西通常是非常容易令人引起误解的。一部真正的学术传记,只是科学家工作的汇集。一个人对自己的工作的印象,并不比其他任何读者对它的印象重要。因此,我就此结束我的故事。