今年是CERNET建設30年。回望歷史,作為中國首個互聯網主干網,CERNET不僅見證了中國互聯網從無到有、從小到大的發展奇跡,也為高校師生群體提供了創新的舞臺,締造了中國互聯網歷史上眾多的第一。
中國第一個電子雜志的誕生
1995年1月12日,中國第一個電子雜志——《神州學人》電子版(英文名CHISA,取自China Scholars Abroad)誕生。
△1995年《神州學人》電子版的主頁
承載與發布這本電子雜志的平臺是1994年開始建設的我國首個覆蓋全國的互聯網——中國教育和科研計算機網CERNET。“一開始,我們就和CERNET結下了不解之緣。”曾任《神州學人》副總編輯的許瓏說。
海外學子的呼聲
創辦于1987年5月的《神州學人》是一本專門面向我國海外留學人員的雜志。
“改革開放后,許多中國留學生奔赴世界各地,但當時的通訊之難,成本之高,現在難以想象。這本雜志像是一個情感的紐帶,連接著身處全球的中國留學生們,大家對它有著非常特別的感情。”許瓏回憶。
80年代末,互聯網在國外大學首先興起,大學師生是最早接觸互聯網的群體。“能不能把國內的信息及時發布在網上?”這是當時很多留學生們的渴望。中央有關部門得知這樣的期待,于是在1994年10月21日,相關領導建議由國家教育委員會負責辦理此事。國家教委非常重視這項工作,4天之后,就向中央遞交了報告,指出已開始建立中國教育和科研計算機網CERNET,通過CERNET,即可讓國外的留學生看到國內的媒體信息。于是,1995年1月,在中央的指導和國家教委的推動下,《神州學人》電子版在CERNET上誕生了。
△1995年,時任國家教委主任朱開軒、副主任韋鈺等視察《神州學人》電子版
CERNET支撐CHISA的誕生
《神州學人》電子版CHISA誕生的前夜,1994年初,在當時國家計劃委員會、教育委員會的領導下,清華大學吳建平、李星等一批年輕的專家開始牽頭建設中國第一個互聯網主干網——中國教育和科研計算機網CERNET。
一個偶然的機會,聽說國家教委正在籌辦《神州學人》電子版CHISA,李星立刻想到,能不能把這本電子刊放到CERNET上?在回國之前,他在國外留學8年,對《神州學人》很有感情。正是這樣一種情結,使得李星極力爭取,要把《神州學人》電子版放在剛剛建成的CERNET上發布。
這和國家教委的想法不謀而合,可能也正是許瓏提到的“緣分”。當時CERNET的發起領導之一,也就是主管CERNET工作的國家教委副主任韋鈺,也分管留學生工作,而韋鈺本人的留學經歷和其“報效祖國,責無旁貸”的留學理念,使得她對留學生和《神州學人》也有格外的關注和厚愛。天時地利人和,就這樣,《神州學人》電子版和CERNET相伴而生。
《神州學人》電子版開辟了中國出版刊物上網的先河。對于這樣的新鮮事物,大家感到非常新奇,也非常包容與支持。“我們去辦理《神州學人》電子版出版手續時,新聞出版署期刊司說,這是一個全新的事物,他們之前也沒有任何經驗。讓我們先辦,也是給我國以后的電子刊摸索出一些經驗。” 回憶起29年前去新聞出版署的場景,許瓏說。
區別于《神州學人》雜志主要發表原創文章的模式,電子刊摘選匯集了當時許多媒體的精華文章。《神州學人》電子版的出版,主要分為兩個部分:神州學人編輯部負責內容建設,CERNET負責電子刊的發布、網頁的創建、運營和維護。
△2004年,CERNET網絡中心李星、朱爽回顧CHISA的創辦
名副其實的技術維護咨詢
《神州學人》電子版最初的服務器是一臺當時流行的Sun Sparc 20工作站,位于清華大學主樓CERNET的機房。
電子版的發布由CERNET網絡中心朱爽和李星老師共同完成。在當年那十分簡單,卻十分醒目的《神州學人》電子版的版權頁上,寫著一行字:“技術維護咨詢:朱爽,李星,chisa-tech@chisa.edu.cn ”。
“我們名副其實,哈哈。”朱爽回憶說。“為了趕國外讀者閱讀的時差,選定在每周周五發刊。”
雖然設備已經是當時的最好,但互聯網是那么新,全球當時的網絡硬件環境、發布技術和軟件環境都剛剛起步:短短兩萬多字的文字內容,有時要花上幾個小時才能發布完成。為了電子版的發布和網上傳播萬無一失,李星和朱爽進行了大量的準備。為保證1月12日順利發刊,他們要在1月6日發布“試刊”。在試刊的過程中,解決了許多技術上的小挑戰。
最初,電子刊只是簡單的文件格式,編輯部制作成磁盤,由專人送到CERNET網絡中心,后來通過FTP上傳到網絡中心,再后來,就直接以撥號上網的方式上傳到服務器了。
在收到編輯部發來的期刊后,他們將當期的內容生成各種編碼版本,包括GB、BIG5、HZ、T3、ISO2022-CN和Postscript等,這些今天我們看來非常簡單的技術,在當時卻是相當專業、超前的。經過編碼后的版本被發布到FTP、GOPHER和WWW上,同時以UUCODE編碼郵件,發送到海外留學人員的訂閱郵箱中。
“無論是在外出差還是寒暑假,我們都想方設法地保證在周五按時發布上線。”朱爽說。
1995年1月15日,李星和朱爽到泰國參加第一屆亞太地區網絡信息中心會議。會后,在取道香港回北京時,正好是個周五——電子版第二期的發刊日。他們抵達香港后,顧不上忙其他事情,第一時間就去了香港中文大學網絡中心,為的就是準時發布《神州學人》電子版。
“電子刊創刊僅僅幾個月,隨機瀏覽人數就達到了數萬人,訂閱人數有8000多個。”許瓏說。一時間,《神州學人》電子版成為了中國互聯網上的一道亮點,連版權頁的技術維護咨詢郵箱都收獲了許多讀者熱情洋溢的來信。“有不少讀者詢問英文環境下閱讀中文的問題,我們當即做了一個如何在網上閱讀中文的指南。后來,為了方便讀者查找信息,我們還做了詳細目錄分類檢索。記得李星老師還常常現寫一些小的軟件來幫助發布,比如檢查編碼錯誤等等。”朱爽回憶。
在那段時間里,為了讓電子刊發布得更好更快,他們研究出了很多小技巧,比如電子郵件討論組技術(MAILING-LIST)。后來,《神州學人》電子版還有了詳細的目錄分類。當時李星教授帶的一位研究生還針對電子版內容的特殊性,設計了最初的中英文搜索引擎,方便讀者查找電子版上的有關資料。這在當時互聯網剛剛興起的全球,都是非常實用、有趣的探索。
開創了一個先河
1995年的夏天,時任國家教委主任朱開軒、副主任韋鈺來到了位于CERNET網絡中心的機房,視察電子刊工作的進展情況。韋鈺表示:“《神州學人》電子版是與《神州學人》雜志比翼齊飛的一份電子雜志。”
“電子雜志發布后,收到了來自全世界的聲音,每一期內容刊發后,都有幾百個留學生給我們發Email互動。大家把身在異國他鄉的所思所感都通過互聯網與我們分享,非常讓人感動。”許瓏說。
在沒有其他來自祖國的中文刊物上網的年代,這份來自祖國的聲音彌足珍貴。當時的讀者紛紛表示:“讀到神州學人電子版,猶如飲到了沙漠中的甘泉,聽到了來自北京的聲音。”“在國外通過《神州學人》電子版直接點擊國內要聞和自己感興趣的欄目,倍覺親切溫暖,心能與祖國一起跳動。”
《神州學人》電子版的問世,開創了國內中文媒體進入國際互聯網的先河,具有劃時代的歷史意義,它的創辦,立即引起了國內媒體的關注,中央電視臺新聞聯播、新華社、人民日報等媒體都迅速發布了消息。
隨著《神州學人》電子版影響力的增大,國務院新聞辦公室將其納入了國家對外新聞宣傳平臺。國內高校編寫的新聞學教科書也將《神州學人》電子版的誕生作為開創性的歷史事件,編入了我國新聞發展史。
1995年,美國國會圖書館電腦網絡中心OCLC(Online Computer Library Center)將《神州學人》電子版正式編目,成為被此類大型圖書館編目的第一個中國大陸的中文新聞媒體。
“有一次我看王小丫主持的《開心辭典》,其中一個問題是‘我國最早的電子期刊是哪一家’?臺下一位來自媒體的答題者很快就說:《神州學人》!我當時非常的激動和自豪。”回顧往事,已經退休多年的許瓏說。
擴展閱讀:1990年代的網絡刊物發行技術
三十年前網絡刊物發行技術與當今并不一樣。為了適應全世界各個地區讀者環境的多樣性,《神州學人》網絡版發行了不同的形式,使用不同的中文編碼方法。
一、應用協議
1.郵件列表(Mailing List)
郵件列表的起源可以追溯到1975年,是互聯網上最早的社區形式之一,也是Internet上的一種重要工具,用于各種群體之間的信息交流和信息發布。
早期的郵件列表是一個小組成員通過電子郵件討論某一個特定話題,一般稱為討論組,由于早期聯網的計算機數量很少,討論組的參與者也很少。討論組很快就發展演變出另一種形式,即有管理者管制的討論組,也就是通常所說的郵件列表,或者叫狹義的郵件列表。
由于互聯網早期使用ASCII編碼,只有7比特,電子郵件、域名系統(DNS)等主流應用只支持7比特的透明傳輸,因此,對于中文等多字節文字(每個字節的全部8比特均需傳輸)必須轉換成7比特字符。從而《神州學人》郵件列表采用了UUCODE編碼。
2.文件傳輸協議(FTP)
文件傳輸協議(File Transfer Protocol)是在計算機網絡的客戶端和服務器間傳輸文件的應用層協議。傳送文件(file transfer)和訪問文件(file access)之間的區別在于:前者由FTP提供,后者由NFS等應用系統提供。文件傳輸協議由RFC959規范。
FTP是8位的客戶端-服務器協議,能操作任何類型的文件而不需要后續處理,就像MIME或Unicode一樣,但FTP有極高的延時,意味著從開始請求到第一次接收數據間的時間非常長,并且必須不時地執行一些冗長的登錄進程。
Chrome和Firefox等主流瀏覽器都計劃棄用對FTP的支持, 2019年推出的Chrome 82已停止對FTP支持,2020年疫情原因導致遠程辦公需求增加,Chrome短暫地恢復了FTP,但于2021年10月推出的Chrome95完全移除了FTP相關代碼。而Firefox原計劃在版本77中停止支持FTP,最終在2021年7月發行的90版正式停止支持FTP協議。微軟的Edge瀏覽器也在2020年起停止支持FTP,Internet Explorer 11仍保留FTP客戶端,直到2022年6月15日終止支持。
3.地鼠(Gopher)
Gopher是一個互聯網上使用的分布型的文件搜集獲取網絡協議。它是1991年由明尼蘇達大學發明的。“Gopher”(地鼠)這個名字有三層含義:第一是“挖掘信息”;第二,使用菜單形式搜集來的信息與地鼠洞相類似;第三,明尼蘇達大學有一支運動隊名叫“黃金地鼠隊”。
Gopher最初的設計目標與萬維網類似:共享文檔。今天的萬維網幾乎已經替代了Gopher。但Gopher協議還提供了一些萬維網先天缺乏的功能,比如在Gopher中所有信息都以層級形式存儲,這被認為是存儲大量信息的最好方式之一。
萬維網在1991年被發明,由于耗用帶寬較少,Gopher網絡當時仍然是非常流行和制作精良的。1993年2月,明尼蘇達大學宣布他們將對Gopher的使用收取執照費,這就部分減少了Gopher服務器數量。一些人相信這是Gopher變成互聯網歷史的原因。很多人相信Gopher的衰微實際上是它那有限制的結構造成的,這種結構使得它沒有自由形態的HTML網頁靈活。使用Gopher時,每個文檔都已有一個預定義的格式和類型,一個Gopher用戶必須通過一個服務器定義的系統菜單導航進某一個特定的文檔。很多人不喜歡Gopher系統中這種人為制造的菜單和文件的區分,而Web網絡上使用的超文本協議和交互式應用程序顯得更為開放靈活。
4.萬維網(WWW)
萬維網(World Wide Web)是一個通過互聯網訪問的、由許多互相鏈接的超文本組成的信息系統。英國科學家蒂姆·伯納斯-李于1989年發明了萬維網,1990年,他在瑞士CERN工作期間編寫了第一個網頁瀏覽器。網頁瀏覽器于1991年1月向其他研究機構發行,并于同年8月向大眾開放。
萬維網是信息時代發展的核心,也是數十億人在互聯網上進行交互和瀏覽的主要工具。網頁主要是文本文件格式化和超文本置標語言(HTML)。除了格式化文字之外,網頁還可能包含圖片、影片、聲音和軟件組件,這些組件會在用戶的網頁瀏覽器中呈現為多媒體內容的頁面。萬維網并不等同于互聯網,萬維網只是互聯網所能提供的服務之一,是靠著互聯網運行的一項服務。
1993年4月30日,歐洲核子研究組織宣布萬維網對任何人免費開放,且不收取任何費用。兩個月之后,Gopher協議宣布不再免費使用,造成大量用戶從Gopher轉向萬維網。早期流行的網頁瀏覽器是用于Unix和X Windows系統的ViolaWWW。
學者普遍認為,萬維網的一個轉折點始于1993年推出的Mosaic網頁瀏覽器,這是由伊利諾伊大學厄巴納-香檳分校(NCSA-UIUC)的國家超級計算機應用中心團隊所開發的圖形接口瀏覽器,由馬克·安德里森領導。Mosaic的資金來自美國高速運算及通信計劃(High-Performance Computing and Communications Initiative)和高速運算及通信法案(High Performance Computing and Communication Act of 1991),這也是美國參議員阿爾·戈爾所發起的幾項運算發展計劃之一。在Mosaic發布之前,網頁中的圖片和文字混合并不常見,萬維網的受歡迎程度遠低于互聯網上使用的舊協議,例如Gopher和WAIS。Mosaic的圖形使用接口讓萬維網成為迄今為止最受歡迎的互聯網協議。
1994年10月,萬維網聯盟(W3C)在麻省理工學院計算機科學實驗室成立,建立者是萬維網的發明者蒂姆·伯納斯-李。到了1994年底,全球網站數量仍然相對稀少,但是很多著名網站已經相當活躍,這些網站已經預示或者啟發了當今最流行的服務。
二、中文編碼
1.UUCODE (uuencoding)
uuencode這個名字衍生自"Unix-to-Unix encoding",原先是Unix系統下將二進制的資料借由uucp郵件系統傳輸的一個編碼程式,是一種二進制到文字的編碼。uudecode是與uuencode搭配的解碼程式,uuencode/decode常見于電子郵件中的檔案傳送以及usenet新聞組和BBS的貼文等等。近來已被MIME大量取代。
2.GB
GB/T 2312,GB/T 2312—80 或 GB/T 2312—1980 是中華人民共和國國家標準簡體中文字符集,全稱《信息交換用漢字編碼字符集·基本集》,通常簡稱GB(“國標”漢語拼音首字母),又稱GB0,由中國國家標準總局于1980年發布,1981年5月1日實施。
在GB 2312內,每個漢字及符號的碼位使用兩個字節來表示。第一個字節稱為“高位字節”,對應分區的編號(把區位碼的“區碼”加上特定值);第二個字節稱為“低位字節”,對應區段內的個別碼位(把區位碼的“位碼”加上特定值)。
3.BIG5
大五碼(英語:Big5,又稱五大項目碼、五大碼)是繁體中文社群最常用的電腦漢字字符集標準,共收錄13060個漢字。
大五碼是雙字節字符集,以十六進制表示,使用雙八碼存儲方法,以兩字節安放一字。第一字節稱為“高位字節”,第二字節稱為“低位字節”。
4.Postscript
PostScript(PS)是一種頁面描述語言和編程語言 ,由Adobe Systems公司于1984年推向市場。大概在這個時候,史蒂夫·喬布斯參觀了Adobe公司的工作,并敦促他們改進PostScript作為驅動激光打印機的語言,將其添加到Canon打印機,誕生了LaserWriter。1985年3月,Apple LaserWriter是第一款帶有PostScript的打印機,這也帶來了1980年代中期的桌面印刷革命。它的技術優點和廣泛應用使得PostScript成為打印應用領域影像輸出的一個選擇。直到1990年代,PostScript語言解釋器,有時稱作Raster image processor,曾經一度成為激光打印機的一個普通組成部分。隨著使用電子方式發布文檔最終版本成為事實上的標準,PostScript就在這個領域不斷地被它的后續版本Portable Document Format(PDF)所超越。
5.HZ
HZ編碼是1988年發明的編碼系統。其目的是在7字節的限制下(如電子郵件)儲存GB/T 2312的雙字節字符。
其在ISO 2022編碼字符的前后分別加上轉義字符~{(7E 7B)和~}(7E 7D)后,使用正常的ASCII轉碼變成 ASCII 字符。部分機器也可以接受使用EUC-CN編碼的轉義字符。
HZ出現于RFC 1843《HZ - A Data Format for Exchanging Files of Arbitrarily Mixed Chinese and ASCII characters》,作者來自斯坦福大學。
6.T3
T3其目的是在7字節的限制下(如電子郵件)儲存BIG5的雙字節字符。
7.ISO2022-CN
為避開ASCII字符中的不可顯示字符(十六進制為0×00至0×1F,十進制為0至31)及空格字符(十六進制為0×20,十進制為32),國標碼(又稱為交換碼)參考ISO 2022規定表示非ASCII字符雙字節編碼范圍為十六進制為 <21 21>-<7E 7E>,十進制為 (33, 33) 至 (126, 126)。因此,在進行碼位轉換時,須將“區碼”和“位碼”分別加上32(十六進制為0×20)作為國標碼。
在這個編碼模式內,軟件需要使用低端控制字符(C0),高端控制字符(C1)和US-ASCII字符集(GL)標注字符屬于單字節(ASCII)還是雙字節,相對容易造成亂碼(如丟失控制/轉義字符)。
ISO2022-CN在RFC 1922《互聯網消息的漢字編碼》(Chinese Character Encoding for Internet Messages)中被定義。RFC1922是中國大陸的第一個RFC,其主要作者來自清華大學。
8.UNICODE
Unicode,全稱為Unicode標準(The Unicode Standard),其官方機構Unicode聯盟所用的中文名稱為統一碼,又譯作萬國碼、統一字符碼、統一字符編碼,是信息技術領域的業界標準,其整理、編碼了世界上大部分的文字系統,使得電腦能以通用的字符集來處理和顯示文字,不但減輕在不同編碼系統間切換和轉換的困擾,更提供了一種跨平臺的亂碼問題解決方案。Unicode由非營利機構Unicode聯盟(Unicode Consortium)負責維護,該機構致力于讓Unicode標準取代既有的字符編碼方案,因為既有方案編碼空間有限,亦不適用于多語環境。
Unicode伴隨著通用字符集ISO/IEC 10646的標準而發展,同時也以書本的形式對外發表。Unicode至今仍在不斷增修,每個新版本都加入了更多新的字符。目前最新的版本為2022年9月公布的15.0.0,已經收錄超過14萬個字符(第十萬個字符在2005年獲得采納)。Unicode標準不僅僅是為文字指定代碼。除了涵蓋視覺上的字形、編碼方法、標準的字符編碼資料外,聯盟官方出版品還包含了關于各書寫系統的細節及呈現方式,如規范化的準則、拆分、測序、繪制、雙向文本顯示、書寫方向、字符特性(如大小寫字母)等等。此外還提供參考資料和視覺圖像,以幫助開發者和設計師正確應用標準。
Unicode備受認可,被ISO納入國際標準,成為通用字符集,即 ISO/IEC 10646。Unicode兼容ISO/IEC 10646,能完整對應各個版本標準。Unicode廣泛應用于電腦軟件的國際化與本地化過程。很多新科技,如可擴展置標語言(Extensible Markup Language,簡稱:XML)、Java編程語言以及現代操作系統,都采用Unicode來編碼。Unicode最普遍的編碼格式是和ASCII兼容的UTF-8,以及和UCS-2兼容的UTF-16。
(以上資料來自網絡)
來源:中國教育和科研計算機網CERNET