中國第一批搜索引擎往事丨CERNET30周年

來源:中國教育和科研計算機網 時間:2024-10-14

  三大搜索引擎成功實現了他們的初衷——研究關鍵應用,積累搜索引擎技術,并在此基礎上培養了大批互聯網人才,他們走出實驗室,成為了中國互聯網發展的重要力量。

  1991年,蒂姆·伯納斯·李發明的WWW席卷了全球,規模每年翻一番的互聯網開始每三個月翻一番。

  但總的來說,全球互聯網還是一片待開墾的土地:人們找不著北,不知道去哪里尋找自己想要的內容。雖然互聯網將計算機連接了起來,卻沒有把人和互聯網連起來。在沒有搜索引擎的日子里,人們只能按圖索驥,點開一個又一個網站,逐個尋找自己需要的信息。

  1994年,美國斯坦福大學的研究生楊志遠(Jerry Yang)和大衛·費羅(David Filo)用人工分類目錄的方式制作了一個網站指南,這是由許多網站的鏈接組成的列表,取名為Yahoo。Yahoo一經推出就吸引了一大批需求者。

  但這種“喂到嘴邊”的目錄分類列表沒能真正滿足用戶的核心需求——讓信息蹦到眼前。

  搜索,作為互聯網最基本的信息服務,仍然沒有出現最優解,也因此成為全球互聯網研究人員傾注熱情的課題。

  CERNET三大搜索引擎啟航

  1995年,全球互聯網的用戶數量達到了1600萬。隨后的幾年里,風險投資家們忙得不可開交。《華爾街日報》說,幾乎每隔15秒就有一家以“.com”命名的新公司上市,互聯網走向了商業化。

  在網絡經濟破繭而出的前夕,中國全功能接入了國際互聯網。1994年4月20日,通過美國Sprint公司的64K專線,中關村地區教育與科研示范網絡NCFC接入國際互聯網。也在這一年,中國第一個覆蓋全國的互聯網主干網——中國教育和科研計算機網CERNET誕生了。

  從接入國際互聯網那一刻開始,中國就用互聯網連接并奮力追趕著世界。

  1996年,“九五”攻關啟動,旨在集中力量攻克產業升級和社會持續發展亟需解決的關鍵技術和共性技術。信息技術是其中一個重點領域。CERNET領到的任務是“計算機信息網絡及其應用關鍵技術研究”,即基于建成的CERNET示范工程,對計算機信息網絡及其應用關鍵技術展開研究。

  也就是說,一是要研究互聯網關鍵核心技術,二是要開展互聯網關鍵應用,從而構建一個完整的國內互聯網生態系統。項目提出了六大重要任務:網絡管理與運行技術、網絡及信息安全技術、網絡互連和路由技術、網絡設計和測試技術、網絡信息發現技術、典型網絡應用技術。而搜索引擎既屬于網絡信息發現技術,又屬于非常關鍵的互聯網應用。

  今天回過頭看,“九五”攻關的項目立項得非常及時,極具戰略眼光,富有遠見地抓住了互聯網發展的根本關鍵問題。

  搜索引擎研究課題采用的方式也非常有趣,并不是由一家單位來完成,而是選擇了三所高校來實施——清華大學、北京大學和華南理工大學。由此,在三所高校的網絡實驗室里,開啟了中國最早的搜索引擎技術研究。

  清華大學網絡指南針

501

網絡指南針搜索引擎主頁

  清華大學網絡指南針搜索引擎的研發由清華大學教授、CERNET網絡中心副主任李星主持。

  網絡指南針(Net Compass)的名字就是李星取的。早前,他從清華大學電子工程系本科畢業后赴美留學,1991年留學歸來后,他很不適應沒有網絡的生活,于是四處呼吁建設中國的互聯網。1994年,CERNET示范工程啟動,李星就被吸收進入了項目,所以他總說自己是“票友下海”。

  1996年,李星帶領他的學生們張俐、楊文峰、解沖鋒、李粵、許靜芳和崔偉東等開始了對搜索技術的探索。

  網絡指南針主要研究中文搜索引擎的技術實現。比起英文的字詞搜索,中文更難。因為英文的字與字之間有空格,能很自然地切分詞匯,而中文不是。因此,團隊面臨的第一個關鍵問題就是:如何切分中文的關鍵詞來進行搜索?字與字之間應該如何切詞?如果基于一個一個字來切,計算量巨大;如果基于詞來切,那么沒有實質含義的詞組要不要切?

  在充分考慮了中國文化背景和漢語的使用習慣后,網絡指南針對切詞的方式進行了調整。像《紅樓夢》里的語句:“雨村領其意,作別至館中,忙尋邸報看真確了。”“邸報看真”這樣的詞條,雖不是成語,也不是常用詞,但能在指南針上搜出鏈接。

  除了提供網站列表之外,網絡指南針還提供了一些關于鏈接的模糊信息,由一個詞可以衍伸至另一個相關的詞。

  這種做法一是給用戶提供了更多選擇,二是提升了用戶搜索體驗的趣味感。當用戶注意到一個突出顯示的文字或短語時,就會進行點擊以了解更多信息,鏈接就將他們帶到另一個頁面。比如搜索“cisco”,就會自動出現“路由器”的鏈接,用戶就能順藤摸瓜瀏覽其他網頁。

  1997年10月,網絡指南針開始向用戶提供中英文信息查詢服務,它收錄有20多萬網頁,收集了CERNET、ChinaNet、中國科技網和中國金橋網等信息資源。1998年7月《軟件世界》雜志上刊登的一篇名為《中文搜索網站介紹與比較》的文章評論說:“網絡指南針的特色在于查詢方法的多種多樣。其系統穩定性、查找速度均為中上之選。”

  從1999年12月到2000年8月,有10萬多名用戶對指南針進行了80多萬次的查詢,指南針成為教科網內知名的搜索引擎。

  “還是有遺憾的,”李星談起網絡指南針時表示,“第一個遺憾是依賴于集中式的技術,未能像谷歌那樣發明Map-Reduce技術,從而走到分布式。第二個遺憾是缺乏相應的機制,將網絡指南針商業化。”

  對于前者,網絡指南針當時的體系結構是集中式,隨著Web的發展,對于搜索引擎的可擴展性提出了挑戰。在互聯網發展初期信息量還沒有那么大的時候,集中式的技術確實可以滿足用戶的需求,而當互聯網飛速發展以后,這種模式就逐漸跟不上急速擴張的互聯網資源了。對于后者而言,商業化涉及時代理念和環境,更是難。

  對于搜索引擎而言,1998年是具有劃時代意義的一年。這年,斯坦福大學的博士生拉里·佩奇(Lawrence Edward Page)由科研文獻被引用率與其價值成正比想到,網頁鏈接也如此——不是所有鏈接都平等,一個鏈接被連接得越多,它就越重要。在此基礎上,拉里·佩奇和謝爾蓋·布林(Sergey Brin)發明了Page Rank(佩奇排名)算法。正是這個基于網頁鏈接分析的算法,使得搜索技術具有了和以往完全不同的使用效果,Google一舉成名。

  幾年后,Google發明了面向大規模數據處理的并行計算模型和方法——Map-Reduce技術,并將其廣泛應用于大規模的數據處理。技術上的不斷開拓,伴以成熟的風險投資機制,Google飛速壯大。

  然而,對于改革開放才20多個年頭、商業環境不夠成熟、還在迷霧中摸索互聯網技術的中國,一切都是Hard模式。和其他一些90年代的搜索引擎一樣,在缺乏商業化機制的情況下,網絡指南針沒能走到最后。二十世紀末的最后幾年,國內上網用戶的規模還很小,搜索引擎商業化的前景并不被看好。雖然在今天,在線廣告是互聯網最主流的變現模式,但在90年代,在報刊上登一次廣告的反饋率,比在網上登兩個月廣告的反饋率還要多一倍。

  網絡指南針(Net Compass)的名字還引發了一段小插曲。2024年,在中國互聯網協會舉辦的“中國互聯網30年紀念”座談上,搜狐的張朝陽回憶起1998年創立網站前夕,他靈光一閃,想出一個非常滿意的名字——指南針。他回到清華計算機系,興奮地和吳建平老師聊,吳建平說,清華的搜索引擎就叫指南針,還申請了域名。于是張朝陽把他的網站名改成了搜狐。“遺憾的是,后來我們的域名沒有連續交費,現在已經不在了,要是留著也挺好的。”李星回憶道。

  北大天網搜索引擎

502

天網搜索引擎主頁

  Google創立后的第二年,北京大學信息管理學院畢業的李彥宏結束了在美國的職業生涯,回國創業,劍指搜索引擎。他的首要任務是招兵買馬,傳說中“百度七劍客”中的兩位——劉建國和雷鳴——就來自北大天網搜索引擎。

  天網搜索引擎取意“天網恢恢,疏而不漏”,用在信息搜索上十分貼切。

  1996年,北京大學網絡實驗室陳葆玨教授帶著劉建國、周利民和雷鳴等人開始了對天網搜索的研發。劉建國是北大教師,其他人都是研究生。

  團隊認為,搜索引擎是系統層面的新事物。它本質上是一種信息服務,核心問題有兩個:如何返回用戶想要的信息,如何讓用戶快速訪問。也就是一要準,二要快。要從幾千萬甚至上億個網頁中找出信息并在1秒內返回,難如大海撈針,而團隊成功實現了從零到一的突破,并取得了階段性的成果。

  1997年10月29日,北大天網開始在CERNET上向用戶提供服務。到了1998年9月,訪問者已經超過了10萬。1999年《中國信息導報》發布了一篇名為《中文搜索引擎發展的現狀、問題及對策》的文章,對天網搜索引擎做出了如下評價:“北京大學‘天網’的關鍵詞查詢方式有簡單查詢和復雜查詢,查詢界面友好且功能性較強,相比而言,查準率較高,因而深受廣大網上用戶的青睞。”

  其實,劉建國很早就開始思考如何讓搜索引擎在巨大的市場競爭中逆流而上。在1998年的一次采訪中,他提到,就像以前的操作系統、字處理軟件最后被許多國外軟件占了上風一樣,搜索引擎也面臨同樣的問題。技術的深入、資本的投入和商業化可能才是做大做強的必經之路。

  1999年對于天網搜索而言是很特別的一年。那一年,李彥宏回國創業。回來前夕,他按照天網上的Email地址給劉建國發了一封郵件,邀請劉建國一起在中國開發一款搜索引擎。幾經思索后,劉建國辭掉了北大教師的職務,成為百度的第一名員工,負責技術研發。在劉建國的推薦下,北大天網的其他主力開發人員周利民、雷鳴也加入了百度。

  同年,陳葆玨教授退休,李曉明接任了北大天網研發負責人的職位。“在天網搜索引擎發展的第一階段,陳葆玨老師給我們打了一個很好的底子。從2000年開始,我們成立了新課題組,進入了北大天網第二階段的發展。新課題組的主要成員有王建勇、閆宏飛、彭波、謝欣和陳華等人。”李曉明說。

  彼時,互聯網上的網頁數量已達千萬級,閆宏飛和彭波開發了一套技術,以實現系統的并行化。陳華從雷鳴手里接下了當時并不受重視的FTP搜索任務,他還真做了出來,2002年,北大天網FTP搜索成為國內最著名的FTP搜索。北大網絡實驗室還運用了Google的新技術提升了系統的能力,推出了天網Maze。

  之后,北大天網迎來了它的第三個發展階段:留存中國互聯網的記憶。互聯網上信息紛繁龐雜,在缺乏維護的情況下,大多數網頁只是“縣花一現”,隨著時間的流逝而湮滅。2002年,北大網絡實驗室開發建設了“中國Web信息博物館”,到2015年,博物館收藏了70多億網頁文本數據,容量超200TB。2016年,實驗室將其捐贈給了中國計算機學會,向公眾開放。

  這一項目的意義最近越來越得到凸顯:2024年,一篇名為《中文互聯網正在加速崩塌》的文章在網上流傳,文章指出,中文互聯網上的許多歷史信息崩塌式消失,就像歷史中斷掉的鏈條一般。這篇文章讓許多人開始關注北大的Web信息博物館。這一項目的意義還不止于此——伴隨著近兩年生成式人工智能的發展,Web信息博物館里收集的近20年的數據成為了各大科研機構訓練大模型的寶貴語料,已經被30多家機構采用。當然,這是后話了。

  華南理工木棉搜索引擎

503

木棉搜索引擎主頁

  每年秋天,木棉花盛開時,華南理工大學的校園中好似有無數歡快的火苗在跳躍,滿樹粉黛亦如云如霞,而木棉搜索引擎這一美好的名字就由此而來。

  1996年,木棉搜索引擎的研發在華南理工大學信息網絡工程研究中心正式啟動。網絡實驗室的負責人是華南理工大學教授張凌,他同時也是CERNET專家委員會的副主任。那年,他和實驗室的董守斌教授一起帶著學生們研發木棉檢索。

  1998年12月,木棉正式向互聯網用戶提供服務,支持Web檢索、FTP檢索和信息采編。主要提供兩類信息檢索服務,一是面向學校、大型企業的企業級搜索引擎,如華南理工大學校內搜索、廣州科技網檢索系統等。二是面向教育網資源的全網專題檢索,這一系統面向中國教育和科研計算機網CERNET,整合了全國各類教育資源,為教育網用戶提供良好的信息檢索平臺。

  木棉檢索團隊在技術上做了很多探索。他們與清華大學聯合承擔國際聯網安全研究項目——“信息自動查詢與識別技術”,通過網絡信息抓取并實現敏感詞匯的過濾,這也是第一代帶關鍵詞過濾的爬蟲系統。

  他們還與Sun公司合作,建立了大陸第一個大型FTP開源文件下載中心(SunSite),并重點攻關FTP檢索,收集了百萬條FTP文件信息,支持對文件名、文件目錄和文件URL的模糊查詢和文件屬性的結構查詢,對大批量數據有較快的響應時間,是當時國內信息量較大和服務功能較完善的FTP檢索。

  進入二十一世紀后,互聯網技術得以快速發展。木棉搜索引擎也經歷了許多發展變化,其系統由集中式搜索改為分布式搜索,這是一個很大的調整。同時,盡可能選擇搜索領域的開源系統——如早期出現的Lucene——進行二次開發。

  2002年,北京大學主辦了第一屆全國搜索引擎和網上信息挖掘學術(SEWM)研討會。華南理工大學、清華大學緊隨后,主辦了第二屆和第三屆研討會。該會議當時是搜索引擎領域的旗艦會議,其主要特色是舉辦中文搜索引擎競賽測評。木棉搜索團隊多次在該會組織的測評中名列前茅。會議后改名為全國信息檢索學術會議(CCIR),舉辦至今年,剛好是第三十屆。

  2005年,董守斌和一起參與項目的袁華開設了“網絡信息檢索”本科課程。課程起初是作為網絡工程專業的特色課程,后發展為面向計算機學院的選修課,這也是國內首個講述信息檢索技術和搜索引擎原理的本科生課程。在多年研究與教學的基礎上,兩位老師撰寫了本科教材《網絡信息檢索》,獲評“十三五”高等教育本科國家級規劃教材。

  2009年,在發改委下一代互聯網項目的支持下,四所高校——華中科技大學、華南理工大學、北京大學、清華大學聯合開發了IPv6分布式搜索引擎,建設了下一代互聯網分布式搜索引擎平臺,促進了我國IPv6下一代互聯網應用的繁榮。

  互聯網人才培養基地

  2000年之后,國內掀起了互聯網商業化的浪潮,擁有商業資源的應用在資本的加持下一路前行,早期僅僅出于研究目的的搜索引擎逐漸退出了江湖。

  然而,不可否認的是,90年代末、00年代初,以網絡指南針為代表的三大高校的積極探索,為商業搜索引擎的飛速發展掃清了障礙——不僅積累了中文處理的優勢,更在此過程中培養了一大批技術人才,他們成為日后中國搜索引擎領域的骨干。

  在清華,團隊的學生們后來在互聯網領域大放異彩:張俐,后來任職IBM研究院;解沖鋒,現為中國電信北京研究院IPv6首席專家;李粵,博士畢業,現任華南理工大學副教授,繼續研究搜索引擎;許靜芳,現為微信搜索應用部副總經理,微信搜一搜業務負責人,在此之前,她是搜狗的高級副總裁。

  在北大,天網搜索引擎在整個發展中培養了諸多人們熟知的互聯網人才。搜狗的王小川用“黃埔軍校”來比喻,很可能是因為這里是新興互聯網技術公司的孵化器,也可能是因為從這里走出了許多成功的互聯網創業者。從天網搜索第一個發展階段的劉建國、雷鳴等人,到第二、三階段的陳華、謝欣等人,許多互聯網創業人從這里走出。謝欣現為字節跳動副總裁,陳華是酷訊網、唱吧的創始人,姚叢磊是百煉智能的聯合創始人,張志剛、陳靜是脈訊在線的聯合創始人,歐高炎創辦了博雅數智,陳日閃則在美國創辦了AutoBizLine,等等。“從這個實驗室出來的學生,創業密度特別大。”一家媒體說。

  華南理工大學的團隊也在數十年的研究與教學中培養了許多專業搜索技術人才,這些學生畢業之后活躍于騰訊、百度、搜狗、字節跳動、網易、中國電信、中國移動等公司的搜索相關部門,業已成為技術帶頭人及骨干成員。

  在這個意義上,三大搜索引擎已成功實現了他們的初衷——研究最關鍵的應用,積累搜索引擎技術,并在此基礎上培養了大批互聯網骨干人才,他們走出實驗室,成為了后來中國互聯網發展的重要力量。

  背景資料:“計算機信息網絡及其應用關鍵技術研究”項目

  1996年,由教育部主持,清華大學等14所高等院校和科研單位承擔的國家“九五”重點科技項目(攻關)計劃——“計算機信息網絡及其應用關鍵技術研究”經國家計委批復立項。1998年,該項目通過國家鑒定驗收,這也是我國第一個互聯網領域的國家重大科研項目通過驗收。項目涉及網絡互連、管理和安全方面的六大核心技術攻關。

  項目基于CERNET示范工程,圍繞網絡管理與運行技術、網絡及信息安全技術、網絡互連和路由技術、網絡設計和測試技術、網絡信息發現技術、典型網絡應用技術六大互聯網領域的關鍵技術和裝備進行攻關,在網絡管理系統、路由引擎、防火墻、搜索引擎等方面填補了國內空白。