【編按】2013年中文數字出書與數字圖書館國際研討會上,中華書局副總編輯顧青指出:理所當然的文物性善本紛歧定是文天性的善本。古籍數字化,依據的重要是文字,而不是文物。設想中的真正的古籍數字化,應該是將古籍文獻和出土文獻以及學術研討結果有機關聯而樹立的一套綜合知識服務體系,能夠供給檢索、類包養 聚、信息鏈接、知識提醒、甚至跨學科跨領域的知識比對的服務效能。
中文古籍數字化建設,自上個世紀80年月開始,至今超過了30年,業界經過多年的盡力,有不少產品面世并進進商業化應用,有許多機構和企業準備投進此中,成績顯而易見。但也存在不少問題,好比內容重復建設嚴重,知識產權侵權多見,數字化產品內容錯誤良多,質量明顯低于紙質產品,技術更換新的資料緩慢等等。
中華書局從事古籍收拾任務持續了近百年。1958年景為古籍收拾專業出書社。2003年起,開始進行中文古籍數字化任務,至今也已經10年了,期間實施了一系列實驗性的數字化工程:“中華古籍語料庫”,“二包養 十四史剖析系統”,“國家數字圖書館漢字信息標準”等包養 ,今朝正參與“中華字庫”工程。由此,我們積累了較為豐富的中文古籍數字化建設的經驗教訓,也慢慢構成了中華書局對中文古籍數字化建設的一些基礎吧。” 。”理念。
一、中文古籍數字化必須以古籍收拾為基礎。
今朝不少古籍數字化產包養 品,包養網 努力于數據量的累積,或所謂技術的更換新的資料,但往往都存在一個致命傷:質量。學者用來檢索可以,但不敢直接援用,寫論文時,還需求直接核對紙質收拾本,出處也只能依據包養網 紙質收拾本。緣由就是錯誤太多。
這就包養網 觸及到幾個久為業界和學界疏忽的常識:
常識一:幾千年流傳下來的古籍形成大批遺掉、訛誤、錯亂,時代和語言的變化,使得古籍未經認真收拾,當代人是很難直接閱讀應用的。
好比善本問題。
現在良多人科包養網 學善本。似乎包養網 善本就必定好,未必!
善本有兩個概念:一個是文物性的“善”,越早(宋元本),越稀見(秘本底稿)、越值錢(拍賣),就“小姐,您沒事吧?有什麼不舒服的地方嗎?奴婢可以幫您回聽芳園休息嗎?”彩秀小心翼翼的問道,心裡卻是一陣陣的起伏包養 越“善”。現在廣泛通行的應用的是這個概念。
另一個概念是文天性的“善”,內容完全準確,精校精刻,彩修回過頭來,對著師父抱歉地笑了笑,默默道:“彩衣不是這個意思。”經過認真的收拾。好包養網 比“二十四史”收拾本,就比百衲本、殿本要“善”得多。
越早的版本未必是內容最好的簿本。一個宋元的殘本,是理所當然的文物性善本,但必定不是文天性的善本。古籍數字化,依據包養網 的重要是文字,而不是文物。除非我們是為文獻學家供給版本記憶。
常識二:近百年來的古籍收拾實踐,收拾了數千種古籍,數百種精品,其內容質量遠超前代;并且構成了一系列成熟的古籍收拾規范。
這套古籍收拾規范,總結幾千年文獻學、傳統小學的結果,合適當代學術的需求,從選擇版本、標點、校勘、定字,到輯佚、匯編、影印等,包含古籍收拾包養網 的完全法式和各個細節,涵蓋從出土文獻到手本時代和刻本時代的各種文獻,觸及現代文明的各個學術領域和學科。合適古籍收拾規范進行收拾,質量就有基礎保證。否則,必定錯誤百出。
常識三:古籍收拾作品是有知識產權的,是遭到著作權法的確認和保護的,也是被司法實踐所證明的。
所謂古籍收拾作品沒有著作權的觀點,是錯誤的。
基于以上的常識,我們可以說,古籍數字化建設,必須以古籍收拾為基礎,需求有理解古籍收拾的專業人士來參與,必須充足應用已有的古籍收拾的結果,必須尊敬收拾者的著作權,獲得法令的保護。離開了古籍收拾基礎的古籍數字化,必定是後天缺乏,難以安康地成長。
二、中文古籍數字化建設必須依托一系列合適現代漢語文字特點和傳統知識體系的行業標準。
當我們把大批的文本數據匯集之后,假如簡單地進行字符串的檢索,一方面會出現大批的冗余數據,另一方面又會丟掉大批的有用數據,其緣由就在于沒有樹立健全的數據處理標準。沒有經過處理(清洗,標注,關聯等)的數據是分歧格的。這些標準,包含古籍及傳統文包養 獻數字化用字標準(規范漢字字表),收拾本古籍元數據標準及標注標準,收拾本古籍主題詞標準(規范主題詞詞表)等等。
好比,今朝業界廣泛應用的七萬多字的Unicode字符集,在古籍數字化中顯然不夠用。在我們的古籍收拾實踐中,還觸及大批漢字的本字未支出,大批的異體字、通假字、避諱字,也包含繁簡字和日、韓的漢字,都需求做清楚準確的規范。沒有一個合適現代漢字應用規范的漢字字表,顯然不可。
又好比,人名曹操,還包養網 有良多稱謂:孟德、包養網 吉祥、阿瞞、曹東郡、曹使君、武平侯、魏王、魏武帝、魏太祖等等,僅《三國志》一書中就還有25個,更不要說歷代文獻的各種稱謂了,會更多。最熟習曹操的專家在檢索“曹操”時,大要也不會把幾十個分歧稱謂都輸進一次。假如有了主題詞表包養 ,輸進一次“曹操”包養網 ,不僅讀者一切分歧的稱謂地包養網 點的文獻都檢索出來,並且系統還能提醒和曹操有關聯的主題。主題詞表的建設具有很強的專業性,應該包含時間、地點、人物、書目、職官、名物、語詞等等各類專題詞匯,并且有規范準確的歸類。
樹立標準,需求對這個行業包養網 的深入懂得,需求經歷古籍收拾和學術研討的長期積累,需求經過古籍數字化產品的檢驗校訂,并在應用中不斷完美。這是一項基于現代信息技術的、嚴謹而艱苦的學術任務。
三、真正的古籍數字化產品包養網 ,不僅僅是古籍文本的數字化,更應該“花兒,我可憐的女兒……” 藍沐再也忍不住淚水,彎下腰抱住可憐的女兒,嗚咽著。是中華文明知識貢獻的數字化,其本質是基于現代信息技術的對各類分歧用戶的服務。
今朝良多古籍數字化產品,還僅僅逗留在數據倉庫和字符串檢索的層面,既沒有充足應用現代古籍收拾結果和研討結果,也沒包養 有充足發揮當代信息技術的優勢,應該說,包養 還處于摸索階段。包養
我們設想中的真正的古籍數字化,應該是將古籍文獻和出土文獻以及學術研討結果有機關聯而樹立的一套綜合知識服務體系,能夠供給檢索、類聚、信息鏈接、知識提醒、甚至跨學科跨領包養網 域的知識比對的服務效能,讓專家學者和通俗年夜眾都能夠共享中華文明的偉年夜貢獻。
中華書局今朝正在做的古籍數字化任務:一方面,基于和紙質圖書同步開發的電子書,我們采取與各個優質平臺和渠道一起配合的方法,即將發布。另一方面,我們正在做的,有兩個數據庫產品:
一是“中華經典古籍庫”,精選近300種中國文明基礎典籍,包含十二五史、通鑒系列、諸子集包養網成、史料筆記叢刊等諸多經典系列,所有的解決版權問題,全都經過高程度的古籍收拾,質量與中華版紙質版本一樣,是可供征引的,質量是可以信賴的。數據進行了文本標引處理,對書中的註釋、注釋、校勘、專名、書名等都做了標注,可以分類檢索。同時,還附加原書的版面圖像,并將文字與圖像按頁碼逐一對應,為核對和援用供給了便利。在收錄數據的基礎上,該產品還添加了電子字典、歷史年表、箋注書簽等東西,極年夜地增強了古籍閱讀服務。
二是“中華基礎史籍知識庫”,是應用先進的信息技術包養 手腕,通過傳統文明知識元的關聯,將古籍文獻、學術著作、知識條目有機結合而樹立的立體化知識系統。作為知識剖析的先導性結果,中華書局已經在“二十四史”上樹立了基于本體的知識檢索模子,不僅能夠實現時間、地點、人物的知識關聯檢索,還可以通過可視化的情勢展現,包養網 反應人物、時間、地點和事務之間的語義關系。“中華基礎史籍知識庫”能夠供給傳統紙質包養 圖書無法實現的知識檢索、類聚、鏈接以及知識提醒等服務效能,比今朝已有的古籍數字化系統有進一個步驟的加強和創新,呈現了古籍文獻知識線索,廢除了信息孤島現象,買通了書的界線,樹立了圖書之間的聯系。同時“中華基礎史籍知識庫”打破專家與廣年夜讀者之間的知識與信息壁壘,讀者不再是包養網 單純的應用者,他們與系統能夠構成互動,貢獻本身的知識。
包養 這是中華書局同仁的一個幻想,是中華書局從事古籍數字化的夢想,需求大師的配合盡力。
來源:百道網