2011年2月26日 星期六

齊 KEY 2011 中文學習軟體(http://www.cjkware.com/)的一個重大問題:無法輸入漢字

(原文: http://www.evernote.com/pub/hukeli7/public#v=l&n=6eca6392-40fb-4b82-9b15-34d8525e685d&b=0

我用搜狗輸入法,可以正常輸入漢字到「文林」軟體的編輯器中,但到了「齊 KEY」,則只能透過「copy & paste」方式貼中文字,無法正常輸入,如下圖,當我按「1」鍵後,它並不接受。


得到小結論:即便這個「齊 KEY」軟體的漢英詞典號稱不斷更新,並海量收詞30萬,也偶爾出現比「ABC Comprehensive C-E」好的漢英收詞和釋義,尤其是佛教用語,但是軟體要價$200,我還是省了這錢吧。

2011年2月25日 星期五

有道詞典中《21世紀大英漢詞典》的收詞量應屬第一,以冷僻字 sophrosyne 為例

http://www.evernote.com/pub/hukeli7/public#v=l&n=4dadee92-d504-48af-a113-6179aa43c627&b=0

sophrosyne 這個冷僻字,是一般千來頁的大學型英英詞典都不收的字,更遑論學習型英英詞典了。

在我收藏的英英詞典中,收詞量高達60萬的詞典之王《牛津英語詞典》(Oxford English Dictionary, OED)有收,而且照例列出該詞在英語文獻中引用過的例證:


其次,喜見收詞量45萬的美國版詞典王Merriam-Webster's Third New International Dictionary (MWTNID)收列其中:


那麼,大型英漢詞典呢?

號稱收詞22萬、陸谷孫編的《英漢大词典》第二版未收:


號稱海量的電腦詞典《金山詞霸》2007與2010版也槓龜:




最後,我試了試近年來,功能、使用者介面、氣勢都逐漸淩駕於金山詞霸之上的《有道詞典》,欣然發現 sophrosyne 的蹤影。


雖然上圖未顯示,我估計,此字是出現於有道詞典所彙集的幾部詞典中的《21世紀大英漢詞典》,號稱收詞40萬,應該是英漢詞典中的老大哥了吧。

雖然只是對一個冷僻字的探索,不足以以偏蓋全,也不能證明哪一個英漢詞典釋義品質最高,但是近來我對《21世紀》這個電腦詞典的使用遠多於其他英漢詞典,原因莫過於收詞多、電腦版、可以滑鼠螢幕取詞,更別說整個詞典完全免費安裝、免費更新!

於是我在此對對岸免費供大眾享用的這個詞典,不禁要小小誇獎、推廣一番。

2010年12月9日 星期四

教授、探討漢語文法的書豈能不區分「主題」和「主語」?

1996年前買了繁體版的《實用現代漢語語法》(劉月華等著),讀了幾頁便因內容繁瑣而束之高閣。

自己的母語漢語文法究竟是什麼樣貌,我自高中便深感興趣,在深入研究、研讀英語文法的同時,很難不把同一套英語文法的系統搬移過來,想直接套在中文上,給句子的每一個成份貼上如「主詞」、「動詞」等詞類標籤。

這樣的做法其實不對,這點在研讀另一本漢語語法書《漢語語法》("Mandarin Chinese--a functional reference grammar")(Thompson、Li著)時,我便有體會。該書寫得非常深奧、不好懂,比較像學術論文,但第二章直接點明漢語「主題明顯」的特性,深植我心。

今天,重新溫習該書對「主題」的探討,還是深感同意。此外,我直接跳讀第二十一章,看該書怎麼對中文經常出現連續幾個動詞和字句或片語的句子如何剖析,原文把這類句子稱serial verb construction,黃宣範翻成「遞繫句」。對這種句子的分析和歸類真的很重要,我終於覺得對自己的母語的文法有進一步認識。

讀完Thompson、Li,再重翻《實用》一書,竟然發現寫得密密麻麻、厚重的五百多頁裡,竟然未提到「主題」一詞,我在書中有關句子成份的探討和範例裡,也完全找不到像這樣簡單常見的句子:

我頭痛。

晚飯我已經吃了。

小明女朋友很多。

也就是說,看來劉月華等諸位漢語的老師和作者,不認為以上三個句子是可以合法出現的中文咯?

我猜測,此書會把第一、三句解釋成是「我的頭 痛」和「小明的女朋友多」兩句省略了「的」字而成的,所以主語還是「頭」和「女朋友」,至於「我」和「小明」只是形容詞。

那麼第二句呢?難道定要還原為「我的晚飯已經被吃了」不成?

果真如此,這根本是拿西方文法的架構來戕害中文啊!

一本教授、探討漢語文法的書豈能不區分「主題」和「主語」的?簡直不倫不類!

不管《實用》對中文其他方面的探討有多精闢,我已經沒有讀下去的欲望。

成功人士的典範

讀完一本英譯中的好書「錢與閒」,第一件要記住的事是:「主動積極投資自己的人生,被動投資你的金錢。」

三更半夜,不知不覺喝下半瓶白葡萄酒,上網閱聽到溫家寶在某場國際記者會上引經據典,引用了我從沒聽過的丘逢甲的詩句,但他的女譯員竟然見招拆招,完整譯出詩的大意。

作為批判思考者,我想,讚歎之餘,我們從這裡應該學到的是,該口譯員是台下準備了十年的工夫,才得以在臺上的十分鐘遊刃有餘、完美演出。她必定是花費無數個夜晚、搜羅了溫家寶所有說過的引經據典的前例,死背強記,讓這些經典性的詞句成為銘刻在大腦的反射動作。我不相信有人在沒聽過原詩的情況下能有這樣的表現。但是,她這方面的努力,就足以令人欽佩,其實,我最大的感觸是,當今中國口譯員的訓練好像就是這樣來的,以勤補拙,以時間和練習量換取素質,這是很嚇人的。

另外,我又聽到了另一位中國籍口譯員為朱鎔基在06年一場布希記者招待會上的中進英逐步口譯,標準的英國紳士腔英語口音,通順、詳細的內容,沒有停頓、遲疑的演繹,雖然有些冗贅,但著實已經瑕不掩瑜,令我佩服不已。

我在想,這兩位不可謂不成功的口譯員,應該在「投資人生」這塊上,感到無比的驕傲和快樂,即使沒有擁有萬貫家財,也應該得到別人的尊崇和欽羨吧。

此刻的我,正處事業低潮,但我還是懷抱希望,希望以這兩位成功人士的典範,激勵自己追逐夢想、勇往直前!

2009年10月13日 星期二

橫衝直撞學Java IDE

一直很想用IDE來提高編寫Java程式的效率,像是好幾年前開始接觸的IntelliJ,我一直很喜歡它的介面,如今工作上有需要,我也開始溫習Java,不過總是要開始踏出第一步,真的寫code。IDE雖然用了可以提高效率,但是煩人的地方是,你必須按照它的方式建立project、module等額外的東西,然後才開始設計class,問題是,我試了老半天,一直無法理解如何正確建立project、module和源程式的路徑,好讓編譯時不會出現找不到程式庫等的錯誤。

直到不小心找到這段「60秒搞定Hello World」的簡短教學: http://www.jetbrains.com/idea/training/demos/rob/hello_sixty.html

看了以後恍然大悟,終於有了突破!原來,應該按照這個步驟:

1. 建立project,project名隨意。
2. 建立single-class module,module名任意。必須選擇建立src目錄。
3. 選按src目錄,點右鍵,新增「package」--這是我出錯的地方。
4. 輸入package名,如com.foo.bar.hello--這是另一個我料想不到的步驟,我以前都跳過這一步,直接加class。
5. 選按建立好的package,點右鍵,新增class。
6. 輸入class名稱,例如Hello。
7. 這時,Hello.java這源程式檔案就會自動建立於正確的路徑(即src/com/foo/bar/hello/Hello.java),開始鍵入code,按ctrl-alt-F9編譯時一切順利!
8. 如果需要調用其他jar或class檔,應該選擇project名,點右鍵,在module setting下的「dependency」tab新增需要的jar檔即可。

弄懂一直放在心上的一樣東西,感覺真好,慶幸自己不是完全沒用的廢人。

2009年9月22日 星期二

重溫國高中數學和微積分?

這裡發現了詳盡、完整的影音和文字教學,一看到主題列表,時間突然整個倒推二十五年!

書到用時方恨少,我真有想把三角函數和微積分好好重學一遍的衝動,這麼做的目的,其實是爲了重新學好機率和統計,好讓自己在看到密密麻麻的符號和微積分公式時不會昏倒。至於為什麼要學好機率和統計?答案是,希望能讀懂「Foundations of Statistical Natural Language Processing」這本聖經!

後記: 在這裡找到很棒的「機率和統計」教學,看起來課程大綱很完整且有系統,只不過沒有影音只有文字。

2009年9月20日 星期日

[轉載]翻譯標準「雅」字的真義

(以下這篇文章,是我看過對翻譯標準中的「雅」字最精闢的解說,很多人以為雅除了「文雅」、「優雅」沒有其他意思,真是大錯特錯。但是,可惜不知文章的第二部份在哪裡,各位看倌如果知道請告知。)

翻译三境界——我所理解的信达雅

SuperSnoopy 发表于: 2008-3-27 00:37 来源: 51nb.org

[美语世界] 作者:周旋久

翻译理论对翻译实践未必有多大的指导作用。现代翻译理论花样翻新,“直译”“意译”之争由来已久,至今聚讼纷纭;“异化”“归化”之辩近年也甚嚣尘上;至于 把文化殖民理论等引入翻译学,讨论的已经不是翻译本身的问题了。种种理论,归根结底,恐怕都不出严复“信、达、雅”三字的范畴。但“信达雅”本身,历来也 是争论的焦点。赞同者未必真赞同,反对者也未必真反对,赞同者和反对者可能就站在同样的立场上,就看各人对三字怎么理解了。我说说自己一点浅薄的见解。

1. 雅
是三字中最受诟病、最赚争议的一个。“信、达”似无破绽,所以攻击严复译论一般都是从“雅”入手,通常是“去雅”,所以 有“信、达、切”甚至“信、达、优”等“修正”理论出现。奇怪的是很多人把“雅”看成文辞的“美”甚至“唯美”,真是比偏颇还偏。“雅”虽有“美好”的意 思,但主要训义为“正”,与“变”相对,有“正确”“合乎规范”的意思。在中国文学史上,“雅”非但不指文辞之美,甚且是反抗“文过其质”的武器。文辞之 美到齐梁是一个高峰,到唐代反对的人越来越多,通常标举的便是“风雅”。陈子昂说:“思古人,常恐逶迤颓靡,风雅不作,以耿耿也。”(《与东方左史虬修竹 篇序》)李白说:“大雅久不作,吾衰竟谁陈。”(《古风》)杜甫说:“别裁伪体亲风雅,转益多师是汝师。”(《戏为六绝句》)。
严复的翻译文体是 桐城派古文,桐城一派主要宗尚先秦散文,也可以说是尚“雅”,求“文质彬彬”的效果,不是徒珍绮丽。在严复同代人和后代人看来,严的译文古雅得要命,连同 样用文言翻译的梁启超都批评“其文章太务渊雅,刻意模仿先秦文体,非多读古书之人,一翻殆难索解。”。严复在回答梁的《与梁任公论所译〈原富〉序》中表明 了他的用心,下面一段,至关重要:

“窃以谓文辞者,载理想之羽冀,而以达情感之音声也。是故理之精者不能载以粗犷之词,而情之正者不可达 以鄙倍之气。中国文之美者,莫若司马迁韩愈。而迁之言曰:“其志洁者其称物芳。”愈之言曰:“文无难易惟其是。”仆之于文,非务渊雅也。务其是耳。且执事 既知文体变化与时代之文明程度为比例矣,而其论中国学术也,又谓战国隋唐为达于全盛而放大光明之世矣,则直用之文体,舍二代其又谁属焉?且文界复何革命之 与有?持欧洲挽近世之文章,以与其古者较,其所进者在理想耳,在学术耳,其情感之高妙,且不能比肩乎古人;至于律令体制,直谓之无几微之异可也。若夫翻译 之文体,其在中国,则诚有异于古所云者矣,佛氏之书是已。然必先为之律令名义,而后可以喻人。设今之译人,未为律令名义,闯然循西文之法而为之,读其书乃 悉解乎?殆不然矣。若徒为近俗之辞,以便取市井乡僻之不学,此于文界乃所谓凌迟,非革命也。且不佞之所从事者,学理邃赜之书也,非以饷学僮而望其受益也, 吾译正以待多读中国古书之人。使其目睹中国之古书,而欲稗贩吾译者,此其过在读者,而译者不任责也。夫著译之业,何一非以播文明思想于国民?第其为之也, 功候有深浅,境地有等差,不可混而一之也。慕藏山不朽之名誉,所不必也。苟然为之,言庞意纤;使其文之行于时,若蜉蝣旦暮之已化,此报馆之文章,亦大雅之 所讳也。故曰:声之眇者不可同于众人之耳,形之美者不可混于世俗之目,辞之衍者不可回于庸夫之听。非不欲其喻诸人人也。势不可耳。”

这里 严复说“非务渊雅也,务其是耳”,并引韩愈句“文无难易惟其是”。他的翻译并不是徒务渊奥古雅,而是出于“达意”的需要,因为“文辞者,载理想之羽冀,而 以达情感之音声也”。文辞只有为“目标读者”所理解,翻译才能达到“播文明思想于国民”的目的。而严复“之所从事者,学理邃赜之书也,非以饷学僮而望其受 益也,吾译正以待多读中国古书之人”。书既为“多读中国古书之人”而译,采用的文体就要照顾他们的阅读审美习惯。而战国隋唐二代的文体达于全盛,“律令名 义”尤其适合传达“邃赜”的“学理”。从上面的引述不难看出,严复重“雅”,既考虑所译之书的风格(“学理邃赜”,非渊雅之辞不足以达意),又顾及时代条 件所限的“目标读者”(“非不欲其喻诸人人也。势不可耳。”)究其根本,“雅”也是为了“达”。所以说,如果译者“未为律令名义”,不能运用合乎规范的本 国文体传达原文,“闯然循西文之法而为之,读其书乃悉解乎?殆不然矣。”但“雅”跟“达”又有不同,“雅”是“达”的进一步完善而不是瞿秋白所说的“以一 个‘雅’字打消了‘信’和‘达’”。这一点后面再说。


2.信和达
一般来说,翻译必须求“信”。通常读者是冲着原作者而不 是译者来的,译者的职责是如实把作者介绍给读者。不忠实的翻译所以有人读,要么是因为很少人能读懂原文,读者被蒙在鼓里;要么是因为译者名气很大,读者看 的是译者的表现。菲兹杰拉德译波斯《柔巴依集》、庞德译东方诗所以能产生大影响,想来跟着两种原因不无关系。但这些不是严格意义上的翻译,所以一般文集都 作为译者本人的创作收录。
翻译没有百分之百的“信”。一种文字在转换成另一种文字的过程中,多少总会失落旧的元素并挟上新的特点。但作为一种追 求,翻译求“信”是无可非议的。问题出在“信”和“达”的关系上。历来的看法是把两者连同“雅”放在同一层面上,认为好的译文就是要既“信”且“达”外加 “雅”。然而这样一来,“信”和“达”就叠床架屋了。有不“信”的“达”么?不“信”的“达”能叫“达”么?答曰:没有。不能。这也是论家抨击较集中的一 点。但我们可以反过来问:有不“达”的“信”么?不“达”的“信”却是有的。译文可能很忠实于原文,而让读者如堕五里雾中。把milky way译成“牛奶路”,不可谓不“信”,却不可不谓不“达”。如果像我这样理解“雅”,他们大概还会纳闷:既然“雅”是为了“达”,那么有不“达”的 “雅”么?不“达”的“雅”还能叫“雅”么?答曰:没有。不能。我还可以反过来设问:有不“雅”的“达”么?不“雅”的“达”却是有的。(例子后面再 举。)这么又一来,“雅”也和叠床架屋的“信”和“达”叠床架屋了。那么严复为什么把“信”“达”“雅”放在一起呢?
老严没有把“信”、“达”、“雅”放在一起。

2009年9月6日 星期日

假保護之名行騙錢之實的軟體: Antivirus System PRO

電腦突然跳出這玩意兒,說我的電腦保護不夠,還列出一個「偵測出的」假的木馬程式名,催我按「接受保護」前往購買這個保護軟體,去他的鬼啦!

其實,Antivirus System PRO本身就是一個知名的木馬程式,可惜我的McAfee Total Protection竟然沒偵測出來讓它過了關,它該改名成「partial protection」才對。

好在,Google上有很多建議如何解除這個木馬,我裝了免費的Malwarebytes Anti-Malware,就掃出20多項必須隔離的檔案,重開機後成功解除。

這年頭,防毒、防惡意程式malware的軟體可能要多裝幾個才夠保護,但缺點在於它們都很占主記憶體,也可能出現「互殺」的衝突。

2009年9月5日 星期六

最近瘋電子書和電子書工具

最近發現電子書很好玩,不過,我特別討厭像Amazon那樣出了個只能讀取一種「封閉性」電子書格式的Kindle閱讀器,因此,我特別熱衷尋找可以處理任何電子書格式的工具和掌上型閱讀器的組合,這一來,便可滿足我一向喜歡把「資料電子化」的願望,我想,今天我終於找到了!

答案就是: Calibre。

這是個免費的Windows版電子書全方位管理工具,幾乎所有功能都有了,唯一無法做到的是以下幾項:

1. 不能讀取.imp格式的電子書---還好,有人好心用C和Perl寫了可以從.imp檔抓取出文字和圖片的工具,叫做 imp_dump,速度極快。

2. 雖能讀取Sony格式的.lrf,卻不能轉成epub---沒關係,可以用免費的ABC Amber Sony Conveter轉成txt,再轉epub。

3. 不能讀取微軟早期的說明文件.chm格式---沒關係,可以用另一個工具ICE Book Reader Professional(免費的「嘮叨軟體」),同樣先轉成txt再轉epub。

4. PDF若有圖和表,幾乎無法成功轉換成epub---這真是美中不足,因為當今市面上量最大的商業、技術文件全都是用PDF製成的,內容五花八門,圖片和表格特別多。

目前,可以在掌上輕鬆閱讀PDF,同時可以放大頁面的工具有:

a. Sony即將推出的「Daily Reader」,好期待!

b. Amazon的Kindle DX。我看過Youtube上的demo後覺得它的PDF功能挺讓人失望,第一,不能縮放,只有固定的兩種landscape和portrait閱讀方式。第二,圖片多時,換頁速度可能慢到5-10秒。

再回到Calibre,我用Calibre(或imp_dump或ICE Reader)讀取輸入格式,轉換成epub格式,再打開Calibre附帶的內容伺服器功能,既能讓我iPhone上的Stanza閱讀器輕鬆透過雲端取得剛剛出爐的epub電子書,開始享受掌上閱讀!

中文呢?

我很驚奇地發現,Calibre + Stanza 遇到中文也不怕,只要轉成UTF-8,照樣在Stanza可以顯示閱讀。有個小撇步: 最好把每個中文字左右各加一個空格,以便在Stanza中可以自由選擇一段中文字做注記,如果沒有空格,則只能選取整個段落!

以下是Calibre支援的格式:

What formats does calibre support conversion to/from?¶

calibre supports the conversion of many input formats to many output formats. It can convert every input format in the following list, to every output format.

Input Formats: CBZ, CBR, CBC, EPUB, FB2, HTML, LIT, MOBI, ODT, PDF, PRC**, PDB, PML, RB, RTF, TXT

Output Formats: EPUB, FB2, OEB, LIT, LRF, MOBI, PDB, PML, RB, PDF, TXT

** PRC is a generic format, calibre supports PRC files with TextRead and MOBIBook headers

What are the best source formats to convert?¶

In order of decreasing preference: LIT, MOBI, EPUB, HTML, PRC, RTF, TXT, PDF

Why does the PDF conversion lose some images/tables?¶

The PDF conversion tries to extract the text and images from the PDF file and convert them to and HTML based ebook. Some PDF files have images in a format that cannot be extracted (vector images). All tables are also represented as vector diagrams, thus they cannot be extracted.

2009年8月28日 星期五

Perl和Windows:超級難搞的組合

花了兩天的時間在Windows上想按照網路上編寫得不錯的Catalyst教學,好好實際操作學習一下Catalyst這個當今最夯的Perl MVC架構,結果跟上一次一樣:到處碰壁。最大的困難莫過於某些模組在Windows上根本安裝不起來,PPM不行,不是版本過舊,就是根本找不到,Strawberry Perl雖然標榜可以天衣無縫地安裝CPAN上任何模組,但是最後也失敗了,死在autobox這個模組上,結果學習過程到了第三章一半就完全停擺,無法建立Catalyst的DB Model。

這又再一次印證:Perl和Windows是個下場很慘的組合,我們頂多可在Windows上寫些小程式,但想建立有規模的web架構,那就甭想了。

不死心的我,按照建議在Debian Live CD上重新試過,結果:100%成功,輕鬆建立DB Model,範例網站也正確顯示資料庫內容,新增和刪除資料的功能也正常。

我是不是該認真考慮下海重新學習unix/linux了?這幾年學來不易的Perl開發能力,碰到Windows環境,真的是英雄無用武之地啊!