这么简单的操作还要问。
这有点像牛顿还是谁,为大猫小猫各开一个墙洞方便分别出入那样可以传为笑谈吧!
谢谢水电师傅不厌其烦! 转换后的文件仍然是看不明白的糊涂字!
..
轉換後是TEXT檔,如果是亂碼,還是調整<語系編螞> CAJ文件不能转吗?..
Caj檔案原理與PDF類似,是大陸許多資料庫喜歡用的格式;要用Cajviewer之類的軟體才可使用(似乎可作文書處理),但轉換軟體倒未聽說(因為在下很不喜歡這類檔案-成事不足,敗事有餘)
Caj檔的轉換要看David君的看法,因為在大陸本地應比較熟知其特性..
可參考:臺大圖書館下載資料↓
http://dbi.lib.ntu.edu.tw/dbs/software/download.htm 已下载Cajviewer。谢谢!
有办法进台大图书馆阅读电子期刊阅读吗? 目前CAJVIEWER似乎沒有Converter,但可確定它能作Copy & Paste(不然誰用?),但可用它轉換Caj為PDF,再作轉換(在下尚未測試,悲觀)....
對此類檔案(PDF/Caj...)的觀念:
Txt:Htm:Doc=1:3.6:14(體積)(PDF...更大)
一、無法提供檔案轉換方法的檔型必遭淘汰。
如目前MS的WORD(Doc)已遭壓力要公開原始碼(因其作Binary加密)、程式
界人士沒人會用Doc/Pdf...這類體積龐大的檔案,浪費資源。
我們發展電腦、網路,無非是希望把複雜事物簡化,只是上述幾種檔案似乎是反其道而行;說穿了只是為了保護自己的利益(那任何檔案都作Images
就好啦?)
目前世界許多地方(如印度或非洲地區...),多數人們能用的電腦還停留在Win95/電話撥接的狀態。我們要發展的是輕薄短小、容易流通的東西;舉例來說,在Win95/129Ram/P3 CPU的情況下,連續開8個PDF/Caj檔案,必然當機。
網路技術的最終發展目的,是為窮人服務的。
二、如果說Adobe公司是用跨國影響力取得PDF的網路合法權(只是目前只能支援9種語文的轉換,不包括中日韓文,還是老話:作Images不就好了?)
那大陸的Caj(..)為何沒能取得如W3C..等網路協定的認證?
其結果是無法轉檔,要另Plug-in(哪天Caj倒了怎麼辦?)
三、以前提過,大陸公司在類似OCR技術是很強的;但其精確度如何?在
自然語言處理的角度,如果漢字的錯誤率達到0.05%,那就失去實用價值了。據我所測試的經驗,大陸這類檔案辨視錯誤率高於此數。據體例子可看北京中華書局網站這兩年的書目,都是用OCR的,其中的"錄"與"綠"都分不出來。
另一個問題是,大陸軟體繁簡轉換的精確度能信任嗎?
我們要花多少的時間校對?總之,在推向市場前,為什麼不提高精確度呢?
四、就如同PDF的採行,對資料庫的全文檢索是個災難。如果我有100個
Htm(txt..)檔案,跟有100個PDF(Caj..)檔案作比較,後者的體積成本是前者的30倍以上,金錢成本在8倍以上(基於文字精確與轉換正確的前提)
那大陸圖書館以後的全文搜尋如何有效率的建立?我倒很納悶...
結論:庸人自擾之 既然资料要公开,为什么又要搞什么PDF,CAJ?徒增成本?
PDF和CAJ是压缩文件吗?还是为了加密?