湘里妹子学术网

 找回密码
 注册
123
返回列表 发新帖
楼主: Artvine

文档转换引擎在线演示

[复制链接]
发表于 2004-5-13 23:57:54 | 显示全部楼层
水电师傅觉得好笑吧?
这么简单的操作还要问。
这有点像牛顿还是谁,为大猫小猫各开一个墙洞方便分别出入那样可以传为笑谈吧!
谢谢水电师傅不厌其烦!
发表于 2004-5-14 16:48:22 | 显示全部楼层
转换后的文件仍然是看不明白的糊涂字!
 楼主| 发表于 2004-5-14 17:02:34 | 显示全部楼层

..

轉換後是TEXT檔,如果是亂碼,還是調整<語系編螞>
发表于 2004-5-14 17:04:03 | 显示全部楼层
CAJ文件不能转吗?
 楼主| 发表于 2004-5-14 22:20:14 | 显示全部楼层

..

Caj檔案原理與PDF類似,是大陸許多資料庫喜歡用的格式;要用Cajviewer之類
的軟體才可使用(似乎可作文書處理),但轉換軟體倒未聽說(因為在下很不喜歡這類檔案-成事不足,敗事有餘)

Caj檔的轉換要看David君的看法,因為在大陸本地應比較熟知其特性..

可參考:臺大圖書館下載資料↓
http://dbi.lib.ntu.edu.tw/dbs/software/download.htm
发表于 2004-5-15 00:13:20 | 显示全部楼层
已下载Cajviewer。谢谢!
有办法进台大图书馆阅读电子期刊阅读吗?
 楼主| 发表于 2004-5-16 13:50:31 | 显示全部楼层
目前CAJVIEWER似乎沒有Converter,但可確定它能作Copy & Paste(不然誰用?),但可用它轉換Caj為PDF,再作轉換(在下尚未測試,悲觀)....

對此類檔案(PDF/Caj...)的觀念:
Txt:Htm:Doc=1:3.6:14(體積)(PDF...更大)

一、無法提供檔案轉換方法的檔型必遭淘汰。

如目前MS的WORD(Doc)已遭壓力要公開原始碼(因其作Binary加密)、程式
界人士沒人會用Doc/Pdf...這類體積龐大的檔案,浪費資源。

我們發展電腦、網路,無非是希望把複雜事物簡化,只是上述幾種檔案似乎是反其道而行;說穿了只是為了保護自己的利益(那任何檔案都作Images
就好啦?)

目前世界許多地方(如印度或非洲地區...),多數人們能用的電腦還停留在Win95/電話撥接的狀態。我們要發展的是輕薄短小、容易流通的東西;舉例來說,在Win95/129Ram/P3 CPU的情況下,連續開8個PDF/Caj檔案,必然當機。

網路技術的最終發展目的,是為窮人服務的。

二、如果說Adobe公司是用跨國影響力取得PDF的網路合法權(只是目前只能支援9種語文的轉換,不包括中日韓文,還是老話:作Images不就好了?)
那大陸的Caj(..)為何沒能取得如W3C..等網路協定的認證?
其結果是無法轉檔,要另Plug-in(哪天Caj倒了怎麼辦?)

三、以前提過,大陸公司在類似OCR技術是很強的;但其精確度如何?在
自然語言處理的角度,如果漢字的錯誤率達到0.05%,那就失去實用價值了。據我所測試的經驗,大陸這類檔案辨視錯誤率高於此數。據體例子可看北京中華書局網站這兩年的書目,都是用OCR的,其中的"錄"與"綠"都分不出來。
另一個問題是,大陸軟體繁簡轉換的精確度能信任嗎?
我們要花多少的時間校對?總之,在推向市場前,為什麼不提高精確度呢?

四、就如同PDF的採行,對資料庫的全文檢索是個災難。如果我有100個
Htm(txt..)檔案,跟有100個PDF(Caj..)檔案作比較,後者的體積成本是前者的30倍以上,金錢成本在8倍以上(基於文字精確與轉換正確的前提)
那大陸圖書館以後的全文搜尋如何有效率的建立?我倒很納悶...

結論:庸人自擾之
发表于 2004-5-16 14:26:55 | 显示全部楼层
既然资料要公开,为什么又要搞什么PDF,CAJ?徒增成本?
PDF和CAJ是压缩文件吗?还是为了加密?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-22 12:15 , Processed in 0.072852 second(s), 11 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表