湘里妹子学术网

 找回密码
 注册
查看: 9393|回复: 27

文档转换引擎在线演示

[复制链接]
发表于 2004-4-27 10:13:19 | 显示全部楼层 |阅读模式
 楼主| 发表于 2004-4-27 10:21:28 | 显示全部楼层

..

這是David君的網上資料上傳與轉換的Demo,經過測試,效果很好;心裏非常高興,真是江山代有人才出ㄚ!因此寫了以下E-Mail,希望有緣可多深入討論↓
--------------

您好!
在海量看到您的Upload Demo,对您发展的网路功能很有兴趣。
在下在台北,对NLP研究也很有业余兴趣。我想如果您空,是否能把发展状况到↓
http://artvine.com.tw/cgi-bin/book/up1/artvineup1.pl

[:LocalURL:]viewthread.php?fpage=1&tid=5285&sid=SMPUZjWEhttp://www.soocol.com/cgi-bin/file_upload.pl
讨论呢?
后者是在大陆的另一个NLP相关BBS
敬候您的赐教!

水电工 敬上
发表于 2004-4-27 10:35:36 | 显示全部楼层
大家交流技术,才使技术本身得以发展。
 楼主| 发表于 2004-4-27 10:51:44 | 显示全部楼层
很感謝您迅速的回應!
這是在下在2002年測試的PDF→htm,早已遺忘多時了,直到今晨看了您的Demo,突然又有些靈感,所以也很想聽聽您的想法。
很粗略的在海量BBS看到您說及:Convert在中國是很重要的。我覺得是內行話。
一則大陸方面對OCR/Convert領域一直是很優秀的,可是在流行浪潮下,似乎此類基礎工程常是被忽略的。
(繁體中文)
http://artvine.com.tw/images/pdf/test.html
(簡體中文)
http://artvine.com.tw/images/pdf/testgb.html
 楼主| 发表于 2004-4-29 12:18:06 | 显示全部楼层

建議

很高興在您的文档转换引擎在线演示說明頁,又看到新的Update↓
http://www.soocol.com/
大幅度提升Html转换TXT文档精度、增加PDF加密文档文本提取模块。
很希望您再把這兩項功能的說明與實例作的更深入;在程式設計的思考上,很為您的奮發精神高興!

以下是我個人小小的關察與建議↓在說明的第
四、转换例子和演示:

==转换演示==

WORD文档例子
PDF文档例子
PPT文档例子
XLS文档例子

中,知道您Demo 在GOOGLE的Filetype搜尋方法;只是不知道與您的Converter(如PDF2TXT)的功能有何關係?這個Demo可能可以更加強。

目前較知名的Search Engine公司,若以GOOGLE來說,是以PDF2TXT/
PDF2HTM/WORD2htm...一些“外加”的Moudles來作資料轉換。(我想您的發展思考也包含這個方向)。它們要思考的是在↓Spider→Indexer→Database→Cache→Print-out的流程的哪個階段作Convert的工作?並付出多少成本?
以我的了解與測試,Google的方法是在抓到PDF檔後,先作Convert動作,存入HTM/TXT Database,然後才再以此作全文Index,而原來的PDF檔則另存Database,只Index 標題與URLS,不作全文。所以當讀者搜尋到PDF檔後,GOOGLE會給兩個選項:PDF檔與其HTML檔↓

所以GOOGLE只能在HTML的轉換後,才能對檔案作全文的Highlight(標色/Mark),而無法對PDF檔作一樣的服務。

附注:
許多人覺得GOOGLE的Cache功能很好用(後來大公司都跟進),在不易連結的URL,還可以找到舊庫存檔案,這只是一個表面。就技術而言,它的全文Highlight功能才是一個研究上的突破與考驗;此功能是三年前GOOGLE跟美國一家著名的文獻標示(Mark)公司買來的專利;不是GOOGLE自己寫的。

建議→
如果您能將Convert功能放在Spider階段(邊抓資料邊轉換),或能在線上直接Convert(後置轉換);將具有廣泛運用和商業的價值。

如果您用目前的Server,先放幾個PDF(...)檔,Demo如目前GOOGLE所作的,將會很有說服力(先用簡單的Search Engine)。

Highlight部份,可以使用我的Front-end↓(例)
http://artvine.com.tw/cgi-bin/bo ... ow_post&post=36
說明↓
遠端抓取網頁順便繁簡中文轉換再把關鍵字標色的展示啦!
[:LocalURL:]viewthread.php?fpage=1&tid=2258&highlight=%DFh%B6%CB

[ 本贴由 水電工 于 2004-4-29  12:32 最后编辑 ]
 楼主| 发表于 2004-4-29 13:31:05 | 显示全部楼层

朱建华PDF论坛

有關PDF檔案的各種技術問題,可參考↓
http://www.chinapdf.com/cgi-bin/ ... amp;age=30&pg=1
发表于 2004-4-29 14:06:17 | 显示全部楼层
关于word,pdf,ppt,xls,例子从google.com 上。这样做有两个目的:
第一、因为是网上的各种文档,并非我个人提供的文档演示存在着真实性。
第二、有的朋友没有现成的PDF、WORD、XLS等文档,这样他们可以轻易得到例子文件。

关于、在线演示,因为提供一个上传接口,所有文档能够被自动识别,这作为转换引擎是最基本功能,故只要上传任何文档都可以被转换成为文本文件。

关于数据流转换问题,这个问题我正在解决。整体思路已经明确,但是这样演示不容易被人看出效果来。
发表于 2004-4-29 14:11:49 | 显示全部楼层
就技術而言,它的全文Highlight功能才是一個研究上的突破與考驗;此功能是三年前GOOGLE跟美國一家著名的文獻標示(Mark)公司買來的專利;不是GOOGLE自己寫的。


上面写的很有道理,内行!Highlight这项技术很有科技含量,看似简单的东西其实并不简单。
发表于 2004-4-29 14:18:25 | 显示全部楼层
关于html2txt 转换问题,经过几天来的算法改进,速度和精确度有了明显的提高,虽然外表看不到,但是已经update 演示。故从转换精确度和格式精确度能够感觉出来。

关于pdf2txt文档转换,增加了解密模块,能够对一些加密的和防copy的PDF文件进行转换。效果可以自行测试。
 楼主| 发表于 2004-4-29 15:08:32 | 显示全部楼层

建議 趴兔

知道您的想法,目前大概在忙著Upload這方面的問題吧?很高興您的努力!您可以把上面的說明加進說明頁阿,讓測試者越明白越好(像我比較笨,以為是要演示Search→Results→Convert的一體化流程)

也可考慮Convert(Print-out)到HTM/Xml格式,因為在多國語/特殊符號的情況下,擔心會出問題↓
一、目前我們在作多國語Search Engines的人,很大的功夫是在處理各種不同規格的Codes;Text格式是否好用?(TXT:HTM:WORD=1:3.5:13.5)
二、拿一些特殊符號資料作Test!(如IPA/..CJKV以外的Code--如俄文..)
三、Temp的問題,目前我的類似作法是一Print即殺(Delete)(例)↓
http://artvine.com.tw/images/uu2.htm
是否會對Server造成負擔或危險?

有些像練武功,奇經八脈通了,無所不通;您現在想的作的,如能貫通,發展性很大的!加油!

P.S.
對了,您或可提供Demo檔案(加密..)讓測試者下載比較;另,Convert的精密度比較,可用Images來說明。

[ 本贴由 水電工 于 2004-4-29  15:28 最后编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-29 19:14 , Processed in 0.108670 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表