|
楼主 |
发表于 2005-7-18 01:38:33
|
显示全部楼层
在北大中文论坛上的讨论2
有女同车:
这是小可杜撰的一篇小说(繁体版),总字数(不包括标点符号)还不到10万,但用字量也超过了3000,可以想像一部100万字左右的长篇小说怎么可能用2000左右个字就搞得掂!!
J:\Studio\著述\朱、陈等.txt 98517
QUOTE:
Total: 98517glyphs and 3075 kinds of glyph
楔子
一二第章自暴弃派三成見和新發現雨四初戀節五雪霽天晴朗节徐州古豐縣有村曰朱陳去百餘里桑麻青氛氲機梭聲札牛驢走紜女汲澗中水男采山上薪遠官事少深人俗淳財不行商丁入軍家守業頭白出門生為之民死塵田老與幼相何欣唯兩姓世婚姻親疏居族長游群黄鷄酒歡會隔旬者彆嫁娶先近鄰葬墳墓多繞既安苦形神所以夀考往玄孫我禮義鄉小孤且貧徒學辨是非只取辛勤法貴名教士重冠此桎梏信大謬十嵗解讀書能屬文舉秀才諫臣下妻累君恩承國望肖身憶昨旅迨今春舟適楚羸馬經秦晝饑色夜寢無魂東西暫住來若浮雲離亂失故骨肉散分江南北各平終日逝年聞朝憂卧至暮夕哭坐達晨悲火焼心曲愁霜侵鬢根如羡易這首寫的本詩對那清恬淡其樂融桃源般景象向己顛沛勞充滿患前半感傷種超然觀怡得活態度曾很令可特地翻閲量關史志獻遺憾并没找到任隻字記載于油而述産了懷疑排遣鬱結情杜撰麽個在呢因掌握資料限僉同問知甚淺陋存否敢冒昧斷言尚乞海内方啓件實就篇説講跟絶點乾連想用證明吧話校組織看場電影後還早夥姑娘們稀拉倒樹猢猻漫遍野逃竄喧囂擾攘好熱粥灶台慢消停過院廣幾賴着摟肩挎背嘀咕研究些什鬼道楣他晃悠站欄杆傻腦張要伴談窮唬通覺裏滋味雖做處完鐘都快賣呆兒也忘登午陽光暖洋照剛洗蓬松又癢膩怪舒坦打算朋友戲廳幣汗癮却改變主意踱邊靠公共厠角落車反騎開條挺寬綽正當晚交低榖時候輛蹬留左右朵零彩閑湖難永花翎鴨順微風仿佛隨波漂流夾原垂柳楊絮飛舞惹討厭閙葉喬木傳染病借引給伐栽矮趴灌株叫常圖館喜絲拂頂剩眼秃路媚秋刺間隙温煩躁口假思索拐幸旁槐總躲劫嘴念叨胡京街送理迹漢唐座灰突圈密宗塔園玩次様進跑瞻仰回模拿加印已越糊塗耳竟起膾炙讓蕩雙槳旋律船推浪面映美麗周環緑紅墻禁哼唱句器咋恁倫類位叔河廊吹嗩呐瞥驚奇熟悉凘孩班她畢另高認糟糕透指恐怕更識刻但從扭錛涌怎招呼害恰辭便偏巧轉眉笑喊唤嚇激靈忙陪哈你窘該把圓啊放溜碰呵課嗎嗯霸王啥咱星期露狡黠容拍臉八穩漾漣漪似紋體委符冰峰手叉腰藏凝聚翹眯瞎呀師傅喇叭聽像每毛沁硬憋裝忽哪嘿勁攏羞答比衝雍瞅噢仍帶受即再應乎焉塊植物搭嫌太羅嗦氣稍耐悻步攥銀塑紙包底細粗扎粉兮舍净核計芝爛接觸滴真副持膽例外况桌團支燁痴迷偷頰准胳膊膀釋欺聖誕卡片撕碎托妄仔幻赫奪目除工作收臨按慣集挽救鼻梁買帳扯最逼急伊斯蘭腮咬牙切齒嘻悔皮膚歐巴始揮凶括漸題空污濁室莫妙選皙被泄它吃飯功夫欠掏肆宣揚血搶嘩啦扔踩脚啼寒帖草繼續睛式倆辮愛穿衣裳緣摽科或習糗添醋告訴陌睬仗摸質琢磨果系韵搜腸刮肚普擲駭耗筋攢動擠烏七款貨占奈津司射撃拼含畫碩醉價泡苞米語差燈拔蠟基敵怔隱约掃興致怏冽吸穢醒月輪值代詞未必較騰拾擺具黑板愣術溘履蟲螅菌藻軟等數品瓜菠蘿香蕉級蘑菇整够筆彎綫弧脱蝌蚪咧端幅龜癩蛤蟆禽獸瞬恍悟咳忍瞪磕伸繽紛敏捷臂抖優軌斜棚速降陣朔飄摇則直棱噔撞輕響緊架强盗巢齊摞嚴性誰幫窗户操黴抽搗笤帚撣土抬概擦全獨保管抓撮垃圾瞧擱錯由驀澌側异層眸霧薄石鋪預制咚陰霾鼠尾須誇爪紫蛇吐議盤纏布挨碼蜘蛛蟑螂蚯蚓蚊蜈蚣顆痘潔柔嫩顔痣輝茶唇呈廓晰投移拇食捏號狀探戰嗑千瘡孔插破舊房屋遭軋殘骸川息販揣腹注蟊賊瞄銬框鏡頗惜途坑凹凸陷積歸宿表嫣脆撇抿翼遞咽勢運足坪撒腿烟蹽定嘔毒冷壓鄙夷毯趕錐玻璃魚缸典窪敲堆劃宇丹鳳橙藍服精稱馮翔客徑藤椅餠駱駝怹您诶瘋屁祟躉逮懶哦媽爸姥政治卷案喝哇店俺拎瓶鍋菜市鹹礦造哥犢奶壺蓋猫梆九李閨材彪悍尤胸脯雄壯良諢湍迭蝎虎宫混毁狠攮刀癟朽顯音猪鴉横挑竪諧爺欲求茬録供恨報仇鐵局刑犯領導挂疾萬錢醫藥費私檔輩爐煮遲弟咩抱捱熊攻隊列育訓駡哄薅脖吵付圍踹扁饒威福宜估勸創袋疼願曠拃默怨嗆立攝辦監視遥控濫壁衛兿員抄統試緩末沙兵武屯糧備濃劍弩驗省及銜謀績評職夏幃搏亮裉庭力洪滚衿堂鼓争鳴殺陸乖詭休踢球技鋒爆缺防命奔追沿趟箭揀毫斥糾股猛佳兀黏矻嗤摔狗啃泥猝煞咯嘣慘額涔芭蕾演姿務舌詢扶脾責示弱譏摘笨勵振刹閘痛嗓呻吟鎮輸養阿肇蹲察慰匝怒危哧噴珠綳齦枚洞使耽復罪擔許賽抑頓挫俱厲鍛煉慈誠懇肅升折鈴溢練杠餛飩置嘁嚓論霈霖參化吴諒凑補助孝敬利段慮合提免配噪止短延營沸聾啞秩序僵締决償嗷喪茄緘英頑陡增維極賈琨駕迎綿羊壞聊韓界杯盡换勾趁挪靖頦苶沫奮嗡减涓匯汪甘昂將皇酣暢淋漓套沉俾倪揭謎蔣沈某孜埋茅榜席均智單滑逐肌克撩簾瞳勉佩嘰捂吭莊穆腔屏傾窣喘芒焊槍焰灼針巨調嘲衆炸暈略寜肯妒嫉屎樓森喉嚨凛憐憫替跳泰顫編穴覷嗒鞋嘶竭砰悶邪涉縮拆弄規矩閡遇犀霎噤顧賞俊彦哩熄雀唼喋幕逗拳捶疲斂溝壑縱童奏效静撑嘛熬珍番啪尖縷洇濕粘禍姐咣闖汹闥跌訝退倚茫悚嘮嬉辯擰凄嘆咒確劉炫耀窺格蔓縫拽鬥潑碳素歷慕熾踏碑裂紀狼狽奸曹斌暗聰曉盯誤批劣搞侯慌戳粲栖鳥驟獵晌頽蛋褲兜枝掉窟窿柴束庫雕俠侣閉萎咀嚼殊寂寥竇泛澀甜蜜寡虚魄寶戈玲裹乃秘蔔猜臭丫粑肥咂嗨烈陵串謊附拄訕涎趣賀竹襟撲兄蛾促嶠嗔拱互嫗礎奚挖賭爬展恃凌忌憚頁梅墨叙希寓届襲謅傘炭待程構嘟噥抨漏閃訛檢冤努鑽籍弘懈訐吩咐厚拈甩署猾部迂腐捺妹懂查固析父母吞翅鱗蝴蝶昆警咪謡鮮伍惡妖懼翩愚梯曖依鑰匙勇屈逞睦枉蒙耻蒜皺標倘率逛册螞蟻擋櫃爹筒糞忐忑竊睡誓違諱尷尬艶納瑣愧凡賢淑矜訥厢咫尺涯份肘渦鷹惋杲刷幌駐階隷肴六猶豫狹窄腼腆羹舀湯潤措際兼炒吾據測棋絆純娃蒼綹痕瞼凳征歪筷簍豆芽兔劁胃謝掩護閹辣椒蒯勺扣掰唏嚕攪汁濺迸碗賠哎瘦啷撂飽撸劈箸搦燜拌餐巾抹哽堵籠偶衫凉愉捧伏爾棵瞟梢寞匪蔫嘍楞龍躺邦篩糠覆妃困城挣軀殻霄境棟荒蹭爿寄予聆皤夌蓮睫扇翕胎搬礙呱撓革彈簧銹糙擹摩挲盒拙鋼蹂躪械廠箋咦隼爍咄詡罕戛歇罩峻轄尋鄭脊拜揍腫霰粒惚遂歉彰雌嶙峋胖哨籌抗渾唧慨旱冬贏彌懊惱揉袖呸堅丢封牢騷址郵票惦描獄嘗笆籬爽祝惶ㄙ謂廢蠻仙搧喲滅嚷齁轟隆雷擂銅逸霓阻携雜飾金浩久魅夢魘挾諾曼德培摧杈咔皆叠嘘盆瀑忠睹踮鎖銷潮貼避漿檐淘亦亡敗網挷蜉蚍撼稽酸眨秤彟唉鈾鏈漉妞虧羽鴿絨瘸崽窩悄乳奬劑噌襯孕婦臓綉凰糖央濤枯乘季炮拒淫斑斕脹婉蹈酷霹靂瓣霞瑞靄肺吼裊娜薰陶臆歌躍粱飴黯敞祥嘉浸猴搔噷吱紐懌膝瓦砸聯汽險怯啄罷喂塞善訊兢簇撥擬區鍵捅諸損臼篷狂鉚遜膠綴牽謳盔甲匹蟈邁揪靴披蹚瓏帽朧寸駑泅建舫畔踉蹌攙鰍倏脉耍獅葫蘆井渠澤叮嚀囑齡滂沱遮惑嗽贜臊撤瓢軲轆修箍俯凍磚惴堪拖桶汰敷棉黵鈎賤捻帕拭璺幠睁樞赤裸籲抵誘顱頸床跪溴箱囊鵝愈縴膨沾磁撫滲烘嗅憑浴池澡烤慶享扮橱型闊樸貌腥灘踪骼液請倦淌艱塘蛙雁漆朦幽熠呃碦崴岔餓颼枕玉髓專盼瞞弓繁蹙涕瑟闌珊昏驅緒繪雯裘掐泪澇灾巷傍震泗擤藉恭覓濘曬疤喀睏遛穹煳慚捉胞砍姨呲氓蹦訶涮唄介嗬宋厨設傲華嫂惺忪曦戧唾旮旯尿搓敨澆梗截帆鋁坤腕轂扳撈淹扛瓊卑崗嵌苗焕勃慪元鈔襖催黛恢莓褪贈紡檩蔭逢馨蘇繩彼岸泓鰻墜衰趺僧負豈烙涣緋槁戴紗滯坼韁蝸跋葡萄抛恣吻貪嬰吮杵牌哀軒嘎赦狻猊剪魔颚繹筝墮駁煦柱鏤鑄舅亭碌禪賺戚晶渴宙冥召燙稚燥瀕獲燼暑潭煌燦籙賜恒紹騙偎詳赑屭迫銘甭鶴焚琴贔哺蹄騾懸躊躇蜷呶範著踐簡窒膛返駿馳眩吉嗚匣柄跨昵蹊蹺倉蜂陀螺柏碴琳琅島橋障忖釘劇漠屑耙蹅剃唁紓眺孑踽噩抻邀宵炊嘈坎坷擁慷扒鑣誆褶鴛鴦遁憤餿婆郭牚墊症粹怵摺捋啤竅芬漱診鹽垢嵐社攬婪臀綻舔撿佔蛐蝗秫秆垛焦氈撅搋摑鍬攔悦欽蠢茂畎畝躑躅施盛倡棍旨榴裙掬貝疙瘩憎競慧榮譽衡殷權禦懲戒醜貫盈忭莉諄耿伺旦寵辱偉勝埃乩鋸掂掄倀跩沮踝煽域項趨燃砝掘瘴匆墩熔岩肢趔趄槽蹾藴涵諷碓腎腺泌兑壘腑蕭沏麥茉弛趿茸瑩剔淇凙脂犁掊壤腴沃藕泳距襪掀奉膜蠶蜕溶臍肝墾籃侍癱痪謹慎崩潰峬丈卵跤尸熙秒幀噙綁捆秸楂輦殖版農熘臃詫絞煎餜屉鈞艙矛盾僞怠頜縹緲宰梳渣霆眈牤齋禾飲茹葷褥窸峙嘯兹鉛栗琥珀鰐摻翳尊甦稼穡泉埂叢蘢葱蒿博妍碧妝裁魁巍皂帝蚩伯魃蟄龐瀾藹彤旗遼林判割斃誦賓毋申簌毅贖蘸噎搐罸痙攣紊蛔稻鹿蹁躚捕橡乜僭殲淪鋭琵琶翁聳摁綺罐贊塌擎哆瀉俄頃拘檑仁播淵盎猿澄轍闃坊閭
2005-7-6 03:01 #8
有女同车:
因我手头没有采用gb18320向上兼容的大字符集的电子版古籍,所以统计范围只能局限于现代通俗文学类。即便是在这么窄的范围内4500字的标准也行不通:
QUOTE:
D:\Informations\Oriental Phiology\平凡的世界用字.txt 3687
D:\Informations\Oriental Phiology\笑、四用字.txt 4230(
K:\小閬闤\Moderne chinesische Literatur\Wang Siaopo\王小波_黄金时代.txt 31799
K:\小閬闤\Moderne chinesische Literatur\Wang Siaopo\王小波_白银时代.txt 36788
K:\小閬闤\Moderne chinesische Literatur\Wang Scoak\Tiere sind brutal\王朔_动物凶猛.txt 47837
K:\小閬闤\Moderne chinesische Literatur\Wang Scoak\Mal nach herzenslust\王朔_过把瘾就死.txt 54155
K:\小閬闤\Moderne chinesische Literatur\Mak Ngien\檀香刑.txt 256416
K:\小閬闤\Laws\中华人民共和国刑法.txt 56087
K:\小閬闤\Religionen &Pilosophie\Bible(Hoho)\hgb.txt 992468(基督教圣经)
K:\小閬闤\Religionen &Pilosophie\全球人文审思.txt 107277(姚国华著)
Total: 1590744glyphs and 4935 kinds of glyph
通共 11部书 记 3061796字,所用汉字 4935个
QUOTE:
"班氏一直主张,1500、2500、3500以上,分别是脱盲级(读报)、知识分子级(包括数学、化学、工程力学教授)、文史学者级的识字要求。 这是符合社会现实的,是科学合理的。
------真不明白楼主2500+ 适用于知识分子级(包括学、化学、工程力学教授)3500+适用于文史学者级的论断是根据什么得出的。
2005-7-6 04:00 #9
八亿农民:
支持班门斧先生的平民主义、实用主义主张.
中国人从来没有平民主义思想,致无力启民智、释民力,久之民、国均弱西方人则反之用句与时俱进的话,班先生的想法确实是代表了最广大人民的根本利益和先进的生产力,至于先进文化,我向来不认为中国有什么先进的文化,只是在具体字数上,我觉得可能稍少了些。统计字数不能只考虑人文小说之类,报章、科技文章、古文、学术论文、大中小学课程等均要予以考虑,这样可能要稍稍比班先生主张的多一些,但不会多很多 汉字改革有利于传播科技知识,提高全民文化水平。最理想的汉字是方块意音汉字。
2005-7-6 09:36 #10
班门斧:
非常感谢有女同车。我正在组稿答你。
请告知我,你所统计的那11部书中,哪些是繁体版的?再谢!
2005-7-6 09:36 #11
b]皮扎诺:
我也先给楼主叫个倒好再来细读。
实在看不下去,先给楼主叫个倒好再来细读。
甭说2500+,就算5000+一走进医院的药房就成了文盲了,还谈什么读医学?更甭谈什么中国人要拿什么诺贝尔医学奖了,如果真的要中国人都2500+,那中国人永远也别想什么诺贝尔了,其它的文学,自然科学学科如果也都2500+那么中国的学术界早已崩溃.我个人甚至认为<康熙字典>的10000+是汉语的一大倒退,汉语的博大精深从此就丢了.微软公司的汉语字库达到十几万就说明微软对汉语的观点立场比咱们中国人自己还有端正.
QUOTE:
输入法比不上手中的笔——造字!
前些日子,本人靠特殊的个人关系得以一睹了一部乡里一个“旺族”的家符,是明代王氏父子进士的家志。家符中记载了王氏家族的子孙分支流向,还记载了家族相关的很多地方大事,是地方人文史的重要材料。但奇怪的是家符里的很多字本人不认识,用五笔在电脑中输入也没法找到这些字。后来经王氏的后人解释才明白文中的意思。
原来,这些陌生字大都是以口字为偏旁,右边则以方言中的读音相似的字而构成,有时似白读音,有时似文读音,有时象普通话读音。借助对方言(本人的母语是闽南方言的一支)的熟悉,终于能勉强阅读。当时本人的感觉是:原来父子进士的后人文字使用能力这么差!
近日由于一位网友叫我帮他写方言原创歌词,大感为难!忽然想到王氏家符中的文字,于是模仿着写。纸上写得好好的,可是要发送给网友却又大感为难——键盘根本没办法输入!望着手中的笔和手下的键盘,我不由大为兴叹——现代高科技的产物键盘竟然比不上几千年前的笔!
后来跟北大的网友讨论语言文字时才感触到,原来汉语的文字是活的。不单是王氏的后人,全中国的其它地方几千年来都广泛存在着相似的汉语文字使用情况,如粤语中的“咗”、“嘢”之类。这大概是由于汉语的俚语十分丰富和灵活,远远超出汉语万多个基本汉字所能表达的范围,万多个基本汉字作为官方语言文字代表了汉语的基础和精华。然而汉语不单单是官方语言和上流社会的语言,汉语同时还是生活语言,各地方的各种俚语、俗话、土话等大大地丰富了中华民族对语言的使用,它们同样也对伟大的华夏文明做出了它自己的贡献!而这些俚语、俗话、土话等并不是没有文字的语言成分,并不是只有靠嘴巴才能交流的低级语言成分,它们同样是汉语的文字中的成员之一。虽然不是整个中国的广泛地通用,但是,对语音相通的人来说,稍微思索一下就能轻易地阅读,这正是汉语伟大的地方之一。
但是,现在汉语的输入法没有体现汉语汉字的这个思想,因而输入法比不上手中的笔——输入法是死的,笔是活的,汉字是活的!
在网上经常会看到一些如同楼主的主张,但这些主张十分危险,如果这些主张得到贯彻,则汉语成为纯粹的低级语言矣!
楼主的主张实际上涉及一个核心问题:语言的基本功能
语言的基本功能有两个,就是思维和交流.其中思维才是第一位的,而交流不过是第二位的,交流的前提首先是意思要清楚才能交流的清楚,2500+连个意思都表达不清楚还谈什么交流?网上(包括北大的一些学者)经常强调语言的交流功能而完全忽视了思维的功能,这是对语言的基本功能的严重歪曲!
<思维和语言的关系>:
http://www.pkucn.com/viewthread. ... 1&highlight=100
[ Last edited by 皮扎诺 on 2005-7-6 at 11:28 ]
陪儿子散步比上网有意义多了!
http://www.pkucn.com/viewthread.php?tid=134401&extra=page%3D1
2005-7-6 11:03 #12
有女同车:
QUOTE:
Originally posted by 班门斧 at 2005-7-6 09:36
非常感谢有女同车。我正在组稿答你。
请告知我,你所统计的那11部书中,哪些是繁体版的?再谢!
启禀楼主,都是简体版的。众所周知的,受输入法和OCR软件功能的限制,网上的电子书大多数用字范围都局限在GB2312的6000余字内,好多“超标”的字都以类似“囗+峦=圞”的拼合偏旁的方法録入,我所统计的书册中亦不排除有这样的字,因软件没有相应的功能故对这样的字只能视而不见。
其中除了BIBLE、刑法我基本都通读过,明显的错字大致都经过我的刊改,不过没有做过跟原书的逐字校对,可靠程度大体如此。
2005-7-6 15:25 #13
班门斧:
谢谢有女同车的解释,你提供的数据很重要。
圣经是译本、古籍、史诗,面对特殊群体,其性质不符合我们所讨论的问题。你可以提供其余十部书的统计数据吗?(语料总字数,使用字数)谢谢!
顺便答复皮扎诺先生:
1、原想不答复你的,因为你我立场差距太大了。
2、你看不下去,是因为你还没看明白。
3、我们不是在研究药房,而是探讨“大众汉语”,你先弄清楚这点。
4、就算是一不小心逛进了药房,你也吓唬不了我,大不了在“班氏限用汉字”里拿出三五百个生僻字就撑死了。这个反例动摇不了“当用汉字”的意义和地位。
5、胸怀祖国,放眼世界,你知道现在英语与汉语、英文化与汉文化是什么战略形势吗?谁持彩练当空舞?“艰涩难懂”的定论会导致什么后果?
6、“班氏限用汉字”是做什么用的?
2005-7-6 17:02 #14
有女同车:
QUOTE:
Originally posted by 班门斧 at 2005-7-6 17:02
谢谢有女同车的解释,你提供的数据很重要。
圣经是译本、古籍、史诗,面对特殊群体,其性质不符合我们所讨论的问题。你可以提供其余十部书的统计数据吗?(语料总字数,使用字数)谢谢!
顺便答复皮扎诺先生 ...
D:\Informations\Oriental Phiology\平凡的世界用字.txt 3687
D:\Informations\Oriental Phiology\笑、四用字.txt 4230
K:\小閬闤\Moderne chinesische Literatur\Wang Siaopo\王小波_黄金时代.txt 31799
K:\小閬闤\Moderne chinesische Literatur\Wang Siaopo\王小波_白银时代.txt 36788
K:\小閬闤\Moderne chinesische Literatur\Wang Scoak\Tiere sind brutal\王朔_动物凶猛.txt 47837
K:\小閬闤\Moderne chinesische Literatur\Wang Scoak\Mal nach herzenslust\王朔_过把瘾就死.txt 54155
K:\小閬闤\Moderne chinesische Literatur\Mak Ngien\檀香刑.txt 256416
K:\小閬闤\Laws\中华人民共和国刑法.txt 56087
K:\小閬闤\Religionen &Pilosophie\全球人文审思.txt 107277
Total: 598276glyphs and 4798 kinds of glyph
共2069382字,用字4798个左右.
附件: 字数统计.rar (27.26 K)
该附件被下载次数 2
2005-7-6 17:32 #15 |
|