藏文信息处理蓄势待发
八月的青藏高原是丰收的季节、是欢聚的时候、是歌舞的海洋,西藏的“旺果节”、“雪顿节”、康区的“赛装节”、环青海湖地区的“六月会”、甘南的香浪节……丰富多彩的传统节日络绎不绝的一一呈现,高原处处散发着喜悦、祥和的气息。在这个美丽而欢乐的季节“首届藏文信息处理学术研讨会”在大美青海、夏都西宁顺利召开,在收获丰收的同时,我们收获了知识、友谊,以及信念。
青海师范大学副校长、计算机学院院长赵海兴教授致欢迎辞。
我国藏文信息化在过去30年中得到了快速发展,并且取得了很好的成绩,回首30年是勇于挑战、克服挫折、开拓创新的30年,而此次首届藏文信息处理学术研讨会的召开是总结过往,展望未来的一次具有里程碑意义的节点。
我国在上世纪的80年代初开始研究藏文信息技术的研究,经过30年广大科技工作者的共同努力下,经过学习、借鉴、创新等发展历程,目前来讲,我国的藏文信息技术水平已经超过国外,处于国际领先水平,具备了与汉语信息处理技术等同等发展的条件。
1993年,中国开始研制藏文编码国际标准和国家标准。经过藏语文、计算机、信息技术标准专家的共同努力,并经过国际标准组织的严格程序和投票,于1997年获得通过,使藏文在中国少数民族文字中成为第一个有国际标准、获得全球信息高速公路通行证的文字。
藏文字符计算机编码通过国家标准和国际标准后,随着国家的大力投入,藏区各大高校,以及一些科研单位,结合藏语言文字特点,在藏文信息技术领域进一步广泛开展了藏文信息技术基础和高端的研发工作,并取得了巨大的成就。国内自主开发的藏文编辑系统、激光照排系统、电子出版系统得到广泛应用。通过互联网和手机等藏语文平台,浏览阅读、收听、收看国内外新闻和各类资讯,成为众多藏语文用户日常生活的一部分。
首届藏文信息处理学术研讨会在青海师范大学举行
2003年10月28日,西藏大学、中国电信西藏分公司等部门联合研发的首款藏汉双语智能手机的成功问世,填补了我国在手持智能电子设备上实现完整藏文智能服务处理的空白。2008年11月,第一款产品“藏汉英电子辞典”面世。发明者是西藏大学教师洛藏。从青海师范大学物理系毕业的洛藏曾经参与制定藏语电脑输入国家标准,建立第一个藏文互联网网站,第一款藏汉英电子辞典,第一款藏文键盘。
2004年,国家加大扶持力度,国家信息产业部与西藏自治区政府签署了《关于藏文软件研发和推广应用的合作协议》,合作立项12个藏文软件开发项目,总投资达3300多万元。历时一年半的时间,在标准方面,研制了《扩充集A》和《扩充集B》,藏文覆盖率达到99.99%。在软件方面,“基于Linux的藏文操作系统”,同元、桑波扎、班智达藏文输入法,“藏文电子出版系统”和“藏文书刊、公文电子出版系统”两个出版系统,“Windows平台上藏文浏览器和网页制作工具”等藏文软件开发项目纷纷问世,在西藏及其他地区得到了广泛应用。
2007年,世界最大的软件开发商微软公司依据中国制定的键盘标准和编码标准开发了喜马拉雅系统,使藏文信息化迈出了历史性的一步。基于Unicode编码体系开发的喜马拉雅系统支持微软的操作系统,具有强大的兼容,而且很好地解决了藏文断字的问题。Windows vista问世后藏文信息化进入喜马拉雅时代。现在,国家已将喜马拉雅输入法定为国家标准的藏文输入法。
与会人员集体合影
中国藏学研究中心的扎西次仁研究员多年致力于国际标准藏文计算机编码字符集的研究,2010年,他带领研发团队推出了基于Unicode编码体系开发的“珠穆朗玛”系列藏文字体,为藏文信息化发展如虎添翼。
目前全国藏文报刊杂志有20多家,藏文书籍出版社有8家,承印藏文书报的现代化印刷厂有20多家。过去由于国际藏文编码标准不统一,各成一家。现在虽然国际藏文编码标准已经出台,但是混乱的编码仍然在使用。软件编码不统一,系统间就不能方便地交换文件,用户间也不能共享数据文件,原有的数据文件不能很好地得到继承,阻碍了藏文信息技术的发展和藏文信息化的建设。“珠穆朗玛”系列藏文字体的推出,不仅丰富和美化了藏文书刊、藏文网页和藏文影视字幕中的藏文字体;更重要的是,结束了编码滥用的局面,对于藏文出版业,以及学习、使用、发展藏语文都非常有利。
据了解,在藏区虽然还有少数人在使用非国际标准输入法,比如打印店,广告公司,寺院等,但在藏族年轻计算机使用者当中已经普遍接受喜马拉雅系统,网络上的传播的藏文信息也全部是依托喜马拉雅系统而呈现的。Unicode是藏文信息化的未来这是历史的趋向。
如今,不仅有藏文手机、还有藏语网络聊天、藏语言文字输入软件使得有着千年历史的、优秀的民族传统文化藏文与现代科学技术相结合,紧紧跟上了信息化时代的步伐,走在了中国少数民族文字信息化的前列。让越来越多的藏族同胞享受到了信息社会带来的种种便利。
[FS:PAGE]
研讨会为期两天,17日为专家特邀讲座,北京大学俞士汶教授、清华大学孙茂松教授、中央民族大学赵小兵教授、西藏大学尼玛扎西教授、西北民族大学多拉教授、西北民族大学卢亚军教授和青海师范大学才让加教授等一一进行讲座,介绍了目前信息科学技术的发展现状和研究方向,以汉文和藏文为例,阐述了分词标注和数据库建设的重要性,并结合各自研究方向和多年的实践经验,为藏文信息化快速、有序和规范发展建言献策,指明方向。俞士汶教授强调科研成果要符合民众的需求,要有实用性,还要尊重自然语言的发展规律和新名词术语的运用。孙茂松教授充分肯定了目前诸多藏文网站的建设和运营对于藏文信息化快速发展起到了推波助澜的作用,尤其是网站对数据库的建设,以及成熟的技术能力和管理能力,使研究成果得到了很好的转化,并指明研发藏文搜索引擎时不可待,他说:“一种文字没有搜索引擎是一件可怕的事情”。
俞士汶教授讲座现场
俞士汶教授讲座内容
俞士汶,北京大学信息科学技术学院教授,1986年起致力于计算语言学与自然语言处理研究,主持了多个国家级科研项目,如973、863、国家自然科学基金、国家社科基金以及国际、两岸合作项目。发表论文160多篇,著作8本。作为第一完成人的主要研究成果有以《现代汉语语法信息词典》为基础的“综合型语言知识库”,在获得政府部门、全国性学术团体以及北京大学的多项奖励之后,于 2011年获中国国家科学技术进步奖二等奖。30年来首次颁发的终身成就奖。作为博士生、硕士生的导师和博士后、访问学者的合作教师,培养了一大批计算语言学领域的高端人才。2005年退休后仍继续从事研究与教学工作,于2012年获北京大学访问学者优秀导师荣誉,“综合型语言知识库”于2013年再次获北京大学首届产学研结合特别贡献奖。
报告题目:自然语言理解之路和语言计算的发展
报告摘要:在考察自然语言处理研究的现状之后,从语言能力提升的新视角对自然语言处理进行再认识。语言能力研究处于国际尖端科技的前沿,符合国家战略需求,可以为文化传承的重大公益性事业贡献力量。当代人的语言能力包括运用机器语言能力的能力,因此需从国家战略的高度提高对自然语言理解研究重要性的认识。本报告分析人类语言的认知机制与自然语言处理的不同之处,认为自然语言理解的突破需要寄希望于脑科学、认知科学和计算机科学的深度融合。同时也指出在自然语言理解进军的征途中,语言计算,特别是语义计算也是一支重要的方面军。本报告将语义计算的发展划分为知识本体、认知、语用3个层面,介绍3个层面的主要研究内容,并探讨了语义计算研究的方法,构筑各个层面的语义知识库是必要的基础建设。
孙茂松教授讲座内容
孙茂松教授讲座内容
孙茂松,清华大学计算机科学与技术系教授、党委书记。现任清华大学大规模在线教育研究中心主任,教育部在线教育研究中心副主任,清华大学-新加坡国立大学下一代搜索技术联合研究中心共同主任。国家973计划项目首席科学家,国家社会科学基金重大项目首席专家,主要研究方向为自然语言理解、中文信息处理、Web智能、社会计算、计算教育学等。主要学术兼职为中国中文信息学会副理事长,国务院学位委员会第六届学科评议组计算机科学与技术组成员,中国计算机学会理事,中关村开放实验室联盟副理事长,《中文信息学报》(计算机类全国核心期刊)主编,863重点项目“中文为核心的多语言处理技术”总体专家组组长,多个教育部或省级、北京市级重点实验室(涵盖计算语言学、语言监测、网络文化与数字传播、文化遗产数字化保护等多个领域)的学术委员会主任、副主任或委员,国家语言文字工作委员会“两岸语言文字交流与合作协调小组”成员等。
报告题目:藏文信息处理研究刍议:下一步做什么及怎么做?
报告摘要:讲者结合自己的研究经验和体会,围绕藏文信息处理研究下一步应该做什么以及怎么做的问题,从多个方面提出了自己的见解和建议。讲者认为,藏文信息处理研究当前可以考虑的一个发展战略是:一方面要继续夯实并扩大词法层、词汇语义层及其相关研究方向(如信息检索、文本分类、词嵌入等)上的诸多成果,另一方面,要努力超越词法层,向藏文句法层和语义层分析大踏步迈进。
赵小兵(女)教授讲座现场
赵小兵教授讲座内容
赵小兵,博士、教授、“计算语言学”方向博士生导师。现任教育部语信司、国家民委教科司、国家出版总署报刊司与中央民族大学共建的“国家语言资源监测与研究中心少数民族语言分中心”副主任,受聘为新疆师范大学、北京语言大学、呼和浩特民族学院名誉教授。担任“中国中文信息学会”理事,“中国中文信息学会少数民族语言文字信息处理专委会”秘书长、“中国少数民族语言文字标准化委员会”秘书长、“国家自然科学基金项目评审委员”;曾任第三届“中国学生计算语言学学术研讨会”大会主席;“第十一届中国少数民族语言信息处理学术研讨会”学术委员会委员;“第12-14 届中国少数民族语言信息处理学术研讨会”学术委员会委员兼组织委员会副主任。曾主持国家自然科学基金重点项目《跨语言社会舆情基础理论与关键技术研究》等各类科研课题22项,其中12项已结题,8项通过了教育部等组织的专家技术鉴定;曾获得国家档案局“科技成果一等奖”、“中国第二届钱伟长科技进步一等奖”、“北京语言大学优秀博士论文”等各类科研教学成果奖励共13 项;发表学术论文54 篇,出版《蒙古文信息处理技术》等学术专著6 部;2006.2 评为“全国信息界百名学科带头人”。
报告题目:信息技术与跨境语言研究
报告摘要:报告概要介绍了中国跨境少数民族语言研究与信息技术研究的关系,少数民族语言网络与舆情分析发展的现状和面临的困难,并概要汇报了中央民族大学近阶段在相关应用领域的研究情况。
[FS:PAGE]
尼玛扎西教授
尼玛扎西教授介绍内容
尼玛扎西,西藏大学教授、博士、博导,国家“万人计划”第一批领军人才,享受国务院政府特殊津贴。
报告题目:目前的主要研究工作及其前景
多拉教授讲座内容
多拉教授讲座内容
多拉,博士、教授,西北民族大学中国藏文典籍全文数字化研究所,从事语言学与应用语言学、藏文信息处理教学与科研工作,藏文信息处理方向硕士导师,2012年入选教育部“新世纪优秀人才支持计划”、教育部哲学社会科学研究重大课题攻关项目首席专家、甘肃省语言学与应用语言学重点学科带头人。
报告题目:再论《信息处理用藏文分词工程规范》
卢亚军教授讲座现场
卢亚军,西北民族大学教授,西北民族大学机器翻译研究所所长,主要研究领域为藏文分词、藏汉双向机器翻译。近年来完成国家社科基金项目“藏语语料库建设研究”等2项(一般、重点各1项),部委招标项目1项,横向项目6项,出版专著《柱间史——松赞干布遗训》《现代藏文高频辞典》《藏文高频词辞典》(藏汉双解)等4部,发表论文14篇,研制开发“央金藏文输入法”、“央金藏文分词标注系统”、“央金藏汉机器翻译系统”等计算机软件8种,在研国家科技支撑计划子项目2项。
报告题目:藏文分词标注系统的研发与应用
报告摘要:分词是信息与自然语言处理的基础。藏文分词系统的开发与应用,涉及藏文搜素引擎、舆情监测、文语转换、文本校正、机器翻译、语言研究和教学等诸多领域。本讲座介绍“央金藏文分词标注系统”(V1.0,计算机软件著作权登记号:2014SR014025)的技术架构、分词策略、软件功能和实际操作使用方法。
才让加教授介绍近几年的研究工作
才让加,青海师范大学教授、博士生导师,青海师范大学计算机学院副院长,藏文信息处理与机器翻译省级重点实验室主任,青海省自然科学与工程技术学科带头人,中国中文信息学会理事/机器翻译专委会委员/计算语言学专委会委员/少数民族专委会委员,《中文信息学报》编委,国家信息标准化委员会藏文信息标准化工作组成员。从1994年开始一直从事藏文信息处理、机器翻译、藏语计算语言学领域的研究,先后做为技术负责人参加两项863计划项目和多项科技攻关、教育部重点等国家项目,其中“汉藏科技机器翻译系统”2002年获得青海省科技进步二等奖。主持完成的国家语委项目《藏语语料库切分标注规范及辅助工具研究》在由国家语委组织的鉴定委员会一致认为填补了国内空白,在技术上处于国际先进和领先水平。2009年度获得青海省科技进步三等奖。作为技术负责人主持开发了在国内外产生较大影响的“班智达”系列藏语信息化软件产品,其中“班智达藏文字处理软件”的用户已达到100万以上。2006年“班智达藏汉英系列藏文软件的开发与设计”获得钱伟长中文信息处理科学技术三等奖。另外,主持完成青海省内项目3项;主持和参与编写了汉藏英对照科技词典8本。目前主持国家社科基金项目1项,国家自然科学基金项目1项,作为技术负责人参加国家973前期研究专项1项,主持中科院项目1项,与中国社会科学院和中国科技大学合作项目1项。
报告题目:青海师范大学藏文信息处理研究概况
报告摘要:主要介绍青海师范大学藏文信息处理研究的现状、研究方向、研究成果和未来研究的主要内容。
[FS:PAGE]
此次,海南州藏文信息技术研究中心能够参加首届藏文信息处理学术研讨会感到非常荣欣,是一次十分难得的学习和交流机会。听取各位专家的讲座真的是受益匪浅,尤其是清华大学孙茂松老师对藏文数据库建设、藏文搜索引擎研发等方面的肯定给予我们极大的鼓舞和信心。
海南州藏文信息技术研究中心是海南州藏语文工作委员会办公室的重要组成部分,于2012年7月正式挂牌成立。中心在主要运营青海湖藏汉文网站的同时,还致力于规范和促进藏文信息化建设进程,努力开发藏文信息资源,推进藏文信息处理研究成果的技术转化和应用,使藏文信息化建设更好地为藏区社会服务。
虽然本中心成立只有两年多的时间,但是自2007年创办青海湖藏、汉网站以来就利用藏语文方面的优势在藏文信息化领域崭露头角,并于2009年创建了国内最大的藏文博客——青海湖藏文博客,实现了藏文动态信息发布和藏文草根网民自主参与博客撰写的立体式网络服务功能。
洛藏先生介绍其公司情况
青海湖藏文网日发布信息10条左右,均为原创报道。藏文博客注册用户9800多个,日发布博文70余条,整站日平均点击量在1万次左右。涉及的内容包括教育、艺术、历史、宗教、考古、民俗、格萨尔、藏医药、国内国际藏学研究、文学等。目前青海湖藏文网和藏文博客不仅在五省藏区享有很高的声誉,而且覆盖了全国34个省市自治区,在国外的覆盖率达到126个国家和地区,涵盖亚洲、美洲和欧洲等。它们的成功运营不仅对藏语文纳入网络信息时代发挥了重要作用,而且对藏语文的使用和发展产生了强劲的推动力。但是,在藏文网络信息资源大大增加的同时,既而产生了藏文信息查询困难的问题,对于历史信息的反复利用和整合方面可谓是一片空白,尤其是来自基层网民对于网络藏文资料的查询和获取需求十分迫切,还有藏族大学生也在普遍关注何时实现藏文网络搜索功能,以及一大批高校和科研单位的藏文信息化专家都在竭力研究搭建藏文搜索引擎的核心技术。基于此,我中心决然选择开发藏文搜索引擎这一重大项目,并设想整合各方资源,以实际行动去填补和解决藏文网络世界的这一关键问题。
2012年起,本中心着手策划和编制新的藏文信息化建设内容,并确定研发藏文搜索引擎项目建设工程。按照搜索引擎的功能需求和藏语文的语法特点,专业细致地规划了藏文搜索引擎的内容和目标,使其具有科学性和操作性。藏文智能搜索引擎系统平台,是一个集搜索引擎、藏文百科、自动问答为一体的大型藏文门户系统工程,将开辟新闻、网页、图片、视频、百科、文库、知道7个板块。项目建成后,将成为互联网藏文信息的主要来源和共享资源中心。
在经过大半年的前期准备和积极申报,于2013年4月项目得以正式启动,并通过多方征集最终以藏文为藏文搜索引擎命名,汉文音译为“云藏”,并以藏文
的拉丁转写,将其域名名称注册为“www.yongdzin.com”。藏文名称
,意为“上师”或“老师”,字面意思为“有问必答”,单词分开又有“全面抓取”之意。中文名称“云藏”是藏文
的谐音,这既能保留源语读音和源语文化特色,又能突出藏文搜索引擎基于云计算对藏文信息资源进行处理和储藏,以及依托互联网浩瀚如云的藏文化等特点。
另外,“云藏”搜索的徽标通过网络征集已集中了80多个创意作品,目前已做了初步选择,将在试运行阶段进一步进行确定和完善。
研讨会现场班智达科技有限公司的介绍内容
项目建设初期,在海南州委州政府的大力支持下,聘请了北京大学、中央民大、西北民大等院校的9名教授为特邀专家,为项目科学有效的实施组建了强有力的智囊团。并且为了确保项目的顺利完成,采用了高校、地方、企业三方合作的“协同创新”模式进行研发。
众所周知,任何搜索引擎中,数据库的建设是最为浓墨重彩的一笔,尤其对于藏文搜索引擎来说,百科、文库和自动问答数据库的建设是一项从零开始的浩大工程。覆盖了文化、卫生、教育、科技、宗教、人物等方方面面的内容,需要凝聚全社会的力量,经历数年乃至数十年的时间才能完成。为了吸引人员参与这项工作,今年4月,“云藏”面向全社会招贤纳士。在社会各界的积极响应下,已拥有30余位专攻数据库建设的专业人才,他们分科分类并仔细认真的进行设计、规划、翻译、编辑和录入,每人每天至少需要完成6000字的翻译、编写量。这些人员中大概有10多位是兼职人员,都是从事教育、藏医、宗教、民俗和历史等研究领域的专业人才,而且要求他们每两个月提交录入稿件一次,并且所有的录入词条和文章都要经过审核人员严格校对,后期还将邀请相关各科的专家进行专业审核。
值得一提的是藏文搜索引擎最主要的受益者是广大的农牧民群众和中小学生。对农牧民来说通过搜索引擎可以直观、详尽的推介其特色产品,如畜牧业(牛羊肉)、奶制品(牛奶、酸奶、酥油、曲拉)、服装饰品、藏医藏药、国际非物质文化遗产格萨尔史诗,以及生态旅游资源、原生态歌舞艺术、马术、射箭等民俗文化。而对于中小学生,对重视母语,提升藏文水平,了解藏族传统文化知识,和世界各国各民族的优秀文化等起到非常积极的作用,将对藏族青少年儿童的一生产生重要意义,包括他们对下一代的教育等。
会议间隙相互交流
除此以外,为了避免闭门造车,积极与院校、媒体、寺院的专家学者和大学生进行了广泛接触,通过座谈深入细致的探讨了藏文搜索引擎数据库建设工程,征集大量意见建议,不断改进工作机制,提高工作效率。
虽然,“云藏”项目正在如火如荼地进行着,但是后续工作中还是存在诸多困难,这是一项长久而艰巨的任务,需要有强悍的实力,足够的耐力,以及强大的凝聚力和坚定的信念,更离不开相关领域地专家学者和同行们的关注和支持。及时的交流,相互的借鉴,资源的共享是信息技术行业快速发展的捷径。
天堂很远,海南很近
对于旅行者来说, 西藏一直是旅行者心中的圣地, 一提到藏地心中便敬畏不已 可你知道吗? 藏地很大, 除了西藏的7个地市, 还有青海、四川、云南、甘肃的10个藏族自治州。 人们都说,青藏高原、青藏高原。 但你知道吗? 青海几乎占了藏地的半壁江山。...
2019-12-09 编辑:青阳卓玛 10317雅鲁藏布江大峡谷将建设特大型旅游景区
雅鲁藏布江大峡谷世界第一大峡谷——雅鲁藏布江大峡谷目前正在兴建特大型旅游景区。预计到2010年,集雪山观光、峡谷徒步、温泉度假和漂流探险为一体的雅鲁藏布江大峡谷景区将建设完成。 从负责景区开发管理的西藏旅游股份有限公司了解到,从2005年起公司开始开...
2008-12-15 编辑:admin 5274青海帝音影视文化传播有限公司招聘若干员工
青海帝音影视文化传播有限公司成立于2015年6月,是一家从事影视类节目译制、制作、拍摄、策划咨询服务、音像制作、民族文化推广、电脑图文设计制作、展览展示、摄影、资料翻译、婚庆策划等业务的文化传媒公司。因公司业务发展需要,现面向社会公开招聘汉藏翻译、音视...
2016-02-23 编辑:admin 6334纳木措徒步大会招募队员 将于八月中旬举行
近日,记者从2017第十一届中国拉萨纳木措徒步大会项目办公室了解到,中国拉萨纳木措徒步大会将于8月19日至24日举行,目前,纳木措徒步大会队员招募活动已经正式启动,旅行爱好者和户外运动爱好者可选择在成都、拉萨报名,其中选择在拉萨报名者可拨打电话0891-6527555进行咨询...
2017-06-05 编辑:admin 5246联系电话:0974-8512858
投稿邮箱:amdotibet@126.com