2022年文档图象剖析与辨识前沿理论与应用研讨会
暨中国图象图形学学会文档图象剖析与辨识专委会2022年学术年会
时间:2022年12月18日(星期日)上午8:50-12:00
地点:线上大会(腾讯大会 + 网上直播)
主办单位:中国图象图形学学会(CSIG)
承办单位:CSIG文档图象剖析与辨识专委会
华为技术有限公司
本次研讨会由中国图象图形学学会承办、文档图象剖析与辨识专委会和华为技术有限公司主办,将针对文档图象剖析与辨识、文字辨识的基础问题、前沿方向、热点课题和重大应用,展开研讨交流,为本领域研究者和工程师提供一个良好的交流与合作平台。
会议程序
会议日程一览表:
时间
报告题目
报告人
主持人
8:50 –9:00
会议闭幕,专委会校长致词
金连文
9:00 –9:40
文档智能剖析与辨识前沿研究问题
刘成林
金连文
9:40 –10:20
开放集模式识别与文字辨识技术
殷绪成
10:20 –10:40
PBFormer: 使用Transformer通过方程带捕捉复杂场景文字形状
卢 宁
10:40 –11:20
场景文字检索的初步探求
白 翔
吕 岳
11:20 –11:40
华为云OCR技术进展与行业实践
廖明辉
11:40 –12:00
OCR技术在文档基础模型的应用
谢 念
报告题目、摘要及讲者介绍
特邀报告1:文档智能剖析与辨识前沿研究问题
报告摘要:文档图象(包括彩印和手写文档、场景文本图象、联机手写文档等)分析与辨识的任务包括版面剖析、文本辨识、图形符号辨识、语义信息抽取等。近年来,得益于深度学习方法的发展和应用模式识别英文科技论文,文档剖析与辨识的性能快速提高,应用快速推广。然而,现有技术在辨识精度和可靠性、可解释性、自适应性等方面还有显著不足;从文档信息抽取与借助的角度来说还有一些技术缺口;从系统生成的角度来说还有学习能力的不足。本报告对文档剖析与辨识技术现况做简略回顾和剖析,从主要任务性能、应用扩充、学习能力的角度强调当前技术的不足,并由此提出一些值得注重的研究问题和方向。
讲者介绍:刘成林,中国科学院自动化研究所副校长,模式识别国家重点实验室校长,研究员、博士生导师,中国科学院大学人工智能学院副院长。1989年、1992年、1995年分别在武汉大学、北京工业大学、中国科学院自动化研究所获学士、硕士和博士学位。1996年至2004年先后在韩国科学技术院、日本东京农工大学、日立中央研究所从事博士后和研制工作。2005年起在中国科学院自动化研究所任研究员。2008年获得国家杰出青年科学基金。研究兴趣包括模式辨识、机器学习、文字辨识与文档剖析等。在国内外刊物和学术会议上发表论文300余篇,合著英语著作一本。现任Pattern Recognition刊物和《自动化学报》的副主编,以及多个刊物的编委。任国际模式识别学会副主席,中国人工智能学会副理事长、会士,中国自动化学会会士、模式识别与智能系统专委会校长,中国图象图形学学会常务理事。美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)。
特邀报告2:开放集模式识别与文字辨识技术
报告摘要:在例如智能驾驶、网络多媒体内容安全等开放环境中,新数据、新模式、新类别不断涌现,模式识别与文字辨识技术及应用出现新挑战。本报告首先简略回顾开放环境下文字辨识的主要技术挑战,然后重点介绍其中的一个新方向——“开放集文字辨识”(Open-Set Text Recognition),较详尽地阐释其基本定义、通用框架和典型算法,最后对开放环境下的多语言多民族文字辨识技术及应用进行了初步的阐述与展望。
讲者介绍:殷绪成,教授、博士生导师,国家杰出青年科学基金获得者,本科、硕士结业于北京科技大学计算机系,博士结业于中国科学院自动化研究所,现为北京科技大学计算机与通信工程学院教授、模式识别与人工智能技术创新实验室校长,中国图象图形学学会文档图象剖析与辨识专委会副校长/秘书长。他常年从事模式辨识、文字辨识、计算机视觉及人工智能芯片技术研究及应用,在IEEE T-PAMI、IEEE T-IP、CVPR、ICDAR等学术期刊大会上发表近100篇论文;以第一完成人获北京市科技进步奖银奖1项、教育部科技进步奖二等奖1项,带领团队连续四届(2013、2015、2017和2019年)荣获国际文档剖析与辨识会议技术大赛共15项亚军。
特邀报告3:PBFormer: 使用Transformer通过方程带捕捉复杂场景文字形状
报告摘要:报告介绍一种新颖的任意形状检测器PBFormer,这是一种高效但功能强悍的场景文本检测器,它将Transformer与一种新颖的文本形状表示方程带(PB)相结合,通过建模上下左右四个方向曲线,以建模复杂形状文本。同时,结合我们奇特设计的无参数的多尺度融合模块,整个网路高效且性能优异。
讲者介绍:卢宁,2019年博士结业于华中科技大学。期间访学新加坡管理大学。后来曾在平安产险,腾讯科技工作。于2020年起在就职于华为,任主任工程师。主要负责文档相关能力建设,主导和负责文档领域的研究和产品研制,带领团队完成文字检查,识别,信息抽取,表格辨识,视频翻译等多项核心能力建立,服务于内部多个业务场景,月调药量超千万。主要研究方向有多模态文档理解,文字检查和辨识,文档剖析,复杂视口剖析,表格辨识,生成扩散模型,证据理论。国内外核心大会和刊物上有发表过多篇文章。核心成果PICK和MASTER 在业界有较高的影响力,在多个权威核心赛事和公司内部被使用。在ICDAR 2019 SROIE 比赛中曾获 Task 3 第一名。2022 年在“中国图像图形挑战赛华为赛道“的CER-VIR 比赛中作为赛题主任,设计并主办赛事。
特邀报告4:场景文字检索的初步探求
报告摘要:视频图象中的文字搜索是一个重要研究课题模式识别英文科技论文,与现在关注度较高的端到端文字辨识具有相像和不同之处。本次报告介绍我们在场景文字检索方面取得的研究进展,包括基于查询文本的全局匹配和局部匹配方式及其潜在的应用场景。。
讲者介绍:白翔,华中科技学院人工智能与自动化学院院士,国家杰青获得者,机器视觉与智能系统湖北省工程研究中心校长。主要研究方向计算机视觉与模式识别、文档剖析等。已在计算机视觉与模式识别领域一流国际期刊和大会如PAMI、CVPR等发表论文80余篇。由于在场景文字检查与辨识取得的明显成绩,2019年在国际模式识别协会承办的国际文档剖析与辨识大会上获得IAPR/ICDAR Young Investigator Award(青年学者奖)。现任刊物IEEE TPAMI, Pattern Recognition, Frontier of Computer Science, 中国科学-信息科学、自动化学报编委。曾兼任CVPR、AAAI、ICPR等人工智能主流国际会议的领域主席/资深技术程序委员或大赛主席十余次,并获得AAAI-2019 Outstanding SPC Award。2014-2020连续7年入围Elsevier中国高被引学者榜,2020年入围IAPR Fellow。
特邀报告5:华为云OCR技术进展与行业实践
报告摘要:OCR技术有广泛的应用场景,也是华为云AI服务的核心能力之一。本次报告将介绍华为云在OCR技术上的研究进展以及华为云在OCR行业的实践,包括文字辨识自监督预训练模型的研究进展及其在金融行业的应用、华为云OCR服务产品介绍等
讲者介绍:廖明辉,华为云AI算法研究员。2021年于华中科技大学获得博士学位。主要研究方向为自然场景文字检查与辨识。以第一作者身分在TPAMI、TIP、CVPR、ECCV、AAAI等顶尖刊物大会发表论文十余篇,其中ESI高被引论文2篇。谷歌学术引用数超3500。获得了CSIG优博、CSIG自然科学奖银奖、CCF-CV学术新锐奖、第五届中国互联网+大学生创新创业比赛国赛银奖、AI华人新星百强、AI 2000人工智能全球最具影响力学者榜单等荣誉。
特邀报告6:OCR技术在文档基础模型的应用
报告摘要:从文字辨识任务到文档信息抽取任务,模型从单模态、任务专属模型渐渐演弄成多模态、多任务共享预训练模型。新特点除了带来的精度提高,更优化了数据借助效率和模型布署效率。在实际项目中,合理借助模型的新特点,能够获得诸多有益疗效。
讲者介绍:谢念,2014年于英国约克大学获得博士学位。2016起,就职于华为公司,任高级工程师,主要研究内容包括:文字检查、文字辨识、文档预训练大模型等前沿热点课题。研究成果在公司多个产品和项目中落地。
参加人员
CSIG文档图象剖析与辨识专委会委员、文档图象剖析、文字辨识、模式识别、图像处理、机器学习、人工智能等领域专业人士,研究生,及其他感兴趣者。
参加形式
1、免费出席,敬请光临,不用提早报考。
2、特邀讲者及嘉宾、CSIG理事、CSIG文档图象剖析辨识专委会委员参会形式:腾讯大会系统,会议ID另行通知。
3、其他人员请通过网路直播形式出席,直播网址:
98; 。