想得瑟下我们的智能文档处理技术(得意脸:)
iBrand
伟平说:“我们基于专利技术所打造的 SinguAI 是我们团队非常骄傲的产品。
我们都想了解这个平台以及很牛的工程团队,于是约了这期专访。🥸
weiping
大家好!我是 Mixlab 社区的新晋群友,深耕算法方向。目前是元初智能的核心工程师。
元初智能 硬核logo
我们打造了世界领先的应用层通用AI平台,平台内置了获得专利的 “Real-Time AI” ,可实现实时人机交互,实时训练、实时应用、自动反馈。(场景之一:智能文档处理
智能文档处理(IDP)是指利用自然语言处理,计算机视觉等人工智能技术对文档进行自动分类,提取及信息验证,将非结构化数据通过AI处理成结构化数据的解决方案。
当前各个行业中超过80%的业务数据都是依靠人工繁琐地处理。🤷♂️
#硬核团队
核心技术
iBrand
作为一家 AI 平台型公司,为什么选智能文档处理作为重要的落地领域?
企业要提升日常运营效率,数字化转型是核心环节。将业务数据、行业信息快速电子化并整理成为可供分析及处理的结构化数据。如可直接处理的二维表格数据。
Weiping
iBrand
核心技术是什么?
基于自主研发的 NLP,CV 技术来实现的数据结构化解决方案。
Weiping
Mixlab
团队的实力如何呀?
公司创始人包括世界级人工智能专家,拥有超过三十年的前沿经验和行业认知。
技术团队中还包括众多来自海内外名校如卡内基梅隆、伯克利、哥大、芝加哥、帝国理工、康奈尔、清华、北大、中科大等的优秀人才。
Weiping
2021 年
A+ 轮 1300W 美元
渶策资本 INCE 领投,Bitrock (GLP下属)跟投
2020 年
A轮 4000 万人民币
华泰创新投资
2019 年
元初智能成立
Mixlab
那就给大家介绍下你们的智能文档吧:
#智能文档处理
到底在处理啥?
文件预处理 原始文件是图片的话,那我们就需要通过 OCR,将图片转变成一个可对文本内容进行复制粘贴的文档。(包括:图片降噪,自动转正,格式转换,OCR等)
类似出席宴会前的精心打扮
智能文档分类 比如企业运营时常见的付款业务,涉及到增值税发票,订货单,付款申请等各种类型的文件,每个类型的文件都有自己相应需要提取出的关键字段。那么,在给到一个涵盖多类型文件的文档时,(图像分类/NLP)
元初出场:
把不同的文件进行自动区分,后续 AI 就可以针对不同类别下的文件完成相应的字段的提取。
信息提取 信息提取是数据结构化中最耗费人体力和精力的一步,如果是人工,就要各种手动手动手动手动手动 …… (NLP, Text Detection, Object Detection, OCR)
元初出场:
自主研发NLP,目标检测和OCR技术,最终实现自动完成信息提取。
信息验证 配合业务的需求,对提取的字段,进行规范化处理。 ( 正则,模糊匹配)
iBrand
这不就是OCR吗?
虽然你可能会听到 IDP 和 OCR 互换使用,但它们并不相同。
基于 OCR 的解决方案基于模板和规则,从简单的结构化票据中提取数据,这意味着它们不能适应新的数据类型,需要大量数据来为该数据训练新的 OCR 模型,是不可持续的。
智能文档处理 (IDP) 不仅可用于提取数据,还可用于理解数据。IDP 可以从复杂的非结构化文档中检测上下文和情绪,因此可以适应文档的变化。
Weiping
iBrand
那为什么你们要做平台? 而不是独立开发/深耕智能文档?
因为如果 AI 算法本身无法做到多场景的复用,那么我们去开发和维护模型的成本也将是压死 AI 落地的最后一根稻草。
因此,我们要去研究和增强底层能力的鲁棒性和可拓展性。通过将模型训练,数据标注,模型管理,应用管理,用户权限管理,人机交互集成到一体的方式,来真正打造一个低门槛的AI生产车间,解决最后一公里的问题。
Weiping
Mixlab
非技术用户真的可以自己操作平台建立模型吗?
当然可以!
我们的用户界面简单明了。用户只需要提供一小部分文件样本来定义模型需求,剩下的交给 AI 来处理。 元初的使命是让即便不懂技术的人,也能轻松应用 AI。
Weiping
Mixlab
那你们跟其他 AI 公司有什么不同之处?
SinguAI 只需要少量数据样本即可建立Backbone 模型,利用模型的自迭代能力可以快速适应新的数据类型,让模型在实际生产中也可以进行快速适应。
使用其他 AI 解决方案可能需要数月时间才能完成一次迭代,但使用 SinguAI 只需几周时间即可。此外,平台赋能的形式也大大降低了使用者的门槛。
Weiping
Overview
Label
Model
iBrand
期待,元初智能不仅作为一家公司也作为 AI 行业生态中心的未来图景。
# 惜才爱才组
介绍下我的老大
From 伟平 💌:
刚毕业的时候一心想做量化,却在机缘巧合之下拿到元初的面试,选择加入并跟公司成长至今。这是家光从面试就能感受到想踏实做AI 的公司。创始人之一吴哥,明明有躺平的资本,却还是真心希望能为行业做出贡献,我是被这份热诚打动的。
此外,团队的CEO和COO两位创始人,也是金融行业里非常NB的人物,哈哈哈,得瑟一下!
吴天昊
CTO
吴博士拥有超过20年的机器学习经验。曾任Ask.com首席软件工程师,带领团队开发了搜索引擎系统。拥有多项专利,并成功实施近200个成功案例。毕业于美国里海大学,机器学习博士;北京大学,计算机科学学士。
欢迎 Mixlab 无界社群的伙伴们加入并助力我们!与国内外优秀的机器学习工程师共事,深度了解具体的 AI 落地场景 🤖️,研究最具商业前景的人工智能解决方案。
最重要的是,在元初能凭实力要求提前转正,获得高于行业水平的薪资🧧,因人设岗。
🤖️
普林斯顿、北京、上海、深圳、南京
优先:掌握软件工程相关技术,面向对象编程(OOP),参与开发过较大型软件系统;在以下一个或多个领域有实际经验: 物体检测/分割,GAN;对一阶段和二阶段的目标检测算法有自己的理解和心得。要求:计算机或者其他相关专业硕士或以上;熟悉常用的数据科学工具:scikit-learn, OpenCV, Pillow;熟悉主流的深度学习框架 Tensorflow 或 Pytorch;了解主流的目标检测算法:Mask RCNN, Yolo,Faster RCNN等。
工作内容:学习公司的 AI 落地场景方法,基于已有模型生产流程,完成目标检测算法的训练和优化;与美国的算法工程师合作完成计算机视觉算法研究。
OCR
优先:掌握软件工程相关技术,面向对象编程(OOP),参与开发过较大型软件系统;熟悉Bi-LSTM等语言网络;对仿真数据的生成有一定的经验;有顶刊相关Publications者优先。要求:计算机或者其他相关专业硕士或以上;熟悉常用的数据科学工具:OpenCV, Pillow;熟悉主流的深度学习框架:Tensorflow 或 Pytorch;熟悉数据增强的方法,有做数据增强的经验;了解主流的OCR算法:CRNN OCR, attention OCR etc.
工作内容:开发并优化OCR的数据前处理及OCR算法的研发和落地;与美国的算法工程师合作完成OCR算法的研究。
机器学习工程师
自然语言处理
Python 中级、高级工程师
Python 高级、资深工程师
优先:有过大型软件系统架构经验,对pytorch有源码级的了解,熟悉 java、C++。要求:5年以上工作经验,1年以上后台架构设计经验; 精通Python,熟悉java;熟悉多种结构化和nosql数据库技术、缓存技术,熟悉mq;有高并发服务开发经验,对服务性能优化有很深的心得;对常用数据库、消息队列、分布式、多线程、并行化等技术有深入理解;有AI平台或者算法相关项目经验;有kubernetes+docker等自动化部署相关经验。
工作内容:负责AI模型处理性能的优化,协助完成模型的回归测试,包括准确率,速度,处理并发量;负责AI项目分布式和自动化部署架构设计。
Web前端工程师
优先:参与过人工智能相关业务前端开发工作;有性能优化经验/前端组件库建设经验。要求:两年以上前端工作经验,至少参加过一个完整中型前端项目开发;熟悉W3C 规范,熟悉HTML5、CSS3、 ES5/ES6 等前端开发技术;能够独立进行前端页面代码开发及调试,能够充分理解设计需求并落地;熟悉React/Vue 等类似MVVM 框架实践经验,具备独立项目开发能力;熟悉Node.js 技术及生态,熟练使用npm/webpack/git 等工具;熟悉前端性能的优化,熟悉使用Chrome/Safari 等前端调试工具。
工作内容:应用案例前端开发:理解和对接客户需求,基于公司已有产品前端完成二次开发及优化;产品前端开发:完成公司内部产品研发的前端开发。
产品经理
优先:对人工智能应用的底层算法有一定的了解,参与研发过人工智能产品。要求:至少负责过1个以上科技产品的设计和管理。
工作内容:负责新产品的创新和预研,完成新产品的用户需求定义、产品功能/UI/交互的设计;负责制定项目开发计划并管理。
项目经理
优先:有AI实施项目经验者优先;要求:3年以上项目经理经验;熟练使用一般的项目管理软件,如TAPD。
工作内容:实施项目的业务数据及梳理,数据质量管理;AI项目进度安排,风险把控,需求管理;客户关系维护,协调各职能工程师完成技术方案设计,方案汇报;编写项目相关文档。
iBrand 内推/专访通道
扫码添加工作人员 Lea
- 元初智能 & Mixlab -