想得瑟下我们的智能文档处理技术（得意脸：）

Original Chunfang iBrand人物 and Mixlab 2022-09-09

收录于合集

#iBrand 跨界专访 3 个

#iBrandUp推荐 21 个

元初智能核心工程师

中科大张伟平

iBrand

伟平说：“我们基于专利技术所打造的 SinguAI 是我们团队非常骄傲的产品。

我们都想了解这个平台以及很牛的工程团队，于是约了这期专访。🥸

weiping

大家好！我是 Mixlab 社区的新晋群友，深耕算法方向。目前是元初智能的核心工程师。

元初智能硬核logo

我们打造了世界领先的应用层通用AI平台，平台内置了获得专利的 “Real-Time AI” ，可实现实时人机交互，实时训练、实时应用、自动反馈。（场景之一：智能文档处理

智能文档处理(IDP）是指利用自然语言处理，计算机视觉等人工智能技术对文档进行自动分类，提取及信息验证，将非结构化数据通过AI处理成结构化数据的解决方案。

当前各个行业中超过80%的业务数据都是依靠人工繁琐地处理。🤷‍♂️

#硬核团队

核心技术

iBrand

作为一家 AI 平台型公司，为什么选智能文档处理作为重要的落地领域？

企业要提升日常运营效率，数字化转型是核心环节。将业务数据、行业信息快速电子化并整理成为可供分析及处理的结构化数据。如可直接处理的二维表格数据。

Weiping

iBrand

核心技术是什么？

基于自主研发的 NLP，CV 技术来实现的数据结构化解决方案。

Weiping

Mixlab

团队的实力如何呀？

公司创始人包括世界级人工智能专家，拥有超过三十年的前沿经验和行业认知。

技术团队中还包括众多来自海内外名校如卡内基梅隆、伯克利、哥大、芝加哥、帝国理工、康奈尔、清华、北大、中科大等的优秀人才。

Weiping

2021 年

A+ 轮 1300W 美元

渶策资本 INCE 领投，Bitrock (GLP下属）跟投

2020 年

A轮 4000 万人民币

华泰创新投资

2019 年

元初智能成立

Mixlab

那就给大家介绍下你们的智能文档吧：

#智能文档处理

到底在处理啥?

文件预处理 原始文件是图片的话，那我们就需要通过 OCR，将图片转变成一个可对文本内容进行复制粘贴的文档。（包括：图片降噪，自动转正，格式转换，OCR等）

类似出席宴会前的精心打扮

智能文档分类 比如企业运营时常见的付款业务，涉及到增值税发票，订货单，付款申请等各种类型的文件，每个类型的文件都有自己相应需要提取出的关键字段。那么，在给到一个涵盖多类型文件的文档时，（图像分类/NLP）

元初出场：

把不同的文件进行自动区分，后续 AI 就可以针对不同类别下的文件完成相应的字段的提取。

信息提取 信息提取是数据结构化中最耗费人体力和精力的一步，如果是人工，就要各种手动手动手动手动手动 …… （NLP, Text Detection, Object Detection, OCR)

元初出场：

自主研发NLP，目标检测和OCR技术，最终实现自动完成信息提取。

信息验证 配合业务的需求，对提取的字段，进行规范化处理。 ( 正则，模糊匹配）

iBrand

这不就是OCR吗?

虽然你可能会听到 IDP 和 OCR 互换使用，但它们并不相同。

基于 OCR 的解决方案基于模板和规则，从简单的结构化票据中提取数据，这意味着它们不能适应新的数据类型，需要大量数据来为该数据训练新的 OCR 模型，是不可持续的。

智能文档处理 (IDP) 不仅可用于提取数据，还可用于理解数据。IDP 可以从复杂的非结构化文档中检测上下文和情绪，因此可以适应文档的变化。

Weiping

iBrand

那为什么你们要做平台? 而不是独立开发/深耕智能文档？

因为如果 AI 算法本身无法做到多场景的复用，那么我们去开发和维护模型的成本也将是压死 AI 落地的最后一根稻草。

因此，我们要去研究和增强底层能力的鲁棒性和可拓展性。通过将模型训练，数据标注，模型管理，应用管理，用户权限管理，人机交互集成到一体的方式，来真正打造一个低门槛的AI生产车间，解决最后一公里的问题。

Weiping

Mixlab

非技术用户真的可以自己操作平台建立模型吗?

当然可以！

我们的用户界面简单明了。用户只需要提供一小部分文件样本来定义模型需求，剩下的交给 AI 来处理。元初的使命是让即便不懂技术的人，也能轻松应用 AI。

Weiping

Mixlab

那你们跟其他 AI 公司有什么不同之处?

SinguAI 只需要少量数据样本即可建立Backbone 模型，利用模型的自迭代能力可以快速适应新的数据类型，让模型在实际生产中也可以进行快速适应。

使用其他 AI 解决方案可能需要数月时间才能完成一次迭代，但使用 SinguAI 只需几周时间即可。此外，平台赋能的形式也大大降低了使用者的门槛。

Weiping

Overview

Label

Model

iBrand

期待，元初智能不仅作为一家公司也作为 AI 行业生态中心的未来图景。

# 惜才爱才组

介绍下我的老大

From 伟平 💌：

刚毕业的时候一心想做量化，却在机缘巧合之下拿到元初的面试，选择加入并跟公司成长至今。这是家光从面试就能感受到想踏实做AI 的公司。创始人之一吴哥，明明有躺平的资本，却还是真心希望能为行业做出贡献，我是被这份热诚打动的。

此外，团队的CEO和COO两位创始人，也是金融行业里非常NB的人物，哈哈哈，得瑟一下！跟大家介绍一下我们技术组的老大吧：

吴天昊

CTO

吴博士拥有超过20年的机器学习经验。曾任Ask.com首席软件工程师，带领团队开发了搜索引擎系统。拥有多项专利，并成功实施近200个成功案例。毕业于美国里海大学，机器学习博士；北京大学，计算机科学学士。

欢迎 Mixlab 无界社群的伙伴们加入并助力我们！与国内外优秀的机器学习工程师共事，深度了解具体的 AI 落地场景 🤖️，研究最具商业前景的人工智能解决方案。

最重要的是，在元初能凭实力要求提前转正，获得高于行业水平的薪资🧧，因人设岗。

🤖️

普林斯顿、北京、上海、深圳、南京

机器学习工程师

计算机视觉

优先：掌握软件工程相关技术，面向对象编程（OOP），参与开发过较大型软件系统；在以下一个或多个领域有实际经验: 物体检测/分割，GAN；对一阶段和二阶段的目标检测算法有自己的理解和心得。要求：计算机或者其他相关专业硕士或以上；熟悉常用的数据科学工具：scikit-learn, OpenCV, Pillow；熟悉主流的深度学习框架 Tensorflow 或 Pytorch；了解主流的目标检测算法：Mask RCNN, Yolo，Faster RCNN等。

工作内容：学习公司的 AI 落地场景方法，基于已有模型生产流程，完成目标检测算法的训练和优化；与美国的算法工程师合作完成计算机视觉算法研究。

机器学习工程师

OCR

优先：掌握软件工程相关技术,面向对象编程（OOP），参与开发过较大型软件系统；熟悉Bi-LSTM等语言网络；对仿真数据的生成有一定的经验；有顶刊相关Publications者优先。要求：计算机或者其他相关专业硕士或以上；熟悉常用的数据科学工具：OpenCV, Pillow；熟悉主流的深度学习框架：Tensorflow 或 Pytorch；熟悉数据增强的方法，有做数据增强的经验；了解主流的OCR算法：CRNN OCR, attention OCR etc.

工作内容：开发并优化OCR的数据前处理及OCR算法的研发和落地；与美国的算法工程师合作完成OCR算法的研究。

机器学习工程师

自然语言处理

优先：掌握软件工程相关技术，面向对象编程（OOP），参与开发过较大型软件系统；在以下一个或多个领域有实际经验，包括但不限于: 信息提取，文本分类，模糊匹配，文本生成；在顶级期刊有publications。要求：计算机或者其他相关专业硕士或以上；熟悉常用的 Python 文本处理库及数据科学工具：BeautifulSoup, scikit-learn, Transformers(hugging_face) , Spacy；熟悉主流的深度学习框架 Tensorflow 或 Pytorch；了解主流的Transformers：BERT, GPT-2, XLnet 等。

工作内容：学习公司的NLP场景落地算法，完成客户需求中NLP解决方案的算法落地与研究；优化改进当前的NLP算法，与美国同事合作进行NLP算法的系列实验。

Python 中级、高级工程师

优先：掌握软件工程相关技术,面向对象编程（OOP），参与开发过较大型软件系统；有AI平台开发经验工作者优先；对分布式系统开发有一定的经验，了解Docker、kubernetes。要求：两年以上的Python经验，熟悉多线程编程，内存管理，设计模式，具有良好的编程习惯；至少熟练使用Tornado/Flask/django中的一种；掌握MySQL、PostgreSQL、redis等；熟悉同步/异步等网络编程模型、多线程、协程等；熟悉Linux基本操作，可熟练编写Shell 脚本；具有一定 Web前端技能，熟悉 HTML/CSS/JS 等前端技术。

工作内容：基于已有平台，结合客户的定制化需求完成设计和二次开发，并完成客户用例的部署实施；完成系统优化。

Python 高级、资深工程师

优先：有过大型软件系统架构经验，对pytorch有源码级的了解，熟悉 java、C++。要求：5年以上工作经验，1年以上后台架构设计经验; 精通Python，熟悉java；熟悉多种结构化和nosql数据库技术、缓存技术，熟悉mq；有高并发服务开发经验，对服务性能优化有很深的心得；对常用数据库、消息队列、分布式、多线程、并行化等技术有深入理解；有AI平台或者算法相关项目经验；有kubernetes+docker等自动化部署相关经验。

工作内容：负责AI模型处理性能的优化，协助完成模型的回归测试，包括准确率，速度，处理并发量；负责AI项目分布式和自动化部署架构设计。

Web前端工程师

优先：参与过人工智能相关业务前端开发工作；有性能优化经验/前端组件库建设经验。要求：两年以上前端工作经验，至少参加过一个完整中型前端项目开发；熟悉W3C 规范，熟悉HTML5、CSS3、 ES5/ES6 等前端开发技术；能够独立进行前端页面代码开发及调试，能够充分理解设计需求并落地；熟悉React/Vue 等类似MVVM 框架实践经验，具备独立项目开发能力；熟悉Node.js 技术及生态，熟练使用npm/webpack/git 等工具；熟悉前端性能的优化，熟悉使用Chrome/Safari 等前端调试工具。

工作内容：应用案例前端开发：理解和对接客户需求，基于公司已有产品前端完成二次开发及优化；产品前端开发：完成公司内部产品研发的前端开发。

产品经理

优先：对人工智能应用的底层算法有一定的了解，参与研发过人工智能产品。要求：至少负责过1个以上科技产品的设计和管理。

工作内容：负责新产品的创新和预研，完成新产品的用户需求定义、产品功能/UI/交互的设计；负责制定项目开发计划并管理。

项目经理

优先：有AI实施项目经验者优先；要求：3年以上项目经理经验；熟练使用一般的项目管理软件，如TAPD。

工作内容：实施项目的业务数据及梳理，数据质量管理；AI项目进度安排，风险把控，需求管理；客户关系维护，协调各职能工程师完成技术方案设计，方案汇报；编写项目相关文档。

iBrand 内推/专访通道

扫码添加工作人员 Lea

- 元初智能 & Mixlab -

血压不降、麻药不睡？上海三甲主任质疑集采药质量引热议

逃出缅甸红莲宾馆

江苏淮安女子整理档风被的时候意外摔倒后不幸身亡！监控画面曝光

张颂文的瓜炸了！其实结局早已注定

林志玲50岁生日，首次晒儿子：谁知天命的年纪长这样啊？

想得瑟下我们的智能文档处理技术（得意脸：）

您可能也对以下帖子感兴趣

血压不降、麻药不睡？上海三甲主任质疑集采药质量引热议

逃出缅甸红莲宾馆

江苏淮安女子整理档风被的时候意外摔倒后不幸身亡！监控画面曝光

张颂文的瓜炸了！其实结局早已注定

林志玲50岁生日，首次晒儿子：谁知天命的年纪长这样啊？

生成图片，分享到微信朋友圈

想得瑟下我们的智能文档处理技术（得意脸：）

您可能也对以下帖子感兴趣