经济日报-中国经济网北京11月16日讯(记者牛瑾)近期,庖丁科技中标证券期货业金融科技研究发展中心(深圳)(以下简称“深交所”)——“证券文本信息抽取技术研究”项目,为资本市场前线监管助力。
在资本市场上,信息披露义务人“应当真实、准确、完整、及时地披露信息”。我国上市公司信息披露的内容大体包括证券发行文件、定期报告和临时报告三类,须在指定信息披露网站发布。以深市上市公司为例,2016年全年共披露265985篇公告,2017年共披露291607篇。随着上市公司数量日益增多,这一数字还会逐年增加,不但为深交所的合规检查带来压力,也给投资者带来极大的信息负载。如何将海量公告更有效、更高效地让阅读人“读薄”?其中,通过自然语言处理、深度学习等技术将公告信息结构化提取成为关键所在。
正因为如此,庖丁科技持续而坚定地推进该项工作,通过卷积神经网络对公告中的段落表格等信息进行分割抽取。为了适应样本数量稀少的问题,还提出了一种轻量级的机器学习方法,能够高效地将不同类别公告的关键语句抽取出来,并使之具有在线学习的能力;抽取过程仅需公告制作业务专家对少量公告进行标注,即可达到可用效果。关键语句抽取后,再通过LSTM神经网络进行细粒度提取,将公告结构化。目前,庖丁科技对并购重组公告的结构化抽取工作已取得较为理想的结果,提升了深交所监管工作效率。这项工作的探索不仅为扩展更多公告类型奠定基础,也为其他类型文本处理带来宝贵经验。
利用非结构化信息抽取技术,能够深度挖掘隐藏在海量公开公告中的企业与企业、企业与个人关系,透视、洞察企业的价值及风险。为此,作为一家以人工智能技术为核心的金融科技行业企业,庖丁科技一直致力于为金融行业提供技术支撑,助力金融机构进一步提升服务实体经济的能力。
(责任编辑:张雪)