要闻 宏观 金融 证券 产业 公益财经 地产 能源 健康 汽车 评论 人道慈善

https://uploads.chinatimes.net.cn/article/201712222146492EacnY1Vwm.jpg

互联网大佬谈AI:创业公司不再一窝蜂数据稀缺待解

卢晓 2017-12-22 22:56:23


本报记者 卢晓 北京报道

“我们有很多人才,但大家没数据。因此我特别想开放更多的数据让大家参与,但是光搜狗这一家是不够的。”12月21日,搜狗CEO王小川对《华夏时报》记者等媒体如是说。

当日,创新工场、搜狗和今日头条联合主办的首届“AI Challenger全球AI挑战赛”举行颁奖礼。据记者了解,这场大赛分AI Challenger视觉和翻译两大类共五个赛道。其中包括人体骨骼关键点检测竞赛、图像中文描述竞赛、场景分类竞赛、英中机器文本翻译竞赛和英中机器同声传译竞赛。

需要提及的是,首届“AI Challenger全球AI挑战赛”开放了百万量级的计算机视觉数据集、千万量级的机器翻译数据集,包括超过1000万条中英文翻译数据、70万个人体骨骼关键点标注数据、30万张图片场景标注和语义描述数据。主办方方面提供的资料称,这是国内迄今公开的规模最大的科研数据集。

据《华夏时报》记者了解,上述数据来自于主办方的提供以及外部购买。搜狗CTO杨洪涛对《华夏时报》记者等媒体表示,翻译赛道的数据都是来自于搜狗,“自己的团队做机器翻译的数据,内部的各种数据精选一部分,也是有外边的人工标准团队去筛选。”

海量AI数据的重要性被各方不断强调。

创新工场CEO李开复对《华夏时报》记者等媒体称:AI是未来发展最重要的方向,但AI的燃料其实是数据,“我们希望那些没有机会在BAT接触海量数据的同学们、研究员们、潜在的创业者们,能在他还没有离开学校,还没有踏出创业之路时就有机会接触到世界级别的精确的、大量的数据。”

而杨洪涛也认为,今天在图像、在语言、在各种垂直的行业里面,在金融、在医疗都有大量的问题亟待去解决,可能更多的时候遇到的局面是数据还稀缺,还没有足够的数据让我们去解决这个问题。

在开放数据方面,王小川透露,搜狗和清华大学在去年联合成立了天工智能计算研究院。他同时提到,搜狗在包括语音、语言、翻译等人工智能领域拥有诸多技术与应用场景,有很多积累数据。此前,他领导的搜狗于美国时间11月9日在纽交所上市,被称为赴美AI第一股,而王小川近日已增持搜狗股份至5.3%。

而在谈到AI在2017年的变化时,今日头条顾问、技术战略研究院院长张宏江认为,AI的创业公司不像一年前那样一窝蜂,大家都会很清晰的判断自己的应用场景,自己的数据获取,自己的商业模式。“这一波的创新公司比之前踏实的多,作为投资者也会比以前更加务实,我们的AI创新进入良性的循环。”他说。

责任编辑:黄兴利 主编:寒丰