赛题描述
多模态短视频分类
多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。 一条短视频中通常包含有三种模态信息,即文本、音频、视频, 它们在不同语义层面的分类体系中发挥着相互促进和补充的重要作用。 微信产品的内容生态繁荣,创作者覆盖范围大, 导致短视频数据中普遍存在着模态缺失、相关性弱、分类标签分布不均衡等问题,是实际应用中需要着重解决的技术难点。 本赛题要求参赛队伍基于微信视频号短视频数据以及对应的分类标签标注,采用合理的机器学习技术对指定的测试短视频进行分类预测。
比赛分为初赛和复赛两个阶段: 初赛阶段提供百万量级的无标注数据和十万量级的有标注数据用于训练; 复赛阶段训练数据和初赛相同,主要区别是初赛阶段只提供视频抽帧特征,而复赛阶段提供视频抽帧原始图像。 初赛阶段所有训练数据对参赛队伍开放下载; 复赛阶段的训练数据为闭源数据,参赛队伍在腾讯云TI-ONE平台完成训练。
初赛将于北京时间5月20日10:00开放,报名参赛后即可下载数据集。
赛题描述 —— 多模态短视频分类
多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。一条短视频中通常包含有三种模态信息,即文本、音频、视频,它们在不同语义层面的分类体系中发挥着相互促进和补充的重要作用。微信产品的内容生态繁荣,创作者覆盖范围大,导致短视频数据中普遍存在着模态缺失、相关性弱、分类标签分布不均衡等问题,是实际应用中需要着重解决的技术难点。本赛题要求参赛队伍基于微信视频号短视频数据以及对应的分类标签标注,采用合理的机器学习技术对指定的测试短视频进行分类预测。
一、竞赛数据
比赛分为初赛和复赛两个阶段:初赛阶段提供百万量级的无标注数据和十万量级的有标注数据用于训练;复赛阶段训练数据和初赛相同,主要区别是初赛阶段只提供视频抽帧特征,而复赛阶段提供视频抽帧原始图像。初赛阶段所有训练数据对参赛队伍开放下载;复赛阶段的训练数据为闭源数据,参赛队伍在腾讯云TI-ONE平台完成训练。
1. 数据格式
字段名 |
类型 |
举例 |
说明 |
备注 |
id |
String |
13655102198344648800 |
视频唯一ID |
|
category_id |
String |
2117 |
人工标注的视频分类ID |
category_id 固定为4位字符:前两位为一级分类ID,后两位对应一级分类下的二级分类ID。 |
title |
String |
苏炳添刷新亚洲记录小组第一轻松晋级百米决赛#奥运@微信时刻 |
视频标题 |
可能存在空值。 |
frames_feature |
float list |
[ [0.89, 1.86, -4.67, -4.38, ...], [0.13, 1.11, -2.12, -3.24, ...], ] |
视频帧的特征 |
使用预训练模型提取的视频帧特征。每秒抽取一帧进行提取。每个视频最多提供前32帧的特征,超出的部分不会被使用。 |
frames |
String |
13655102198344648800.zip |
视频帧打包的路径 |
视频帧的原始图像。每秒抽取一帧。每个视频最多提供前32帧图像,用zip打包。该字段仅在复赛阶段提供。 |
asr |
String |
苏炳添小组第一苏炳添创造了历史,他成为了第一个进入奥运会百米飞人决战的黄种人。创造了中国田径新的纪录。 |
视频的音频转文本识别 |
可能存在空值。 |
ocr |
dict list |
[{"time": 0, "text": "苏炳添创造新纪录荣获小组第一"}, ...] |
视频的OCR识别 |
该字段为一个列表,记录了不同时刻的OCR识别结果。相邻帧的重复识别已被去除。最多提供前32秒的OCR结果。可能存在空值。 |
字段名 |
类型 |
举例 |
说明 |
备注 |
2. 数据集
比赛提供的数据集有三个类别:无标注训练数据集、有标注训练数据集、测试数据集。各类数据集具体包含字段如下表所示。
字段 |
初赛 |
复赛 |
训练数据集 |
测试数据集 |
训练数据集 |
测试数据集 |
无标注 |
有标注 |
无标注 |
有标注 |
id |
√ |
√ |
√ |
√ |
√ |
√ |
category_id |
× |
√ |
× |
× |
√ |
× |
title |
√ |
√ |
√ |
√ |
√ |
√ |
frames_feature |
√ |
√ |
√ |
× |
× |
× |
frames |
× |
× |
× |
√ |
√ |
√ |
asr |
√ |
√ |
√ |
√ |
√ |
√ |
ocr |
√ |
√ |
√ |
√ |
√ |
√ |
3. 提交结果格式
参赛者需要提交所有测试集的category_id,具体要求如下:
1. 测试结果写入到一个 csv 文件中进行提交。
2. csv文件中包含两列:id 和 category_id,中间用逗号分隔。
3. csv文件的行数应与测试集的样本数量相同。视频 id 顺序可以不同。
官方baseline代码中 inference.py 有生成提交文件的样例。
二、评估标准
分类的评估指标采用F1,由于有多个类别,而且类别不均衡,所以同时采用F1 micro和F1 macro,取平均值。同时,分类体系包含一级分类和二级分类,在评测中会分别计算并取平均值。F1 指标的定义与计算可以参考 sklearn 文档。
最终指标为:
(category1_f1_micro + category1_f1_macro + category2_f1_micro + category2_f1_macro) / 4
考虑实际使用,我们希望参赛选手使用的模型是简单而高效的,不鼓励使用超大模型和各种复杂ensemble。所以在复赛阶段,我们将限定模型大小并对运行时间做出限制,要求选手提供docker,包含测试代码,由官方调用。
三、其他说明
1. 本项比赛全程不允许使用外部数据集。
2. 允许使用开源的词典、embedding和预训练模型,以上数据和模型需在复赛开始前开源,且需通过邮件的形式报备开源链接地址和md5,报备邮箱为wechat_algo@tencent.com。
比赛流程
本次大赛分为报名&组队、初赛、复赛和决赛等四个阶段。
1.报名&组队4月26日–6月21日
参赛选手须在大赛官网或小程序“微信大数据挑战赛”上报名并且组队参赛。
2.初赛5月20日–6月22日
参赛队伍可从大赛官方网站下载数据,在本地进行算法调试,并在线提交结果。
3.复赛7月1日–8月5日
复赛阶段测试数据不可见且不可下载,采用docker镜像的方式进行提交。
4.决赛8月下旬–*
决赛将以现场答辩会的形式进行,具体要求和安排另行通知。
奖项设置
大赛奖项分为初赛奖项、复赛奖项、决赛奖项、在校学生队伍奖项和周周星奖项。
决赛奖项:奖金总额现金¥ 520,000
决赛第1名:奖金30万元+证书
决赛第2名:奖金10万元+证书
决赛第3名:奖金6万元+证书
决赛第4-6名:奖金2万元+证书
复赛与初赛奖项:奖金总额现金¥ 40,000
复赛第7-10名:奖金1万元+证书
复赛第11-30名:证书
初赛Top110:证书
在校学生队伍奖项
全国奖证书
对复赛学生队伍单独排名
第1-10名:全国一等奖证书
第11-30名:全国二等奖证书
第31名-:全国三等奖证书
周周星奖励
纪念礼物
参赛同学请加9001诚信金沙9001cc参赛交流群QQ620388397
竞赛官方宣传地址https://algo.weixin.qq.com/