俺来也 VisionTS: 基于时辰序列的图形构建高性能时辰序列估计模子, 诈欺图像信息进行时辰序列估计
俺来也
构建预查验时辰序列模子时濒临的主要挑战是什么? 获取高质料、万般化的时辰序列数据。当今构建基础估计模子主要有两种形状:
移动学习LLM:通过针对时辰序列任务定制的微调或分词政策,从新诈欺预查验的大型话语模子(LLM),如GPT-4或Llama。
从零查验:构建大畛域时辰序列数据集,并从新驱动预查验模子,以盼望其能泛化到新数据。
尽管第一种形状可行(因为Transformer是通用筹画引擎)但其效果并不睬想。第二种形状照旧取得了更权贵的奏凯,如MOIRAI、TimesFM、TTM等模子所示。
然而这些模子似乎校服推广定律,其性能很猛进程上依赖于无数时辰序列数据的可用性——这又将咱们带回到最先的挑战。
那么要是咱们大约诈欺不同的数据模态,比如图像呢?这种念念路可能看似反直观,但一些筹谋东谈主员探索了这个假定并取得了冲突性的扫尾。本文将盘考以下几个方面:
图像如安在里面编码序列信息?
诈欺预查验筹画机视觉模子进行时辰序列分析的见识
VisionTS[1]:一种适用于时辰序列数据的预查验Vision Transformer模子。
为什么聘请图像?
图像实质上是像素的2D序列。因此图像不错被视为一个数值像素矩阵——展现了信得过天下时辰序列的典型特征,如趋势、季节性和牢固性。(参见图1)
图1: 来自ImageNet数据集的图像示例,展示了时辰序列的典型特征
如前所述,预查验文本模子(移动学习LLM)已被应用于时辰序列任务,但效果有限。
那么,图像模态具有哪些上风?
联络性:时辰序列和图像齐是联络的数据体式,而文本是闹翻的。
通常的数据起头:时辰序列和图像齐径直捕捉环境不雅测,而文本是融会加工的居品。
可比的信息密度:文本常常真理密集,而图像和时辰序列数据看成当然信号具有更多的冗余信息。
序列信息编码:与文本不同,图像自己就包含了时辰序列的多种特征(参见图1)。
基于这些原因,图像似乎是一个具有后劲的数据模态。正如Yann LeCun在Lex Fridman的播客中所指出的,仅依靠文本是不及以构建将强的通用东谈主工智能(AGI)的。图像看成更丰富、高维度的数据体式,可能提供对天下更深入的贯通。
此外,图像数据的丰富进程远超其他模态——举例,琢磨自动驾驶汽车中的激光雷达(LIDAR)每秒拿获和处理的无数数据。
是以要害问题就变成了怎么创建一个诈欺图像进行估计的基础时辰序列模子?
论文建议了一个形状是从新诈欺预查验的筹画机视觉模子,将图像重构任务滚动为时辰序列估计任务——这恰是VisionTS所完结的。
掩码自编码视觉Transformer
在先容VisionTS之前,咱们需要先解释其核情绪制:视觉掩码自编码器(MAE)[2]。
简而言之,MAE的任务是重构一个被部分避讳的分块图像(图2):
图2: MAE的图像重构任务默示图
MAE的职责旨趣如下:
将输入图像分割成块,立地避讳约75%的块。
仅将可见的块输入编码器——常常是一个Vision Transformer(ViT)。
编码后的tokens与避讳tokens沿途输入解码器。
模子通过优化来重构原始图像。
预查验完成后,解码器被移除。
这个过程创建了一个基础视觉模子,大约现实各式下流图像识别任务。
VisionTS诈欺预查验的MAE看成其中枢模子。接下来俺来也,咱们将防卫施展怎么将这个模子适配用于时辰序列估计任务。
VisionTS模子抽象
VisionTS是一种革命的预查验掩码视觉Transformer模子,它玄妙地将图像重构任务滚动为时辰序列估计。
由于MAE原来是绸缪用于处理图像的,咱们需要将时辰序列数据调度为分块图像看成输入。在模子推理后,输出再被调度回时辰序列体式,从而生成估计扫尾。这个过程如图3所示:
图3: 使用MAE将时辰序列调度为图像并生成估计的防卫进程
让咱们防卫分析这个过程:
最先为时辰序列聘请一个回溯窗口(L),然后左证其周期性(P)将序列分割成块。这产生了[L/P]个块,它们被堆叠酿成一个P × [L/P]大小的2D矩阵。实质上,这个矩阵不错被视为一个灰度图像。
图像酿成后,进行归一化处理。这里存在一个技艺挑战:MAE模子是在固定大小为224 × 224像素的ImageNet图像上预查验的,而咱们生成的矩阵大小是P × [L/P]。
为了照管这个尺寸不匹配的问题,采选双线性插值将矩阵调治为(N * S, n * S),其中N是水平块的数目,n代表可见块的数目。n的值由险峻文长度(L)与估计长度(H)的比率决定。调治后的图像由(N × n)个可见块和N × (N-n)个避讳块构成。举例在图3中,图像包含7×6个可见块和7×1个避讳块。
这些避讳块随后被输入到MAE模子中进行解码和重构。
一朝解码完成,系数这个词过程被反向现实。解码后的块经过双线性插值、反归一化和扁平化处理,将图像调度回一维序列,看成最终的估计输出。
总的来说,在ImageNet上预查验MAE是相对径直的过程。VisionTS的革命之处在于它玄妙地诈欺MAE进行时辰序列估计。
性能评估
作家对VisionTS进行了全面的性能评估。他们将VisionTS与其他基础模子、深度学习模子、机器学习模子以及统计模子进行了比拟。评估包括测试VisionTS看成零样本估计器(估计未见数据)的智商,以及探索少样本微调(怎么通过在小畛域数据上查验来提高性能)的效果。
Monash基准测试
最先使用Monash数据集对VisionTS与其他模子进行了比拟。
图4展示了来自29个Monash数据集(在其测试集上)的团员扫尾。筹谋者筹画了归一化MAE(。值得提防的是在这个测试中,唯一llmtime和VisionTS是看成零样本估计器进行评估的,其他模子齐经过了完好意思的查验。
MOIRAI(另一个预查验模子)在这里莫得被归类为零样本估计器,因为它是在除了2个Monash数据集除外的所少见据集上进行了查验。
图4: VisionTS与其他主流时辰序列模子的性能比拟。唯一VisionTS和LLMtime是零样本估计器
要害发现:
VisionTS在系数模子中名循序二,这充剖判说了诈欺筹画机视觉模子进行时辰序列分析的后劲。
MOIRAI-small模子阐扬最好,尽管从技艺上讲,它经过了微调。
筹谋者仅使用了MOIRAI-small版块——要是能包括更大版块的MOIRAI模子进行比拟,可能会得到更全面的扫尾。
不管怎么,这些扫尾齐表露了预查验时辰序列模子的宏大后劲。
遥远估计基准测试
接下来,筹谋者使用Informer基准测试评估了VisionTS在遥远估计任务中的性能。
在这个测试中,VisionTS(看成零样本估计器)与其他深度学习/机器学习模子(这些模子在宗旨数据集的10%上进行了微调)进行了比拟。性能方针包括MAE和MSE(见表1):
表1: VisionTS与ML/DL模子在遥远估计任务中的性能比拟
负责发现:
VisionTS在总体评分中阐扬最好,赢得了最多的奏凯。
预查验模子(不管是在图像照旧时辰序列上预查验)常常阐扬优于其他模子。
这里使用的Monash数据集(Weather和Electricity)并不包含在MOIRAI的预查验数据中,这使得MOIRAI在这种情况下也不错被视为零样本估计器。
Informer、Autoformer和DLinear并非基础模子。要是对这些模子进行完好意思查验,可能会提高基准测试的竞争性。筹谋者在后续实验中提供了这些模子完好意思查验后的扫尾(见表2)。
筹谋者还对VisionTS进行了微调后的测试。实验建造保握不变,但系数模子齐在宗旨数据集上进行了完好意思查验。VisionTS仅进行了隐微的微调(平均1个epoch,只更新层归一化参数)。
扫尾如表2所示:
乱伦文学表2: VisionTS与其他模子在完好意思查验(full-shot)条款下的估计扫尾,包括每个估计时辰范围的MAE和MSE
从这两个表中得出的要害论断:
VisionTS再次在总体名次中位居第一,获取最多奏凯。
微调权贵进步了VisionTS的性能,除了在ETTh1和ETTh2数据集上的改善较小,可能是由于这些数据集的频率较低。
零样本VisionTS诚然不成超过系数在每个数据集上单独查验的模子,但通过最小进程的微调就能带来权贵的性能进步。
作家还分析了险峻文长度怎么影响模子性能(见图5)。扫尾标明,跟着险峻文长度的加多,模子性能遍及得到改善,尤其是在高频数据荟萃。这一发现与其他预查验模子(如MOIRAI)的扫尾一致。一般来说,高出1000的险峻文长度常常能带来性能进步:
图5: 不同数据集的最优险峻文长度分析。高频数据集(如10分钟终结的Weather和15分钟终结的ETTm1)从更长的险峻文长度中获益更多
模子参数畛域的影响分析
筹谋者对模子参数畛域怎么影响性能进行了深入分析。
一般而言,较大的Transformer模子频频能从畛域推广中获益,这少许在早期的筹谋中已有芜俚盘考。关于VisionTS,筹谋者对不同畛域的MAE模子进行了性能基准测试:
表3: *不同畛域MAE模子在零样本估计任务中的性能基准
筹谋者测试了以下三种模子畛域:
Base:122M参数
Large:330M参数
Huge:657M参数
有趣的是,Base模子在测试中阐扬最好。这可能是因为较大的模子在图像特定特征上出现了过拟合,从而缩小了它们在时辰序列任务上的移动智商。值得提防的是MAE是在Imagenet-1k数据集上预查验的,按现时要领来看,这是一个相对较小的数据集。
与传完竣计模子的比拟
很多当代时辰序列模子在评估中频频忽略了与传完竣计模子的比拟,合计这些传统模子已不具有竞争力。
其实统计基线模子仍然具有负责价值,在某些情况下以至可能优于更复杂的模子。因此筹谋者在评估中纳入了几个代表性的统计模子进行比拟(见表4):
表4:VisionTS与传完竣计模子的性能比拟。VisionTS的扫尾基于零样本估计
扫尾表露,VisionTS在性能上明白优于这些传完竣计模子。尽管论文中莫得防卫施展这些统计模子的具体竖立,但要是能包括一些更具竞争力的当代统计形状,如Nixtla库中的AutoARIMA、AutoETS、AutoCES和DynamicOptimizedTheta,或者统计集成形状,比拟扫尾可能会更具劝服力和全面性。
尽管如斯,VisionTS在零样本估计任务中展现出的性能仍然令东谈主印象深化。
转头
VisionTS看成一种革命的时辰序列基础模子,在估计任务中展现出了超卓的性能。
该模子仍有进一步转变的空间。比如VisionTS仅限于处理单变量时辰序列,其可推广性——即模子怎么跟着数据畛域、查验时辰和参数数目的加多而阐扬——尚未得到充分探索。筹谋者照旧意志到这些局限性,并将其列为异日筹谋的重心地点。
尽管存在这些截止,VisionTS仍然有劲地解说了图像数据不错成为时辰序列估计的有用信息起头,在某些方面可能even superior to文本为that咱们大约构建更高效、 better performance 的时辰序列估计模子。
基于现时的筹谋恶果,咱们不错明晰地看到几个有 promising的异日筹谋地点:
在更大畛域、更万般化的图像数据集上预查验MAE模子
在时辰序列数据上进一步预查验或微调MAE模子
探索除Vision Transformer除外的其他收集架构
咱们将握续存眷这一革命时辰序列建神志式的发展俺来也,期待看到更多冲突性的筹谋恶果。