交通拥堵演变模式关键点挖掘_论文阅读
自己看到的,比较好的论文分享
一. WhereNext:a Location Predictor on Trajectory Pattern Mining
这篇论文是老师推荐给我进行实现的,我现在对这篇论文中的方法进行学习,然后比较有哪些不同,是否要做一些改进,如何去改善
1. Introduction
本文是针对是时空大数据的挖掘,根据用户的移动数据进行分析与挖掘,通过对模式的挖掘,判断目标下一次出现的区域,主要分为三步:
- 将信息整理成Trajectory Patterns来表示目标移动的时间和位置
- 对轨迹进行挖掘,形成对应的决策树,学习对应数的权重
- 利用决策树对下一个点进行预测
2. Method
The goal of the prediction method WhereNext is as fol- lows: given a database of trajectories D construct a predic- tive model W ND using the set of T-patterns extracted by D; given a new trajectory T use W ND to predict the next location of T
整体的思路前面已经说过了,主要分为三部分,然后对处理过程进行更细的处理
- Data Selection
因为是一个地区的决策发展情况决策,所以对我们的数据并不是很友好,需要把一个地区,一定时间的数据挑选出来进行处理,
- Local Frequent Model – T Pattern
这部分是针对数据进行提取,提取所以轨迹中的常见数据,但是我们的数据应该需要累积才能提取吧
- T-pattern Tree Building
使用前缀树,利用多元组对每个边代表的联系进行量化,这一步也是我们想学习的关键
2.1 T-pattern
Definition 2. A T-pattern, is a pair (S, A), where S =< R0, . . . , Rn > is a sequence of regions, and A = α1, . . . αn ∈Rk + is the (temporal) annotation of the sequence. A T- pattern is also represented as
$ (S, A) = R_0 α_1 → R_1 α_2 − →. . .α_n − − → R_n.$
因此会存在一个问题,当我们要对一个传播路径预测时,就会出现两种
\[R_0 α_1 → R_1 α_2 → R_2α_3 ⇒ R_3\] \[R_0 α_1 → R_1α_2 ⇒ \; R_2 α_3 → R_3\]在预测时就出现不必要的亢余,同样的一条路径被考虑了两次。
所以才有必要提出 T-pattern Tree
2.2 T-pattern Tree
是根据各个轨迹,然后进行合并之后形成的一颗前缀树,把需要考虑的点都融合进去了
每一个节点,都有一个前置节点,对每一个位置建一个树结构的pattern就结束了,他这个每一个时间点只有一个地方是达到的,所以这个轨迹是一定延伸的,但是我们的研究对象,拥堵挖掘,并不是,他是对每一个时刻的数据都在变化,而且不是只有一个地区的数据有变化,因此这种静态的模式并不适用。
3.Prediction
确定了如何去记录决策树之后,最主要的还是如何去预测给定的轨迹对应的下一个时间
3.1 Punctual Score 时间标准
根据传递的这一套东西,对堵塞进行评价,判断是否紧急,得到一个评价指标
3.2 Path Score 空间标准
根据两个的相连接的距离,来得到对应的空间标准
4. Conclusion For My Project
两个的数据其实不太一样,一个是静态的链式数据,一点是一个一个往下延伸,而堵塞数据是动态的数据看起来更没有规律,是多个点可能并发,也可能并退的一种模式,所以对它的研究有很大的挑战性。
这种静态决策树的方式其实并不是很合适,也就是我们还得研究出一种具有动态效应的算法对其进行实现。
二.Discovering Congestion Propagation Patterns in Spatio-Temporal Traffic Data
1.Introduction
本文是真的交通堵塞传播模式的挖掘,其实就是我现在做的题目,这篇文章有对应的可取之处,因此重新阅读进行精读形成论文笔记
首先文章提出了三个拥塞模式挖掘的难点:
- 拥堵模式的多样性:不同时刻,不同地区的拥堵模型一般各有不同,因此很难用一个模型进行表示
- 数据的稀疏性:道路拥堵数据粒度并没有很细,存在数据缺失
- 路段之间的传递性:很对路段之间都存在直接或者间接的因果关系,怎么去发现和解决这个问题。
、
然后文章提出了解决这些问题的办法,三步走战略:
- Congestion tree : 提出一种构建拥堵模式的方法
- Frequent SubTree discovery: 对建好的拥堵模型进行
- Traffic congestion propagation modelling and causality probability estimation using Dynamic Bayesian Net- work: 对传播方式进行表示,然后使用深度贝叶斯网络对传播关系进行研究
2. Related Work
这部分工作做的人不多,主要要以下几个问题需要解决:
- 粒度问题,很多都是粗粒度的,比如网格划分,不区分各个路段的数据,还有一些没有考虑路段的单双向,我们需要把数据做到路段匹配的
- 算法复杂度太高
- 寻找子树的算法不够好
3.Method
3.1 Data process
这部分的数据跟我们的不太一样,所以不可以采取,因此不做介绍
3.2 Congestion Trees
通过$STC_1$这样一个阻塞表示,和$STC_2$如果是先后关系,那么他们在时间上是有联系的
通过算法2,将后面的congestion和前面进行结合,如果后面的阻塞和前面的联系,就把前面的加入进到那个树中,这样就可以针对所有的阻塞,一个$O(n)$的算法复杂度就可以解决。
这部分只是考虑,直接相连的,就是这个时间戳和下一个时间戳直接的联系,这个其实有一些堵塞是垮了多个时间段的,所以这部分算法要进行加强和改进,把数据之间的关系通过这种方法进行更好的表示
3.3 Frequent Trees
这部分是先利用set将lcode先信息一次划分,然后再利用树结构把他进行搜索和还原,得到最终的子树结构。
3.4 DBN Dynamic Bayesian Network
利用动态的贝叶斯网络来对它进行学习和识别。
4.Conclusion
这篇文章其实真的跟我们很相似,但是他这篇文章还是有不足的地方,比如没有对不相连的拥塞进行处理,没有考虑拥塞结构的动态性,这两个点都是我们应该克服和再进行考虑的,所以需要研究更好的表示方法。
三. Predicting Traffic Congestion Propagation Patterns: A Propagation Graph Approach
简单说一下这篇文章, 这篇文章并没有提出什么新的方法.
1.Advantage
这篇文章对我提供的帮助是对拥堵的表示进行更加充分的表示,这种图状结构的数据表征方法,的确可以把一个拥塞的全过程进行表征.
2.Disadvantage
- 但是还是没有把权重加进去,只考虑相邻的数据
- 只使用概率来考虑传播的下一个特点
四.Future work
综合上面几篇文章,下一步的项目计划如下:
- 对数据进行最后一次筛选
- 将时间元组和图型表示进行结合
- 探寻使用何种方法对模型进行训练