作为Azure机器学习过程的一部分,我需要使用continually将数据从现场SQL迁移到Azure。
这篇Azure官方文章描述了如何:使用Azure数据工厂将数据从现场SQL server移动到SQL Azure。但细节让我有点困惑。如果有人简要地描述了这个过程,你会怎么做。在on-premises上需要执行的2-3个main步骤是什么,Azure Cloud上需要执行的2-3个步骤是什么?不需要任何细节。注意事项:解决方案必须包括使用Data Management Gateway
发布于 2018-05-15 19:27:20
基于Azure文档,您可以使用“片”。您可以使用这文章中提到的时间戳列或顺序整数列执行“增量”提取。为了避免由于系统日期落后于Azure系统日期而导致片中没有包含行的问题,最好使用顺序整数。在输入数据集下面显示了如何定义切片:
{
"name": "AzureBlobInput",
"properties": {
"type": "AzureBlob",
"linkedServiceName": "StorageLinkedService",
"typeProperties": {
"folderPath": "mycontainer/myfolder/{Year}/{Month}/{Day}/",
"partitionedBy": [
{ "name": "Year", "value": {"type": "DateTime","date": "SliceStart","format": "yyyy"}},
{ "name": "Month","value": {"type": "DateTime","date": "SliceStart","format": "MM"}},
{ "name": "Day","value": {"type": "DateTime","date": "SliceStart","format": "dd"}}
],
"format": {
"type": "TextFormat"
}
},
"external": true,
"availability": {
"frequency": "Hour",
"interval": 1
}
}
}您可以创建一个活动,并使用可用性部分为该活动指定一个计划。您可以指定“频率”(分钟、时间、日等)。和“间隔”。
"scheduler": {
"frequency": "Hour",
"interval": 1
}活动运行所消耗或生成的每一个数据单元称为数据片。下图显示了一个具有一个输入数据集和一个输出数据集的活动的示例:

该图显示输入和输出数据集的每小时数据切片。该图显示了三个可供处理的输入片。10-11 AM活动正在进行中,产生10-11 AM输出片.
您可以使用变量: SliceStart和SliceEnd访问dataset JSON中与当前片相关联的时间间隔。您可以在活动JSON中使用这些变量从表示时间序列数据的输入数据集中选择数据(例如:上午8点到9点)。
您还可以在过去设置管道的开始日期,如这里所示。当您这样做时,Data会自动计算(回填)过去的所有数据片并开始处理它们。
https://stackoverflow.com/questions/50355494
复制相似问题