PowerBI

PowerBI
官网教程
 高飞老师教程
 参考教程

数据源

在任何情况下，数据源都必须支持以下各项：

日期列 - 表必须包含日期/时间或整数数据类型的日期列

查询折叠 - 增量刷新适用于支持“查询折叠”的数据源

时间限制

无论是否使用增量刷新，Power BI Pro 数据集的刷新时间都限制在 2 小时内。对于高级容量中的数据集，时间限制为 5 小时。

防止初始完全刷新超时

为了防止超时，在将模型发布到服务之前，可以启动初始刷新操作。

例：如何为 FactInternetSales 表定义增量刷新策略
在将模型发布到服务之前，在 Power Query 编辑器中，向 ProductKey 列添加另一个筛选器，以筛选出任何非 0 的值。这会有效地筛选出 FactInternetSales 表中的所有数据。

在 Power Query 编辑器中单击“关闭并应用”，定义增量刷新策略，并保存模型后，我们将模型发布到服务。然后，在服务中对数据集运行初始刷新操作。

FactInternetSales 表分区是根据策略创建的，但是没有数据被加载和处理，因为所有数据都被筛选掉了。初始刷新操作完成后，请返回 Power Query 编辑器，ProductKey 列上的其他筛选器已被删除。在 Power Query 编辑器中单击“关闭并应用”并保存模型后，模型将不会再次发布，因为它将覆盖增量刷新策略设置，并在从服务执行后续刷新操作时强制对数据集执行完全刷新。

配置增量刷新

配置增量刷新是在 Power BI Desktop 中完成的。请注意以下几个方面：
- 当发布到服务时，不能再次从 Power BI Desktop 发布同一模型。 重新发布将删除数据集中已有的所有分区和数据。如果要发布到高级容量，可以通过开源 ALM 工具包或使用表格模型脚本语言 (TMSL) 来进行后续元数据架构更改。
- 当发布到服务时，无法将数据集以 PBIX 格式下载回 Power BI Desktop。由于服务中的数据集可能会变得很大，因此将数据集下载回来并在一般台式计算机中打开是不切实际的。
创建参数

在 Power BI Desktop 中配置增量刷新时，需要先创建两个名称为 RangeStart 和 RangeEnd（为保留名称且区分大小写）的 Power Query 日期/时间参数。(必须是RangeStart 和 RangeEnd，必须是日期/时间格式)

筛选数据

定义了 RangeStart 和 RangeEnd 参数后，你可以对表的日期列应用自定义日期筛选器。单击“应用”后，你应用的筛选器会选择将被加载到模型中的数据子集。（日期列必须是日期/时间或整数数据类型）

定义策略

在应用筛选器并将数据子集加载到模型后，可以为表定义增量刷新策略。将模型发布到服务后，服务将使用该策略来创建和管理表分区，并执行刷新操作。

定义策略时，有三个必需的设置和两个可选设置：

1 - 表

“表”列表框默认为你在数据视图中选择的表。使用滑块启用表增量刷新。如果表的 Power Query 表达式不包括基于 RangeStart 和 RangeEnd 参数的筛选器，则会禁止切换。

2 - 存储以下时间内的行: 过去

这个必需的设置用于确定一个历史周期，在这个周期内的日期/时间的行被包含在数据集中，加上当前不完整的历史周期的行，加上直至当前日期和时间的刷新周期的行。

3 - 刷新以下时间内的行: 过去

这个必需的设置确定了增量刷新周期，日期/时间在此周期内的所有行都包含在刷新分区中，并在执行每次刷新操作时刷新。

例如，如果将刷新周期指定为 10 天，则在每次刷新时，服务将覆盖 RangeStart 和 RangeEnd 参数，以便为日期/时间在 10 天内的行创建一个查询，其开始和结束时间依赖于当前日期和时间。将刷新日期/时间在过去 10 天内直至当前刷新操作时间的行。对于此类策略，服务中平均每日新增 10,000 行的 FactInternetSales 数据集表的每次刷新操作应刷新约 100,000 行。

请确保指定一个时期，只包含可确保准确报告所需的最少行数。如果为多个表定义策略，则必须使用相同的 RangeStart 和 RangeEnd 参数，即使为每个表定义了不同的存储和刷新周期也是如此。

4 - 检测数据更改

此设置是可选的。 10 天的增量刷新比 5 年的完全刷新更有效。不过，刷新可以更有选择性。选中“检测数据更改”选项后，可选择用于仅标识和刷新数据更改日期的日期/时间列。此操作假定数据源中存在通常用于审核的列。这不应与用于使用 RangeStart 和 RangeEnd 参数对数据进行分区的列相同。将针对增量范围中的每个周期评估此列的最大值。如果自上次刷新后未更改，则无需刷新周期。在本例中，这可能会将增量刷新的天数从 10 天进一步减少到 2 天左右。

当前的设计要求将用于检测数据更改的列保留并缓存到内存中。以下技术可用于减少基数和内存占用量：
- 刷新时仅保留此列的最大值（可能通过 Power Query 函数实现）。
- 根据刷新频率要求，将精度降低到可接受的水平。
- 请定义使用 XMLA 终结点来检测数据更改的自定义查询，并避免完全暂留列值。
5 - 仅刷新全天

此设置是可选的。假设计划每天凌晨 4:00 运行刷新。如果在午夜到凌晨 4:00 之间的四个小时内数据源表中出现了新数据行，则你可能不希望考虑这些数据。对于某些天数而言，石油天然气行业的每日桶数等一些业务指标毫无意义。再比如刷新财务系统中的数据，其中前一个月的数据在该月的第 12 个公历日获得批准。可将刷新周期设置为 1 个月，并安排在该月的第 12 天运行刷新。例如，选中此选项后，系统将在 2 月 12 日刷新 1 月份的数据。

请注意，除非为非 UTC 时区配置了计划的刷新，否则服务中的刷新操作将在 UTC 时间运行，这可以决定有效日期和影响完整的周期。

发布

配置增量刷新策略后，可以将模型发布到服务。发布完成后，可以对数据集执行初始刷新操作。

对于发布到分配给高级容量的工作区的数据集，如果你认为数据集会超过 1 GB 或更大，则可以在服务中执行第一次刷新操作之前，启用较大的数据集存储格式，从而提高刷新操作的性能并确保数据集不会超出大小限制。

刷新

发布到服务后，对数据集执行初始刷新操作。这应该是一个单独的（手动）刷新，便于你监视进度。初始刷新操作可能需要很长时间才能完成。必须创建分区，加载历史数据，生成或重新生成关系和层次结构等对象，并且计算对象也会被重新计算。

后续刷新操作（单个或计划刷新）速度要快得多，因为只会刷新增量刷新分区。仍然需要执行其他处理操作，如合并分区和重新计算，但与最初的刷新相比，通常只需要很小的一部分时间。
相关阅读:
Using sudo inside a docker container
python enumerate用法总结
 如何保存Keras模型
 python pickle模块
 如何选择开源项目的license
github在线创建文件夹
 关于python3.4版本中的zip函数
 使用sqoop 在关系型数据库和Hadoop之间实现数据的抽取
 HBase Shell 常见操作
 Java API 实现HBase的数据添加与过滤查询
原文地址：https://www.cnblogs.com/xiaopc/p/15002983.html

数据源

时间限制

防止初始完全刷新超时

配置增量刷新

创建参数

筛选数据

定义策略

1 - 表

2 - 存储以下时间内的行: 过去

3 - 刷新以下时间内的行: 过去

4 - 检测数据更改

5 - 仅刷新全天

发布

刷新