首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >了解谷歌BigQuery GDELT GKG2.0中的主题

了解谷歌BigQuery GDELT GKG2.0中的主题
EN

Stack Overflow用户
提问于 2018-08-22 20:57:21
回答 4查看 1.9K关注 0票数 5

我正在使用Google bigquery分析GDELT GKG2.0 dataset,我想更好地理解如何基于主题(或V2Themes)进行查询。docs提到了一个“类别列表”电子表格,但到目前为止,我还没有成功地找到该列表。

下面这段令人不快的blog提到,您可以使用世界银行分类法等来缩小搜索范围。我的目标是找到所有提到“干旱/太少的水”的项目,所有提到“洪水/太多的水”的项目,以及所有提到“质量差/太脏的水”的项目,这些项目在子国家层面上有地理上的匹配。

到目前为止,我已经能够获得一个不同主题的列表,但这是非扩展的,我不了解它的层次/结构。

代码语言:javascript
复制
SELECT
  DISTINCT theme
FROM (
  SELECT
    GKGRECORDID,
    locations,
    REGEXP_EXTRACT(themes,r'(^.[^,]+)') AS theme,
    CAST(REGEXP_EXTRACT(locations,r'^(?:[^#]*#){0}([^#]*)') AS NUMERIC) AS location_type,
    REGEXP_EXTRACT(locations,r'^(?:[^#]*#){1}([^#]*)') AS location_fullname,
    REGEXP_EXTRACT(locations,r'^(?:[^#]*#){2}([^#]*)') AS location_countrycode,
    REGEXP_EXTRACT(locations,r'^(?:[^#]*#){3}([^#]*)') AS location_adm1code,
    REGEXP_EXTRACT(locations,r'^(?:[^#]*#){4}([^#]*)') AS location_adm2code,
    REGEXP_EXTRACT(locations,r'^(?:[^#]*#){5}([^#]*)') AS location_latitude,
    REGEXP_EXTRACT(locations,r'^(?:[^#]*#){6}([^#]*)') AS location_longitude,
    REGEXP_EXTRACT(locations,r'^(?:[^#]*#){7}([^#]*)') AS location_featureid,
    REGEXP_EXTRACT(locations,r'^(?:[^#]*#){8}([^#]*)') AS location_characteroffset,
    DocumentIdentifier
  FROM
    `gdelt-bq.gdeltv2.gkg_partitioned`,
    UNNEST(SPLIT(V2Locations,';')) AS locations,
    UNNEST(SPLIT(V2Themes,';')) AS themes
  WHERE
    _PARTITIONTIME >= "2018-08-20 00:00:00"
    AND _PARTITIONTIME < "2018-08-21 00:00:00" )
WHERE
  (location_type = 5
    OR location_type = 4
    OR location_type = 2) --WorldState, WorldCity or US State
ORDER BY
  theme

到目前为止,我能找到的与水相关的主题列表(示例,不是详尽的):

代码语言:javascript
复制
CRISISLEX_C06_WATER_SANITATION
ENV_WATERWAYS
HUMAN_RIGHTS_ABUSES_WATERBOARD
HUMAN_RIGHTS_ABUSES_WATERBOARDED
HUMAN_RIGHTS_ABUSES_WATERBOARDING
NATURAL_DISASTER_FLOODWATER
NATURAL_DISASTER_FLOODWATERS
NATURAL_DISASTER_FLOOD_WATER
NATURAL_DISASTER_FLOOD_WATERS
NATURAL_DISASTER_HIGH_WATER
NATURAL_DISASTER_HIGH_WATERS
NATURAL_DISASTER_WATER_LEVEL
TAX_AIDGROUPS_WATERAID
TAX_DISEASE_WATERBORNE_DISEASE
TAX_DISEASE_WATERBORNE_DISEASES
TAX_FNCACT_WATERBOY
TAX_FNCACT_WATERMAN
TAX_FNCACT_WATERMEN
TAX_FNCACT_WATER_BOY
TAX_WEAPONS_WATER_CANNON
TAX_WEAPONS_WATER_CANNONS
TAX_WORLDBIRDS_WATERFOWL
TAX_WORLDMAMMALS_WATER_BUFFALO
UNGP_CLEAN_WATER_SANITATION
WATER_SECURITY
WB_1000_WATER_MANAGEMENT_STRUCTURES
WB_1021_WATER_LAW
WB_1063_WATER_ALLOCATION_AND_WATER_SUPPLY
WB_1064_WATER_DEMAND_MANAGEMENT
WB_1199_WATER_SUPPLY_AND_SANITATION
WB_1215_WATER_QUALITY_STANDARDS
WB_137_WATER
WB_138_WATER_SUPPLY
WB_139_SANITATION_AND_WASTEWATER
WB_140_AGRICULTURAL_WATER_MANAGEMENT
WB_141_WATER_RESOURCES_MANAGEMENT
WB_143_RURAL_WATER
WB_144_URBAN_WATER
WB_1462_WATER_SANITATION_AND_HYGIENE
WB_149_WASTEWATER_TREATMENT_AND_DISPOSAL
WB_150_WASTEWATER_REUSE
WB_155_WATERSHED_MANAGEMENT
WB_156_GROUNDWATER_MANAGEMENT
WB_159_TRANSBOUNDARY_WATER
WB_1729_URBAN_WATER_FINANCIAL_SUSTAINABILITY
WB_1731_NON_REVENUE_WATER
WB_1778_FRESHWATER_ECOSYSTEMS
WB_1790_INTERNATIONAL_WATERWAYS
WB_1798_WATER_POLLUTION
WB_1805_WATERWAYS
WB_1998_WATER_ECONOMICS
WB_2008_WATER_TREATMENT
WB_2009_WATER_QUALITY_MONITORING
WB_2971_WATER_PRICING
WB_2981_DRINKING_WATER_QUALITY_STANDARDS
WB_2992_FRESHWATER_FISHERIES
WB_427_WATER_ALLOCATION_AND_WATER_ECONOMICS
EN

回答 4

Stack Overflow用户

发布于 2018-10-03 01:35:24

虽然此链接是作为主题列表提供的:

http://data.gdeltproject.org/documentation/GDELT-Global_Knowledge_Graph_CategoryList.xlsx

...it远未完成(也许只是原始的主题列表?)。我刚刚拉出了一天的GKG,还有大量的主题不在该电子表格中的283个主题的列表中。

位于https://blog.gdeltproject.org/world-bank-group-topical-taxonomy-now-in-gkg/的GKG文档指向位于http://pubdocs.worldbank.org/en/275841490966525495/Theme-Taxonomy-and-definitions.pdf的世界银行分类法。GKG的帖子暗示这个世界银行的分类已经被滚动到GKG主题列表中。

这是世界银行分类主题的完整列表。不幸的是,我在GKG中发现了许多不在本出版物中的世界银行主题。这两个列表的结合代表了GKG主题的一部分,但绝对不是全部。

票数 6
EN

Stack Overflow用户

发布于 2018-09-13 09:21:14

以下是GKG主题列表:

http://data.gdeltproject.org/documentation/GDELT-Global_Knowledge_Graph_CategoryList.xlsx

票数 3
EN

Stack Overflow用户

发布于 2021-06-14 21:29:55

如果有人需要这个,我已经添加了从2017年1月1日到2020年12月31日的GKG v1中的所有主题的列表,这些主题至少出现在该特定日期的10篇或更多文章中:Themes.parquet

它由17639个独特的主题组成,每天都有计数。看起来像这样:

4年数据集的完整数字是36 713 385个独特的演员,50 845个独特的主题以及26个389 528个独特的组织。这些数字不会针对同一实体的不同拼写进行过滤,因此唐纳德·特朗普和唐纳德·J·特朗普将被算作两个不同的演员。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51967429

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档