2 从内置功能中获取最高性能

本章包括

剖析代码以发现速度和内存瓶颈
更有效地利用现有的Python数据结构
了解Python分配典型数据结构的内存成本
使用懒编程技术处理大量数据

有很多工具和库可以帮助我们编写更高效的Python。但是，在我们深入研究提高性能的所有外部选项之前，让我们先仔细看看如何编写在计算和IO性能方面都更高效的纯 Python代码。事实上，许多Python性能问题（当然不是全部）都可以通过更加注意Python的限制和能力来解决。

为了展示Python自身用于提高性能的工具，让我们将它们用于一个假设但现实的问题。假设您是一名数据工程师，负责准备对全球气候数据进行分析。这些数据将基于美国国家海洋和大气管理局（NOAA;http://mng.bz/ydge ）的综合地表数据库。您的时间很紧，而且只能使用大部分标准Python。此外，由于预算限制，购买更强的处理能力也是不可能的。数据将在一个月后开始到达，您计划利用数据到达前的时间来提高代码性能。因此，您的任务就是找到需要优化的地方并提高其性能。

您要做的第一件事就是对现有的代码进行剖析，以便摄取数据。你知道现有的代码速度很慢，但在尝试优化之前，你需要找到瓶颈的经验证据。剖析之所以重要，是因为它能让您以严谨、系统的方式搜索代码中的瓶颈。最常见的替代方法--猜测，在这里尤其无效，因为许多减速点可能很不直观。

我们将了解纯Python提供了哪些开箱即用的功能来帮助我们开发性能更高的代码。首先，我们将使用几种剖析工具对代码进行剖析，以发现问题所在。然后，我们将重点关注Python的基本数据结构：列表、集合和字典。我们的目标是提高这些数据结构的效率，并以最佳方式为它们分配内存，以获得最佳性能。最后，我们将了解现代Python懒编程技术如何帮助我们提高数据管道的性能。

本章将主要讨论在没有外部库的情况下优化Python，但我们仍将使用一些外部工具来帮助我们优化性能和访问数据。我们将使用Snakeviz来可视化Python剖析的输出，并使用line_profiler来逐行剖析代码。最后，我们将使用requests库从互联网下载数据。

2.1对具有IO和计算工作负载的应用程序进行剖析

我们的第一个目标是从气象站下载数据，并获取该气象站某一年的最低温度。NOAA 网站上的数据有 CSV 文件，每个年份一个，然后每个站点一个。例如，文https://www.ncei.noaa.gov/data/global-hourly/access/2021/01494099999.csv 包含01494099999气象站2021年的所有条目。其中包括温度和气压等条目，每天可能会记录多次。

让我们开发一个脚本，下载一组站点在某一年份间隔内的数据。下载相关数据后，我们将得到每个站点的最低气温。

2.1.1 下载数据并计算最低气温

我们的脚本将有一个简单的命令行界面，通过该界面传递站点列表和感兴趣的年份间隔。

执行：

# 获取站点01044099999和02293099999 2021年的数据
$ python load.py 01044099999,02293099999 2021-2021
{'01044099999': -10.0, '02293099999': -27.6}

源码

import collections
import csv
import sys

import requests

stations = sys.argv[1].split(",") #站点用逗号分割
years = [int(year) for year in sys.argv[2].split("-")] #年份用区间表示
start_year = years[0]
end_year = years[1]

TEMPLATE_URL = "https://www.ncei.noaa.gov/data/global-hourly/access/{year}/{station}.csv"
TEMPLATE_FILE = "station_{station}_{year}.csv"

def download_data(station, year):
    my_url = TEMPLATE_URL.format(station=station, year=year)
    req = requests.get(my_url)
    if req.status_code != 200:
        return  # not found
    w = open(TEMPLATE_FILE.format(station=station, year=year), "wt")
    w.write(req.text)
    w.close()


def download_all_data(stations, start_year, end_year):
    for station in stations:
        for year in range(start_year, end_year + 1):
            download_data(station, year)


# 用pandas更佳
def get_file_temperatures(file_name):
    with open(file_name, "rt") as f:
        reader = csv.reader(f)
        header = next(reader)
        for row in reader:
            station = row[header.index("STATION")]
            tmp = row[header.index("TMP")]
            temperature, status = tmp.split(",")
            if status != "1":
                continue
            temperature = int(temperature) / 10
            yield temperature


def get_all_temperatures(stations, start_year, end_year):
    temperatures = collections.defaultdict(list)
    for station in stations:
        for year in range(start_year, end_year + 1):
            for temperature in get_file_temperatures(TEMPLATE_FILE.format(station=station, year=year)):
                temperatures[station].append(temperature)
    return temperatures


def get_min_temperatures(all_temperatures):
    return {station: min(temperatures) for station, temperatures in all_temperatures.items()}


download_all_data(stations, start_year, end_year)
all_temperatures = get_al

首页上一页 1 2 3 下一页尾页 1/3/3
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：Python 3.12 抢先看——关于 f-st..	下一篇：python教程入门学习笔记第4天 ..