Библиотека Pandas

18.11.2023

import pandas as pd

# Чтение данных из CSV файла
df = pd.read_csv('имя_файла.csv')

# Чтение данных из Excel файла
df = pd.read_excel('имя_файла.xlsx')

# Просмотр первых нескольких строк DataFrame
print(df.head())

# Выбор столбца по названию
column_data = df['название_столбца']

# Выбор нескольких столбцов
subset = df[['столбец_1', 'столбец_2']]

# Выбор данных по условию
filtered_data = df[df['столбец'] > 10]

# Добавление нового столбца
df['новый_столбец'] = df['старый_столбец'] * 2

# Удаление столбца
df = df.drop('столбец_удаления', axis=1)

# Изменение значений в столбце по условию
df.loc[df['столбец'] > 10, 'столбец'] = 0

# Группировка данных по значениям в столбце
grouped_data = df.groupby('столбец').mean()

# Применение различных агрегирующих функций
agg_data = df.groupby('столбец').agg({'столбец_1': 'sum', 'столбец_2': 'mean'})

# Проверка наличия пропущенных данных
print(df.isnull().sum())

# Удаление строк с пропущенными данными
df = df.dropna()

# Заполнение пропущенных данных средним значением
df['столбец'].fillna(df['столбец'].mean(), inplace=True)

Автор: Евгений Морковин

678

Читайте также