Top.Mail.Ru

Библиотека Pandas

Библиотека Pandas

Загрузка данных:

import pandas as pd

# Чтение данных из CSV файла
df = pd.read_csv('имя_файла.csv')

# Чтение данных из Excel файла
df = pd.read_excel('имя_файла.xlsx')

# Просмотр первых нескольких строк DataFrame
print(df.head())

Индексация и выбор данных:

# Выбор столбца по названию
column_data = df['название_столбца']

# Выбор нескольких столбцов
subset = df[['столбец_1', 'столбец_2']]

# Выбор данных по условию
filtered_data = df[df['столбец'] > 10]

Изменение данных:

# Добавление нового столбца
df['новый_столбец'] = df['старый_столбец'] * 2

# Удаление столбца
df = df.drop('столбец_удаления', axis=1)

# Изменение значений в столбце по условию
df.loc[df['столбец'] > 10, 'столбец'] = 0

Группировка данных:

# Группировка данных по значениям в столбце
grouped_data = df.groupby('столбец').mean()

# Применение различных агрегирующих функций
agg_data = df.groupby('столбец').agg({'столбец_1': 'sum', 'столбец_2': 'mean'})

Работа с пропущенными данными:

# Проверка наличия пропущенных данных
print(df.isnull().sum())

# Удаление строк с пропущенными данными
df = df.dropna()

# Заполнение пропущенных данных средним значением
df['столбец'].fillna(df['столбец'].mean(), inplace=True)

 

Автор:

232

Читайте также

1 комментарий

  • Имя автора
    sj@sdk.vc
    05.12.2023 в 16:40

    SUPER)