Загрузка данных:
import pandas as pd
# Чтение данных из CSV файла
df = pd.read_csv('имя_файла.csv')
# Чтение данных из Excel файла
df = pd.read_excel('имя_файла.xlsx')
# Просмотр первых нескольких строк DataFrame
print(df.head())
Индексация и выбор данных:
# Выбор столбца по названию
column_data = df['название_столбца']
# Выбор нескольких столбцов
subset = df[['столбец_1', 'столбец_2']]
# Выбор данных по условию
filtered_data = df[df['столбец'] > 10]
Изменение данных:
# Добавление нового столбца
df['новый_столбец'] = df['старый_столбец'] * 2
# Удаление столбца
df = df.drop('столбец_удаления', axis=1)
# Изменение значений в столбце по условию
df.loc[df['столбец'] > 10, 'столбец'] = 0
Группировка данных:
# Группировка данных по значениям в столбце
grouped_data = df.groupby('столбец').mean()
# Применение различных агрегирующих функций
agg_data = df.groupby('столбец').agg({'столбец_1': 'sum', 'столбец_2': 'mean'})
Работа с пропущенными данными:
# Проверка наличия пропущенных данных
print(df.isnull().sum())
# Удаление строк с пропущенными данными
df = df.dropna()
# Заполнение пропущенных данных средним значением
df['столбец'].fillna(df['столбец'].mean(), inplace=True)
Автор: Евгений Морковин
1 комментарий
SUPER)