常用数据类型

本章将为你介绍机器学习中最常见的四种数据类型:数值型、文本型、图像型和类别型数据。

数据类型就像是食材的种类,不同的食材需要不同的处理方法。同样,不同类型的数据也需要不同的处理技术和算法。

四大数据类型分类

数值型数据

什么是数值型数据?

数值型数据就像尺子测量的结果,可以进行数学运算,是机器学习中最常见的数据类型。

数值型数据的分类

1. 连续型数值数据

实例

# 连续型数值数据示例

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

def continuous_data_example():

"""连续型数值数据示例"""

print("=== 连续型数值数据示例 ===")

# 生成连续型数据

np.random.seed(42)

n_samples = 1000

# 身高数据(连续型)

heights = np.random.normal(170, 10, n_samples) # 均值170,标准差10

weights = heights * 0.7 + np.random.normal(0, 5, n_samples) # 体重与身高相关

temperatures = np.random.normal(36.5, 0.5, n_samples) # 体温

# 创建数据框

continuous_data = pd.DataFrame({

'身高(cm)': heights,

'体重(kg)': weights,

'体温(°C)': temperatures,

'年龄': np.random.randint(18, 65, n_samples)

})

print("连续型数据示例:")

print(continuous_data.head())

print(f"\n数据统计信息:")

print(continuous_data.describe())

# 可视化连续型数据分布

plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)

plt.hist(continuous_data['身高(cm)'], bins=30, alpha=0.7, color='skyblue')

plt.title('身高分布')

plt.xlabel('身高 (cm)')

plt.ylabel('频数')

plt.subplot(2, 2, 2)

plt.hist(continuous_data['体重(kg)'], bins=30, alpha=0.7, color='lightgreen')

plt.title('体重分布')

plt.xlabel('体重 (kg)')

plt.ylabel('频数')

plt.subplot(2, 2, 3)

plt.hist(continuous_data['体温(°C)'], bins=30, alpha=0.7, color='salmon')

plt.title('体温分布')

plt.xlabel('体温 (°C)')

plt.ylabel('频数')

plt.subplot(2, 2, 4)

plt.scatter(continuous_data['身高(cm)'], continuous_data['体重(kg)'], alpha=0.6)

plt.title('身高 vs 体重')

plt.xlabel('身高 (cm)')

plt.ylabel('体重 (kg)')

plt.tight_layout()

plt.show()

return continuous_data

# 运行示例

continuous_df = continuous_data_example()

x

. 离散型数值数据

实例

# 离散型数值数据示例

def discrete_data_example():

"""离散型数值数据示例"""

print("\n=== 离散型数值数据示例 ===")

# 生成离散型数据

np.random.seed(42)

n_samples = 500

# 离散型数据

customer_count = np.random.poisson(10, n_samples) # 泊松分布:顾客数量

product_rating = np.random.randint(1, 6, n_samples) # 1-5星评分

defect_count = np.random.binomial(20, 0.1, n_samples) # 二项分布:缺陷数量

call_duration = np.random.exponential(5, n_samples) * 60 # 指数分布:通话时长(秒)

# 创建数据框

discrete_data = pd.DataFrame({

'顾客数量': customer_count,

'产品评分': product_rating,

'缺陷数量': defect_count,

'通话时长(秒)': call_duration.astype(int)

})

print("离散型数据示例:")

print(discrete_data.head())

print(f"\n数据统计信息:")

print(discrete_data.describe())

# 可视化离散型数据

plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)

plt.hist(discrete_data['顾客数量'], bins=range(0, max(discrete_data['顾客数量'])+2),

alpha=0.7, color='orange')

plt.title('顾客数量分布')

plt.xlabel('顾客数量')

plt.ylabel('频数')

plt.subplot(2, 2, 2)

value_counts = discrete_data['产品评分'].value_counts().sort_index()

plt.bar(value_counts.index, value_counts.values, color='purple', alpha=0.7)

plt.title('产品评分分布')

plt.xlabel('评分')

plt.ylabel('频数')

plt.subplot(2, 2, 3)

plt.hist(discrete_data['缺陷数量'], bins=range(0, max(discrete_data['缺陷数量'])+2),

alpha=0.7, color='red')

plt.title('缺陷数量分布')

plt.xlabel('缺陷数量')

plt.ylabel('频数')

plt.subplot(2, 2, 4)

plt.hist(discrete_data['通话时长(秒)'], bins=30, alpha=0.7, color='brown')

plt.title('通话时长分布')

plt.xlabel('通话时长 (秒)')

plt.ylabel('频数')

plt.tight_layout()

plt.show()

return discrete_data

# 运行示例

discrete_df = discrete_data_example()

数值型数据的处理方法

实例

# 数值型数据处理方法

class NumericDataProcessor:

def __init__(self):

self.scalers = {}

self.transformers = {}

def detect_outliers(self, data, method='iqr'):

"""检测异常值"""

outliers_info = {}

for column in data.select_dtypes(include=[np.number]).columns:

if method == 'iqr':

Q1 = data[column].quantile(0.25)

Q3 = data[column].quantile(0.75)

IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR

upper_bound = Q3 + 1.5 * IQR

outliers = data[(data[column] < lower_bound) |

(data[column] > upper_bound)]

elif method == 'zscore':

z_scores = np.abs((data[column] - data[column].mean()) / data[column].std())

outliers = data[z_scores > 3]

outliers_info[column] = {

'count': len(outliers),

'indices': outliers.index.tolist(),

'percentage': (len(outliers) / len(data)) * 100

}

return outliers_info

def handle_missing_values(self, data, strategy='mean'):

"""处理缺失值"""

processed_data = data.copy()

for column in processed_data.select_dtypes(include=[np.number]).columns:

if processed_data[column].isnull().sum() > 0:

if strategy == 'mean':

processed_data[column].fillna(processed_data[column].mean(), inplace=True)

elif strategy == 'median':

processed_data[column].fillna(processed_data[column].median(), inplace=True)

elif strategy == 'mode':

processed_data[column].fillna(processed_data[column].mode()[0], inplace=True)

elif strategy == 'forward':

processed_data[column].fillna(method='ffill', inplace=True)

elif strategy == 'backward':

processed_data[column].fillna(method='bfill', inplace=True)

return processed_data

def normalize_data(self, data, method='minmax'):

"""数据标准化"""

from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler

processed_data = data.copy()

numeric_columns = data.select_dtypes(include=[np.number]).columns

if method == 'minmax':

scaler = MinMaxScaler()

elif method == 'standard':

scaler = StandardScaler()

elif method == 'robust':

scaler = RobustScaler()

else:

raise ValueError("方法必须是 'minmax', 'standard', 或 'robust'")

processed_data[numeric_columns] = scaler.fit_transform(processed_data[numeric_columns])

self.scalers[method] = scaler

return processed_data

def create_features(self, data):

"""特征工程"""

processed_data = data.copy()

numeric_columns = data.select_dtypes(include=[np.number]).columns

# 创建多项式特征

if len(numeric_columns) >= 2:

col1, col2 = numeric_columns[0], numeric_columns[1]

processed_data[f'{col1}_x_{col2}'] = data[col1] * data[col2]

processed_data[f'{col1}_div_{col2}'] = data[col1] / (data[col2] + 1e-8)

# 创建统计特征

for column in numeric_columns:

processed_data[f'{column}_log'] = np.log1p(data[column])

processed_data[f'{column}_sqrt'] = np.sqrt(np.abs(data[column]))

processed_data[f'{column}_square'] = data[column] ** 2

return processed_data

# 使用示例

processor = NumericDataProcessor()

# 检测异常值

outliers = processor.detect_outliers(continuous_df)

print("\n异常值检测结果:")

for column, info in outliers.items():

if info['count'] > 0:

print(f"{column}: {info['count']} 个异常值 ({info['percentage']:.2f}%)")

# 数据标准化

normalized_data = processor.normalize_data(continuous_df, method='standard')

print("\n标准化后的数据示例:")

print(normalized_data.head())

文本型数据

什么是文本型数据?

文本型数据就像人类语言的表达,包含丰富的语义信息,但需要特殊处理才能被机器学习模型使用。

文本型数据的分类

1. 结构化文本数据

实例

# 结构化文本数据示例

import pandas as pd

import re

from collections import Counter

def structured_text_example():

"""结构化文本数据示例"""

print("\n=== 结构化文本数据示例 ===")

# 创建结构化文本数据

structured_data = pd.DataFrame({

'邮件ID': range(1, 11),

'发件人': [

'zhangsan@example.com', 'lisi@company.com', 'wangwu@service.com',

'zhaoliu@business.com', 'qianqi@personal.com', 'sunba@tech.com',

'zhoujiu@edu.com', 'wushi@org.com', 'zhengyi@gov.com',

'chener@health.com'

],

'主题': [

'会议通知:明天下午3点开会',

'产品报价:最新价格表',

'客户反馈:服务满意度调查',

'项目进度:第一阶段完成',

'假期安排:国庆节放假通知',

'技术更新:系统升级公告',

'学术会议:论文征集通知',

'培训通知:新员工培训',

'政策文件:最新规定',

'健康提醒:体检通知'

],

'内容长度': [156, 234, 189, 145, 98, 267, 198, 134, 312, 87]

})

print("结构化文本数据示例:")

print(structured_data)

# 文本特征提取

print("\n=== 文本特征分析 ===")

# 邮箱域名分析

domains = [email.split('@')[1] for email in structured_data['发件人']]

domain_counts = Counter(domains)

print(f"邮箱域名分布:{dict(domain_counts)}")

# 主题关键词分析

all_words = []

for subject in structured_data['主题']:

words = re.findall(r'[\u4e00-\u9fff]+', subject) # 提取中文词汇

all_words.extend(words)

word_counts = Counter(all_words)

print(f"主题词频:{dict(word_counts)}")

# 内容长度统计

print(f"内容长度统计:")

print(structured_data['内容长度'].describe())

return structured_data

# 运行示例

structured_text_df = structured_text_example()

2. 非结构化文本数据

实例

# 非结构化文本数据示例

def unstructured_text_example():

"""非结构化文本数据示例"""

print("\n=== 非结构化文本数据示例 ===")

# 创建非结构化文本数据

unstructured_texts = [

"""

人工智能技术正在快速发展,深度学习、机器学习、自然语言处理等领域取得了重大突破。

这些技术在医疗、金融、教育、交通等多个行业都有广泛应用,为社会发展带来了新的机遇。

未来,随着计算能力的提升和算法的改进,人工智能将在更多领域发挥重要作用。

""",

"""

今天天气真好,阳光明媚,微风徐徐。我决定去公园散步,享受这美好的时光。

公园里有很多花,红的、黄的、紫的,五颜六色,非常美丽。小鸟在树上歌唱,

蝴蝶在花丛中飞舞,一切都显得那么和谐自然。

""",

"""

股市今天表现强劲,上证指数上涨2.3%,深证成指上涨1.8%。

科技股领涨,多只股票涨停。分析师认为,这主要得益于近期出台的利好政策。

投资者信心得到提振,市场交投活跃,成交量明显放大。

""",

"""

健康生活方式包括合理饮食、适量运动、充足睡眠和良好心态。

建议每天摄入蔬菜水果,减少油腻食物;每周至少运动3次,每次30分钟以上;

保证7-8小时睡眠;学会调节情绪,保持积极乐观的心态。

"""

]

text_categories = ['科技', '生活', '财经', '健康']

# 创建数据框

unstructured_df = pd.DataFrame({

'文本': unstructured_texts,

'类别': text_categories

})

print("非结构化文本数据示例:")

for i, row in unstructured_df.iterrows():

print(f"\n类别:{row['类别']}")

print(f"文本:{row['文本'][:100]}...")

return unstructured_df

# 运行示例

unstructured_text_df = unstructured_text_example()

文本数据处理方法

实例

# 文本数据处理方法

import jieba

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

from sklearn.preprocessing import LabelEncoder

class TextDataProcessor:

def __init__(self):

self.vectorizers = {}

self.label_encoders = {}

def clean_text(self, text):

"""文本清洗"""

# 移除特殊字符和数字

text = re.sub(r'[^\u4e00-\u9fff\s]', '', text)

# 移除多余空格

text = re.sub(r'\s+', ' ', text).strip()

return text

def tokenize_chinese(self, text):

"""中文分词"""

words = jieba.lcut(text)

# 移除停用词(简化版)

stop_words = {'的', '了', '在', '是', '我', '有', '和', '就', '不', '人', '都', '一', '一个', '上', '也', '很', '到', '说', '要', '去', '你', '会', '着', '没有', '看', '好', '自己', '这'}

words = [word for word in words if word not in stop_words and len(word) > 1]

return words

def extract_features(self, texts, method='tfidf'):

"""特征提取"""

# 文本预处理

cleaned_texts = [self.clean_text(text) for text in texts]

if method == 'tfidf':

vectorizer = TfidfVectorizer(max_features=1000, token_pattern=r'(?u)\b\w+\b')

elif method == 'count':

vectorizer = CountVectorizer(max_features=1000, token_pattern=r'(?u)\b\w+\b')

else:

raise ValueError("方法必须是 'tfidf' 或 'count'")

features = vectorizer.fit_transform(cleaned_texts)

self.vectorizers[method] = vectorizer

return features.toarray(), vectorizer.get_feature_names_out()

def analyze_text_statistics(self, texts):

"""文本统计分析"""

stats = []

for text in texts:

cleaned_text = self.clean_text(text)

words = self.tokenize_chinese(cleaned_text)

stats.append({

'字符数': len(text),

'清洗后字符数': len(cleaned_text),

'词数': len(words),

'平均词长': np.mean([len(word) for word in words]) if words else 0,

'唯一词数': len(set(words))

})

return pd.DataFrame(stats)

def encode_labels(self, labels):

"""标签编码"""

encoder = LabelEncoder()

encoded_labels = encoder.fit_transform(labels)

self.label_encoders['default'] = encoder

return encoded_labels, encoder.classes_

# 使用示例

text_processor = TextDataProcessor()

# 文本统计分析

text_stats = text_processor.analyze_text_statistics(unstructured_text_df['文本'])

print("\n文本统计分析:")

print(text_stats)

# 特征提取

features, feature_names = text_processor.extract_features(

unstructured_text_df['文本'], method='tfidf'

)

print(f"\n特征矩阵形状:{features.shape}")

print(f"前10个特征:{feature_names[:10]}")

# 标签编码

encoded_labels, label_classes = text_processor.encode_labels(

unstructured_text_df['类别']

)

print(f"\n编码后的标签:{encoded_labels}")

print(f"标签类别:{label_classes}")

图像型数据

什么是图像型数据?

图像型数据就像视觉世界的数字化表达,由像素点组成,包含丰富的空间和颜色信息。

图像型数据的分类

1. 灰度图像

实例

# 灰度图像示例

import numpy as np

import matplotlib.pyplot as plt

from PIL import Image

def grayscale_image_example():

"""灰度图像示例"""

print("\n=== 灰度图像示例 ===")

# 创建简单的灰度图像

# 创建一个 100x100 的灰度图像

height, width = 100, 100

# 创建渐变图像

gradient = np.zeros((height, width))

for i in range(height):

gradient[i, :] = i # 垂直渐变

# 创建棋盘图案

checkerboard = np.zeros((height, width))

for i in range(0, height, 10):

for j in range(0, width, 10):

if (i // 10 + j // 10) % 2 == 0:

checkerboard[i:i+10, j:j+10] = 255

# 创建圆形图案

circle = np.zeros((height, width))

center_x, center_y = width // 2, height // 2

radius = 30

for i in range(height):

for j in range(width):

if (i - center_y) ** 2 + (j - center_x) ** 2 <= radius ** 2:

circle[i, j] = 255

# 显示图像

plt.figure(figsize=(12, 4))

plt.subplot(1, 3, 1)

plt.imshow(gradient, cmap='gray')

plt.title('渐变图像')

plt.axis('off')

plt.subplot(1, 3, 2)

plt.imshow(checkerboard, cmap='gray')

plt.title('棋盘图案')

plt.axis('off')

plt.subplot(1, 3, 3)

plt.imshow(circle, cmap='gray')

plt.title('圆形图案')

plt.axis('off')

plt.tight_layout()

plt.show()

# 图像数据信息

print(f"渐变图像形状:{gradient.shape}")

print(f"数据类型:{gradient.dtype}")

print(f"像素值范围:{gradient.min()} - {gradient.max()}")

return gradient, checkerboard, circle

# 运行示例

gradient_img, checkerboard_img, circle_img = grayscale_image_example()

x

2. 彩色图像

实例

# 彩色图像示例

def color_image_example():

"""彩色图像示例"""

print("\n=== 彩色图像示例 ===")

height, width = 100, 100

# 创建 RGB 彩色图像

# 红色渐变

red_gradient = np.zeros((height, width, 3), dtype=np.uint8)

red_gradient[:, :, 0] = np.linspace(0, 255, width) # 红色通道渐变

# 绿色渐变

green_gradient = np.zeros((height, width, 3), dtype=np.uint8)

green_gradient[:, :, 1] = np.linspace(0, 255, width) # 绿色通道渐变

# 蓝色渐变

blue_gradient = np.zeros((height, width, 3), dtype=np.uint8)

blue_gradient[:, :, 2] = np.linspace(0, 255, width) # 蓝色通道渐变

# 彩虹图案

rainbow = np.zeros((height, width, 3), dtype=np.uint8)

for i in range(width):

hue = i / width

# 简化的 HSV 到 RGB 转换

if hue < 1/3:

rainbow[:, i] = [255 * (1 - 3*hue), 255 * 3*hue, 0]

elif hue < 2/3:

rainbow[:, i] = [0, 255 * (2 - 3*hue), 255 * (3*hue - 1)]

else:

rainbow[:, i] = [255 * (3*hue - 2), 0, 255 * (3 - 3*hue)]

# 显示图像

plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)

plt.imshow(red_gradient)

plt.title('红色渐变')

plt.axis('off')

plt.subplot(2, 2, 2)

plt.imshow(green_gradient)

plt.title('绿色渐变')

plt.axis('off')

plt.subplot(2, 2, 3)

plt.imshow(blue_gradient)

plt.title('蓝色渐变')

plt.axis('off')

plt.subplot(2, 2, 4)

plt.imshow(rainbow)

plt.title('彩虹图案')

plt.axis('off')

plt.tight_layout()

plt.show()

# 图像通道信息

print(f"彩色图像形状:{rainbow.shape}")

print(f"数据类型:{rainbow.dtype}")

print(f"像素值范围:{rainbow.min()} - {rainbow.max()}")

return red_gradient, green_gradient, blue_gradient, rainbow

# 运行示例

red_img, green_img, blue_img, rainbow_img = color_image_example()

图像数据处理方法

实例

# 图像数据处理方法

from skimage import filters, feature, measure, transform

from skimage.color import rgb2gray, rgb2hsv

class ImageDataProcessor:

def __init__(self):

pass

def resize_image(self, image, target_size):

"""调整图像大小"""

from skimage.transform import resize

return resize(image, target_size, anti_aliasing=True)

def normalize_image(self, image):

"""图像归一化"""

return (image - image.min()) / (image.max() - image.min())

def extract_color_features(self, image):

"""提取颜色特征"""

if len(image.shape) == 3: # 彩色图像

# 计算各通道的统计特征

features = {}

for i, channel in enumerate(['R', 'G', 'B']):

channel_data = image[:, :, i]

features[f'{channel}_mean'] = np.mean(channel_data)

features[f'{channel}_std'] = np.std(channel_data)

features[f'{channel}_min'] = np.min(channel_data)

features[f'{channel}_max'] = np.max(channel_data)

# 计算颜色直方图特征

hist_r, _ = np.histogram(image[:, :, 0], bins=256, range=(0, 256))

hist_g, _ = np.histogram(image[:, :, 1], bins=256, range=(0, 256))

hist_b, _ = np.histogram(image[:, :, 2], bins=256, range=(0, 256))

features.update({

'hist_r_peak': np.argmax(hist_r),

'hist_g_peak': np.argmax(hist_g),

'hist_b_peak': np.argmax(hist_b)

})

return features

else: # 灰度图像

return {

'mean': np.mean(image),

'std': np.std(image),

'min': np.min(image),

'max': np.max(image)

}

def extract_texture_features(self, image):

"""提取纹理特征"""

if len(image.shape) == 3:

image = rgb2gray(image)

# 计算边缘特征

edges = filters.sobel(image)

edge_density = np.sum(edges > 0) / edges.size

# 计算局部二值模式(简化版)

lbp = feature.local_binary_pattern(image, P=8, R=1, method='uniform')

lbp_hist, _ = np.histogram(lbp.ravel(), bins=10)

return {

'edge_density': edge_density,

'lbp_hist': lbp_hist.tolist()

}

def augment_image(self, image):

"""图像增强"""

augmented = []

# 原图

augmented.append(image)

# 水平翻转

augmented.append(np.fliplr(image))

# 垂直翻转

augmented.append(np.flipud(image))

# 旋转90度

augmented.append(np.rot90(image))

# 亮度调整

if len(image.shape) == 3:

brightened = np.clip(image * 1.2, 0, 255).astype(np.uint8)

else:

brightened = np.clip(image * 1.2, 0, 1)

augmented.append(brightened)

return augmented

def visualize_image_channels(self, image):

"""可视化图像通道"""

if len(image.shape) == 3:

plt.figure(figsize=(12, 3))

plt.subplot(1, 4, 1)

plt.imshow(image)

plt.title('原始图像')

plt.axis('off')

plt.subplot(1, 4, 2)

plt.imshow(image[:, :, 0], cmap='Reds')

plt.title('红色通道')

plt.axis('off')

plt.subplot(1, 4, 3)

plt.imshow(image[:, :, 1], cmap='Greens')

plt.title('绿色通道')

plt.axis('off')

plt.subplot(1, 4, 4)

plt.imshow(image[:, :, 2], cmap='Blues')

plt.title('蓝色通道')

plt.axis('off')

plt.tight_layout()

plt.show()

# 使用示例

image_processor = ImageDataProcessor()

# 提取颜色特征

color_features = image_processor.extract_color_features(rainbow_img)

print("\n颜色特征:")

for key, value in color_features.items():

if not key.startswith('hist'):

print(f"{key}: {value:.2f}")

# 提取纹理特征

texture_features = image_processor.extract_texture_features(checkerboard_img)

print("\n纹理特征:")

for key, value in texture_features.items():

if key != 'lbp_hist':

print(f"{key}: {value:.4f}")

# 图像增强

augmented_images = image_processor.augment_image(circle_img)

print(f"\n图像增强:生成了 {len(augmented_images)} 个变体")

# 可视化图像通道

image_processor.visualize_image_channels(rainbow_img)

类别型数据

什么是类别型数据?

类别型数据就像分类标签,表示不同的类别或分组,不能进行数学运算。

类别型数据的分类

1. 名义型数据

实例

# 名义型数据示例

def nominal_data_example():

"""名义型数据示例"""

print("\n=== 名义型数据示例 ===")

# 创建名义型数据

nominal_data = pd.DataFrame({

'学生ID': range(1, 11),

'姓名': ['张三', '李四', '王五', '赵六', '钱七', '孙八', '周九', '吴十', '郑十一', '陈十二'],

'性别': ['男', '女', '男', '男', '女', '女', '男', '女', '男', '女'],

'血型': ['A', 'B', 'O', 'AB', 'A', 'B', 'O', 'AB', 'A', 'O'],

'城市': ['北京', '上海', '广州', '深圳', '北京', '上海', '广州', '深圳', '北京', '上海'],

'专业': ['计算机', '数学', '物理', '化学', '计算机', '数学', '物理', '化学', '计算机', '数学']

})

print("名义型数据示例:")

print(nominal_data)

# 类别统计分析

print("\n=== 类别统计分析 ===")

for column in nominal_data.select_dtypes(include=['object']).columns:

if column != '姓名': # 跳过姓名列

value_counts = nominal_data[column].value_counts()

print(f"\n{column} 分布:")

print(value_counts)

print(f"唯一值数量:{len(value_counts)}")

return nominal_data

# 运行示例

nominal_df = nominal_data_example()

2. 有序型数据

实例

# 有序型数据示例

def ordinal_data_example():

"""有序型数据示例"""

print("\n=== 有序型数据示例 ===")

# 创建有序型数据

ordinal_data = pd.DataFrame({

'产品ID': range(1, 11),

'产品名称': [f'产品{i}' for i in range(1, 11)],

'质量等级': ['优秀', '良好', '一般', '优秀', '良好', '一般', '差', '优秀', '良好', '一般'],

'客户满意度': ['非常满意', '满意', '一般', '非常满意', '满意', '一般', '不满意', '非常满意', '满意', '一般'],

'价格区间': ['高', '中', '低', '高', '中', '低', '低', '高', '中', '中'],

'销量排名': [1, 3, 5, 2, 4, 7, 9, 6, 8, 10]

})

print("有序型数据示例:")

print(ordinal_data)

# 有序数据统计分析

print("\n=== 有序数据统计分析 ===")

# 定义顺序

quality_order = ['差', '一般', '良好', '优秀']

satisfaction_order = ['不满意', '一般', '满意', '非常满意']

price_order = ['低', '中', '高']

# 转换为有序类别

ordinal_data['质量等级_有序'] = pd.Categorical(

ordinal_data['质量等级'], categories=quality_order, ordered=True

)

ordinal_data['客户满意度_有序'] = pd.Categorical(

ordinal_data['客户满意度'], categories=satisfaction_order, ordered=True

)

ordinal_data['价格区间_有序'] = pd.Categorical(

ordinal_data['价格区间'], categories=price_order, ordered=True

)

# 统计分析

for column in ['质量等级_有序', '客户满意度_有序', '价格区间_有序']:

print(f"\n{column} 分布:")

value_counts = ordinal_data[column].value_counts().sort_index()

print(value_counts)

# 计算中位数

median_value = ordinal_data[column].median()

print(f"中位数:{median_value}")

return ordinal_data

# 运行示例

ordinal_df = ordinal_data_example()

类别型数据处理方法

实例

# 类别型数据处理方法

from sklearn.preprocessing import LabelEncoder, OneHotEncoder, OrdinalEncoder

class CategoricalDataProcessor:

def __init__(self):

self.encoders = {}

self.feature_names = {}

def label_encoding(self, data, columns):

"""标签编码"""

encoded_data = data.copy()

for column in columns:

encoder = LabelEncoder()

encoded_data[f'{column}_encoded'] = encoder.fit_transform(data[column])

self.encoders[f'{column}_label'] = encoder

print(f"{column} 标签编码:")

for i, category in enumerate(encoder.classes_):

print(f" {category} -> {i}")

return encoded_data

def one_hot_encoding(self, data, columns):

"""独热编码"""

encoded_data = data.copy()

for column in columns:

encoder = OneHotEncoder(sparse=False, drop='first') # 避免多重共线性

encoded_features = encoder.fit_transform(data[[column]])

# 创建新的列名

feature_names = [f'{column}_{category}' for category in encoder.categories_[0][1:]]

# 添加到数据框

for i, feature_name in enumerate(feature_names):

encoded_data[feature_name] = encoded_features[:, i]

self.encoders[f'{column}_onehot'] = encoder

self.feature_names[f'{column}_onehot'] = feature_names

print(f"{column} 独热编码:创建了 {len(feature_names)} 个特征")

return encoded_data

def ordinal_encoding(self, data, columns, categories_list):

"""有序编码"""

encoded_data = data.copy()

for column, categories in zip(columns, categories_list):

encoder = OrdinalEncoder(categories=[categories])

encoded_data[f'{column}_ordinal'] = encoder.fit_transform(data[[column]])

self.encoders[f'{column}_ordinal'] = encoder

print(f"{column} 有序编码:")

for i, category in enumerate(categories):

print(f" {category} -> {i}")

return encoded_data

def target_encoding(self, data, categorical_column, target_column):

"""目标编码"""

encoded_data = data.copy()

# 计算每个类别的目标均值

target_means = data.groupby(categorical_column)[target_column].mean()

# 应用编码

encoded_data[f'{categorical_column}_target'] = data[categorical_column].map(target_means)

print(f"{categorical_column} 目标编码:")

for category, mean_value in target_means.items():

print(f" {category} -> {mean_value:.4f}")

return encoded_data

def frequency_encoding(self, data, columns):

"""频率编码"""

encoded_data = data.copy()

for column in columns:

# 计算每个类别的频率

frequency = data[column].value_counts(normalize=True)

# 应用编码

encoded_data[f'{column}_frequency'] = data[column].map(frequency)

print(f"{column} 频率编码:")

for category, freq in frequency.head().items():

print(f" {category} -> {freq:.4f}")

return encoded_data

def analyze_categorical_importance(self, data, categorical_columns, target_column):

"""分析类别特征重要性"""

importance_scores = {}

for column in categorical_columns:

# 计算每个类别的目标均值差异

category_means = data.groupby(column)[target_column].mean()

mean_difference = category_means.max() - category_means.min()

# 计算类别数量

unique_count = data[column].nunique()

# 简单的重要性评分

importance = mean_difference * np.log(unique_count + 1)

importance_scores[column] = importance

# 排序

sorted_importance = sorted(importance_scores.items(), key=lambda x: x[1], reverse=True)

print("\n类别特征重要性:")

for column, importance in sorted_importance:

print(f"{column}: {importance:.4f}")

return importance_scores

# 使用示例

cat_processor = CategoricalDataProcessor()

# 为名义型数据添加数值目标

nominal_df_with_target = nominal_df.copy()

nominal_df_with_target['成绩'] = np.random.randint(60, 100, len(nominal_df))

# 标签编码

label_encoded = cat_processor.label_encoding(

nominal_df_with_target, ['性别', '血型', '城市']

)

# 独热编码

onehot_encoded = cat_processor.one_hot_encoding(

nominal_df_with_target, ['专业']

)

# 目标编码

target_encoded = cat_processor.target_encoding(

nominal_df_with_target, '城市', '成绩'

)

# 频率编码

frequency_encoded = cat_processor.frequency_encoding(

nominal_df_with_target, ['性别', '血型']

)

# 分析特征重要性

importance_scores = cat_processor.analyze_categorical_importance(

nominal_df_with_target, ['性别', '血型', '城市', '专业'], '成绩'

)

多模态数据融合

数据类型融合示例

实例

# 多模态数据融合示例

class MultiModalDataProcessor:

def __init__(self):

self.numeric_processor = NumericDataProcessor()

self.text_processor = TextDataProcessor()

self.image_processor = ImageDataProcessor()

self.categorical_processor = CategoricalDataProcessor()

def create_multimodal_dataset(self):

"""创建多模态数据集"""

print("\n=== 多模态数据集示例 ===")

n_samples = 100

# 数值特征

numeric_features = {

'年龄': np.random.randint(18, 65, n_samples),

'收入': np.random.normal(50000, 15000, n_samples),

'工作经验': np.random.randint(0, 20, n_samples)

}

# 类别特征

categorical_features = {

'性别': np.random.choice(['男', '女'], n_samples),

'教育程度': np.random.choice(['高中', '本科', '硕士', '博士'], n_samples),

'城市': np.random.choice(['北京', '上海', '广州', '深圳'], n_samples)

}

# 文本特征

text_features = [

f"这是第{i}个样本的文本描述,包含一些基本信息和特征。"

for i in range(n_samples)

]

# 图像特征(模拟)

image_features = np.random.rand(n_samples, 64, 64, 3) # 模拟64x64彩色图像

# 目标变量

target = np.random.choice([0, 1], n_samples)

# 创建数据集

dataset = {

'numeric': pd.DataFrame(numeric_features),

'categorical': pd.DataFrame(categorical_features),

'text': text_features,

'image': image_features,

'target': target

}

print(f"数据集大小:{n_samples}")

print(f"数值特征:{list(numeric_features.keys())}")

print(f"类别特征:{list(categorical_features.keys())}")

print(f"文本特征:{len(text_features)} 条")

print(f"图像特征:{image_features.shape}")

print(f"目标变量:{np.bincount(target)}")

return dataset

def process_multimodal_data(self, dataset):

"""处理多模态数据"""

print("\n=== 多模态数据处理 ===")

processed_features = {}

# 处理数值特征

numeric_data = dataset['numeric']

numeric_processed = self.numeric_processor.normalize_data(numeric_data, method='standard')

processed_features['numeric'] = numeric_processed

# 处理类别特征

categorical_data = dataset['categorical']

categorical_processed = self.categorical_processor.one_hot_encoding(

categorical_data, list(categorical_data.columns)

)

# 只保留编码后的列

categorical_encoded = categorical_processed.select_dtypes(include=[np.number])

processed_features['categorical'] = categorical_encoded

# 处理文本特征

text_data = dataset['text']

text_features, _ = self.text_processor.extract_features(text_data, method='tfidf')

processed_features['text'] = text_features

# 处理图像特征

image_data = dataset['image']

# 提取简单的图像特征(均值、标准差等)

image_features = []

for img in image_data:

features = self.image_processor.extract_color_features(img)

feature_vector = list(features.values())[:10] # 取前10个特征

image_features.append(feature_vector)

processed_features['image'] = np.array(image_features)

# 打印处理结果

for modality, features in processed_features.items():

if isinstance(features, pd.DataFrame):

print(f"{modality} 特征:{features.shape}")

else:

print(f"{modality} 特征:{features.shape}")

return processed_features

def fuse_features(self, processed_features):

"""特征融合"""

print("\n=== 特征融合 ===")

# 将所有特征合并

feature_arrays = []

for modality, features in processed_features.items():

if isinstance(features, pd.DataFrame):

feature_arrays.append(features.values)

else:

feature_arrays.append(features)

# 水平拼接

fused_features = np.hstack(feature_arrays)

print(f"融合后特征形状:{fused_features.shape}")

return fused_features

# 使用示例

multimodal_processor = MultiModalDataProcessor()

# 创建多模态数据集

multimodal_dataset = multimodal_processor.create_multimodal_dataset()

# 处理多模态数据

processed_multimodal = multimodal_processor.process_multimodal_data(multimodal_dataset)

# 特征融合

fused_features = multimodal_processor.fuse_features(processed_multimodal)