University of Agder交换记录–Data Science Applications(作业)

  • A+
摘要这一篇文章主要介绍Data Science Applications这一门课程的作业部分. 自己记录下自己作业的每一个步骤. 也是一个收集整理资料的过程, 把要用到的东西都整理在这一篇文章里, 方便之后的查看和使用.

简介

这一篇是关于课程Data Science Applications的作业的相关内容. 因为作业的内容会比较多, 所以单独写一篇. 关于课程内容可以查看链接:

 

作业内容

这门课是没有期末考试的, 所有的内容都是小组合作或者是自己探索的模型. 其中两个个人作业是:

  • 第一个作业说明自己研究问题的重要性
  • 第二个作业是针对自己第一个问题, 使用实际数据来解决这个问题

数据集介绍

这里列一下自己感觉可以用的数据集, 等上完课和小组成员再讨论一下. 最后决定做关于healthcare的内容, 所以最后使用了第一个数据集, 关于Heart Disease的.

Heart Disease UCI

数据集链接Heart Disease UCI

数据集介绍:

  • 这个数据集是关于心脏病的数据集, 共有14个维度的特征
  • 下面是14个特征的介绍:
    • age
    • sex
    • chest pain type (4 values)
    • resting blood pressure
    • serum cholestoral in mg/dl
    • fasting blood sugar > 120 mg/dl
    • resting electrocardiographic results (values 0,1,2)
    • maximum heart rate achieved
    • exercise induced angina
    • oldpeak = ST depression induced by exercise relative to rest
    • the slope of the peak exercise ST segment
    • number of major vessels (0-3) colored by flourosopy
    • thal: 3 = normal; 6 = fixed defect; 7 = reversable defect

一些可供参考的资料:

What Causes Heart Disease? Explaining the Model

Analyzing the Heart Disease

世界卫生组织-心血管疾病

New York City Airbnb Open Data

数据集链接Kaggle-New York City Airbnb Open Data (2019)

数据集介绍:

  • 这个数据集是Airbnb在New York City的数据. 其中大致包含房子的位置, 每一晚的价格等信息.
  • This dataset has around 49,000 observations in it with 16 columns and it is a mix between categorical and numeric values.

一些研究的点:

  • The relationship between price and neighborhood. (房屋价格与所在地区的关系, 在地图上进行价格的可视化)
  • What can we learn about different hosts and areas? (不同地区的房源的分别)
  • What can we learn from predictions? (ex: locations, prices, reviews, etc)
  • Which hosts are the busiest and why? (分析哪一块地区最繁忙, 并分析为什么)
  • Is there any noticeable difference of traffic among different areas and what could be the reason for it?

一些可供参考的代码(项目):

Europe Datasets

数据集链接: Kaggle-Europe Datasets (2019)

数据集介绍:

  • 这个数据集包含欧洲各个国家的一些基本的属性, 例如每个国家的人口, GDP等.
  • 我们可以用无监督的算法来处理一下这个数据集, 找出各个国家之间的关系.

一些研究点:

  • GDP vs Job Satisfacction vs Population(bubble size)
  • Income vs Environment Satisfaction
  • Life Expectancy vs Pollution
  • Analysis each country (对每个国家画出雷达图进行分析)
  • Analysis under employment and unemployment (分析每个国家的就业率和失业率)
  • As a person interested in travelling in Europe, I want to know which countries may have similar characteristics for my own safety. For example, I would be more cautious when travelling to countries that are grouped together because they have a higher crime rate and their citizens have a low confidence rating in the legal system. Hence, I would like to group similar countries together via k-means clustering. (分析国家与国家之间的相似性)

一些可供参考的代码(项目):

 

数据集分析

  • 微信公众号
  • 关注微信公众号
  • weinxin
  • QQ群
  • 我们的QQ群号
  • weinxin
王 茂南

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: