r 선형회귀분석 예제

따라서 응답 변수를 dist로, 예측 변수를 속도로 사용하여 선형 회귀 모델을 작성하는 것이 바람직합니다. 예를 들어 자동 데이터 집합을 고려합니다. 우리는 선형 추세가 mpg와 마력 사이의 관계에 맞지 않는다는 것을 알 수 있습니다. 이것은 약간 복잡해 보일 수 있지만 일반적으로 데이터에 잘 맞는 모델의 경우 R²는 1에 가깝습니다. 데이터에 맞지 않는 모델은 R²가 0에 가깝습니다. 아래 예제에서 첫 번째 예에는 R²가 0.02입니다. 즉, 모델은 데이터 가변성의 2%만 설명합니다. 두 번째 모델은 R²가 0.99이고 모델은 전체 가변성의 99%를 설명할 수 있습니다.** 간단한 선형 회귀에서는 계수 테이블에서 사용할 수 있는 t-test에서 제공된 정보를 복제하기 때문에 이 테스트는 별로 흥미롭지 않습니다. 실제로 F 테스트는 t 테스트의 제곱과 동일합니다: 312.1 = (17.67)^2. 이는 자유도가 1인 모든 모델에서 마찬가지입니다. 현재 다른 변수를 무시하고 남성과 여성의 신용 카드 잔액 차이를 조사한다고 가정해 보겠습니다. 정성적 예측변수(요인이라고도 함)에 두 개의 수준 또는 가능한 값만 있는 경우 회귀 모델에 통합하는 것은 매우 간단합니다.

우리는 단순히 두 가지 가능한 숫자 값을 취하는 표시기 또는 더미 변수를 만듭니다. 예를 들어 성별에 따라 회귀 모델을 평가하는 중요한 부분은 잔여를 시각화하는 형태를 취하는 새 변수를 만들 수 있습니다. 플롯(model1)을 사용하는 경우 몇 가지 통찰력을 제공하는 4개의 잔류 플롯이 생성됩니다. 여기서는 ggplot 내에서 이러한 각 플롯을 만들고 통찰력을 설명합니다. 간단한 산점도에서 데이터를 플롯하고 선형 모델로 만든 선을 추가해 보겠습니다. 이 예제에서는 R이 read_excel 명령을 사용하여 먼저 데이터를 읽고 데이터로 데이터 프레임을 만든 다음 새 데이터로 선형 회귀를 만듭니다. 명령 플롯은 데이터 프레임을 가져와 변수를 플로팅합니다. 이 경우 재료의 온도에 대한 압력을 플로팅합니다. 그런 다음 선형 회귀에 의해 만들어진 선을 명령 abline으로 추가합니다. 간단한 선형 회귀는 YouTube 광고 예산을 기준으로 매출을 예측하는 가장 좋은 라인을 찾으려고 합니다.

이 경우 이론과 가설로 돌아가야 할 수 있습니다. 정말 예측 변수와 결과 사이의 선형 관계입니까? 예를 들어 이차 용어를 포함할 수 있습니다. 로그 변환은 모델링하려는 현상을 더 잘 나타낼 수 있습니다. 또는 모델에서 제외한 중요한 변수가 있습니까? 포함하지 않은 기타 변수(예: 라디오 또는 신문 광고 예산)는 모델 및 데이터에 중요한 역할을 할 수 있습니다. 또는 데이터를 수집할 때 데이터가 체계적으로 편향되었을 수 있습니다. 데이터 수집 메서드를 다시 디자인할 수 있습니다. R2의 높은 값은 좋은 표시입니다. 그러나 여러 선형 회귀 모델과 같이 모델에 더 많은 예측 변수가 추가될 때 R2 값이 증가하는 경향이 있으므로 더 많은 예측 변수에 대해 페널티화된 R2인 조정된 R 제곱을 주로 고려해야 합니다. 모델 적합성에 대한 보다 포괄적인 평가를 위해 회귀 진단 또는 회귀에 대한 이 대화형 코스의 연습을 참조하십시오.

이 예제에서는 절편 변수와 예측 변수에 대한 p-값이 모두 매우 중요하므로 null 가설을 거부하고 대체 가설을 받아들일 수 있습니다. 결과 변수를 참조하십시오.