알아가는 즐거움

유전자 로또

Sun, 26 Nov 2023 00:00:00 +0900

텍사스 대학교의 심리학과 교수인 캐스린 페이지 하든 교수의 『유전자 로또(원제: The Genetic Lottery: Why DNA Matters for Social Equality)』 책을 흥미롭게 읽었다. 왜 흥미로웠는지 요지를 간단히 정리해보았다.

유전자는 개인의 성취에 인과적인 영향을 주는 요인이다.
- 이후 내용의 핵심 전제인데, 동의하지 않는 사람도 많을 것이다. 저자가 제시하는 정량적 근거는 책에서 확인할 수 있다.
그런데 어떤 사람이 어떤 유전자를 가지고 태어날지는 운의 영향이 크다. 심지어 같은 부모의 형제자매 간에도 차이가 있다.
- 유전가능성(Inheritability) 척도같은 개념이 쉽지는 않았는데, 나중에 구체적으로 필요할 때 참조할 수 있을 것 같다.
따라서, 개입 연구를 분석할 때는 유전자를 통제변수로 사용해야 한다.
- (좋은 의도라도) 유전자를 제외하고, 다른 (사회적) 요인만을 고려하여 분석하면 정확도가 떨어지고 편향이 발생한다.
- 그것이 많은 개입 연구가 실질적인 효과를 내지 못하는 이유(중 하나)이며,
- 오히려 유전자를 모델에 반영하여 정확한 영향도(가중치)를 알아내야 제대로 개입(제도 설계)하여 효과를 얻을 수 있다.
유전자의 영향력을 측정했다고 할 때, 그걸 어떻게 사용할 것인지가 진짜 풀어야 할 과제이다.
저자의 제안은, 평균이 아니라 가장 운이 없는 사람들에게 이득이 되도록 사회와 제도를 설계하자는 것.
- 여기서 롤스가 말한 무지의 장막 개념이 중요한 역할을 할 수 있는데, 내가 어떤 조건을 갖게 될지 모르는 상황에서 제도를 설계 및 선택하게 한다는 아이디어다.
  - e.g. 남자 vs 여자, (꼭 유전자가 아니더라도) 부유한 가정 or 가난한 가정, 선진국 or 개발도상국, 베이비붐 시대 vs 저출생 시대
- 그랬을 때 과연 지금과 같은 입장을 고수할지 자문해보는 것도 좋은 성찰이 될 것 같은데,
- 현실에서 이를 구현할 방법이 있을까?

설득으로서의 추천

Sat, 22 Oct 2022 00:00:00 +0900

예전에 한 영화 서비스에서 개인화된 추천을 받기 위해 좋았던 영화를 100개 정도 입력한 적이 있다. 그리고 추천받은 영화는 바로… 로보캅, 1987년 작이었다. 평가가 좋은 영화이니 아마 나도 만족했을 것이다. 그 영화를 봤다면 말이다. 하지만 딱히 고전을 좋아하지도 않는 나로서는 그 영화의 플레이 버튼에 끝내 손이 가지 않았다.

평소라면 시도하지 않았을 아이템이지만 시도해보는 때도 있다. 나를 잘 아는, 내가 신뢰하는 사람이 뭔가를 추천해주는 경우다. 이때는 심지어 보고 난 후에 만족스럽지 않으면, 내가 뭔가를 놓쳤나 라고 스스로를 의심하기도 한다. 물론 정말로 신뢰하는 사람의 추천 한정이지만, 이때 추천이라는 행위는 나의 만족도를 그저 예측만 하는 것이 아니라, 시도할 가능성을 높이고 사후 평가에까지 영향을 준 것이다. 그런 맥락에서 일종의 “설득”을 했다고 볼 수 있다. 만약 로보캅도 그런 사람이 옆에서 봐야 할 이유를 침을 튀겨가며 역설했다면 플레이시켰을지도 모를 일이다.

내가 쓰는 추천 서비스 중에서 식당이나 영화는 그다지 만족도가 높지 않다. 반면에 인터넷 서점의 책 추천 서비스는 애용한다. 거기에는 유명인이나 권위자의 짧은 추천사가 한몫한다. 추천 알고리즘을 대신해 그들이 책의 의미와 가치를 설명하고 일종의 보증을 해주기 때문이다. (엄밀히 말하면 알고리즘과 추천사는 별개지만, 추천 결과의 탐색 여정에 하나의 경험으로 녹아 있다.)

이제 내비게이션은 추천 경로가 의심스러워도 ‘지금 길이 막히나? 뭔가 이유가 있겠지’ 하면서 믿고 따라가는 단계에 접어들지 않았나 싶다. (방향치인 나만 그런가?) 취향 기반의 추천은 아직 그 정도 수준에는 이르지 못했다고 보는데, 내가 그 아이템을 좋아할 거라고 판단한 이유를 보다 투명하고 적극적으로 제시함으로써 신뢰도와 설득력을 높일 수 있지 않을까? 별점 리뷰나 ‘과거에 보신 무엇과 비슷해요’를 넘어서 말이다.

데이터의 가치를 평가하는 방법

Sun, 13 Feb 2022 00:00:00 +0900

머신러닝 관점에서 데이터의 가치는 모델의 정확도 개선에 얼마나 도움이 되는가에 달려 있다. 모델을 평가하는 메트릭은 정량화되어 있으므로, 해당 데이터를 학습에 사용했을 때와 아닐 때의 차이, 즉 기여도도 숫자로 표현할 수 있다. 기여도를 평가하는 방법인 Shapley Value는 Interpretable ML에도 쓰이지만 데이터의 가치를 평가하는 데에도 활용할 수 있다. 이런 아이디어를 제안한 논문이 Data Shapley라는 이름으로 2019년 ICML에 발표되었다.

Approximation

정확한 Shapley Value를 구하려면 모든 조합에 대해 기여도를 구해야 하지만 현실적으로 불가능하다. 저자들은 값을 근사(Approximate)하는 방법 두 가지를 제안한다.

TMC(Truncated Monte Carlo)
- 자연스럽게 몬테카를로 방법이 나온다. 원래의 Shapley Value가 모든 조합에서 기여도의 평균(기댓값)이기 때문에, 랜덤으로 데이터를 섞고(Random Permutation) 각 데이터의 한계 기여도 구하기를 반복한 뒤 평균내면 불편 추정(Unbiased Estimate)이 된다.
- Truncation: 학습 데이터 개수가 일정 이상이 되면 새로운 데이터 1개가 기여할 수 있는 양은 점점 작아진다. Random Permutation 스캐닝 중에 중에 메트릭이 (저자들이 정의한) Performance Tolerance 범위 안에 들면 나머지의 Value는 굳이 계산하지 않고 0으로 처리해서 처리 효율성을 높였다고 한다.
Gradient Shapley (G-Shapley)
- 모델 학습이 오래 걸리는 경우에는 TMC를 쓸 수 없다.
- Gradient Shapley는 많은 모델이 파라미터 업데이트에 Gradient Descent 방법을 쓰는 데 착안해서, 해당 데이터로 파라미터 업데이트 하기 전후의 메트릭 차이를 기여도로 보는 방식이다.

Experiments

이렇게 계산한 결과가 정말로 의미있는지 어떻게 검증할 수 있을까?

학습 데이터에서 Shapley Value가 높은 것부터, 낮은 것부터, 랜덤 순서로 데이터를 빼면서 메트릭의 변화를 비교한다. 가치가 높은 데이터를 뺐다면 모델 정확도가 급격히 떨어질 것이고, 실제로 그런 결과가 나왔다. 흥미로운 건, 가치가 낮은 데이터를 뺀 경우에는 정확도가 오히려 증가하기도 했다는 점. (아웃라이너? 잘못된 레이블?)
새로운 데이터를 획득하는 순서(Active Learning)에도 똑같이 적용할 수 있다. 현재 데이터에서 Shapley Value가 높은 것과 비슷한 데이터를 추가했을 때, 랜덤이나 Value가 낮은 데이터와 비슷한 경우에 비해 모델 개선에 효과적이었다. 이 경우에도 Value가 낮은 데이터를 추가하면 모델 성능이 떨어지는 결과가 나왔다.

Discussion

마지막으로 저자들이 언급한 유의사항도 같이 기록해둔다. Value라는 용어를 쓰고 있지만, 이 값은 특정한 머신러닝 태스크와 평가 메트릭이라는 컨텍스트 안에서 의미가 있다는 점을 유념해야 한다. 예를 들어, 스팸 필터링 태스크라면 스팸 감지에 도움이 되는 데이터의 “가치”가 높겠지만 그런 스팸 메일이 가치있는 것은 아니다. 또한 사람들이 자신의 Shapley Value에 따라 평가나 보상받아야 한다고 제안하는 것도 아님을 분명히 했다.

Moreover we do not propose that people should be exactly compensated by their data Shapley value; we believe data Shapley is more useful for the quantitative insight it provides.

같이 볼 만한 글

기여도를 측정하는 방법 feat. Shapley Value

Thu, 22 Oct 2020 00:00:00 +0900

회사에서 각 직원의 매출 기여도를 계산한다고 해보자. 직원이 A와 B 2명이었을 때 매출이 100만원 발생하다가 새로운 직원 C가 합류한 뒤 200만원으로 증가했다. 이때 C의 매출 기여도를 단순히 100만원으로 평가하는 사람은 없을 것이다. 여러 가능성이 있기 때문에 이 사실만으로는 판단하기 어렵기 때문이다. 그러면 추가로 무엇이 더 필요할까?

매출 증가분이 순수하게 C 혼자만의 성과인지, 아니면 다른 사람들이 각자의 몫을 끝내 둔 상태에서 그저 마지막 빈자리를 채운 것인지를 따져봐야 한다. 어쩌면 그냥 우연히 매출이 급증하기 직전에 합류했을 뿐인지도 모른다.

정량적으로 이걸 확인하려면 랜덤으로 다양한 조합을 만들어서 성과를 비교해보면 된다. 즉, C 혼자만 있을 때, 다른 한 명과 있을 때, 다른 두 명과 있을 때 등 모든 경우에 대하여, C가 있을 때와 없을 때의 매출 차이를 구해보면 좀더 신뢰할 만한 기여도를 알 수 있을 것이다. 이것이 섀플리 가치(Shapley Value)의 기본 아이디어다.

이를 수학적으로 일반화해서 다음과 같이 쓸 수 있다.

\[\varphi_{i}(v) = \frac{1}{|N|} \sum_{S \subseteq N-\{i\}} {\binom{n-1}{|S|} ^{-1}} (v(S \cup \{i\}) - v(S))\]

\(N\)은 전체 멤버의 집합이다.
\(\varphi_{i}(v)\)는 멤버 i의 기여도로서, 우리가 알고 싶은 값이다.
\(v(S)\) 함수는 주어진 멤버 조합(Coalition이라고 부른다) S가 만들어내는 가치를 의미한다.
\(v(S \cup \{i\}) - v(S)\) 는 S라는 조합에 i가 있을 때와 없을 때 만들어내는 가치의 차이니까, i의 한계 기여(Marginal Contribution)라고 말할 수 있다.

전체 식의 의미를 풀어보면, 모든 가능한 멤버 조합에 대해서, 우리의 관심 멤버 i의 한계 기여를 가중평균한다는 것을 알 수 있다. 왜 가중평균이라고 하냐면, 모든 조합의 가중치가 동일하지 않기 때문이다. C의 매출 기여도 문제에 이 식을 적용하면,

\[\frac{1}{3} \cdot ( \binom{2}{0}^{-1} (v(\{C\}) - v(\{\})) + \\ \binom{2}{1}^{-1} (v(\{A, C\}) - v(\{A\}) + v(\{B, C\}) - v(\{B\})) + \\ \binom{2}{2}^{-1} (v(\{A, B, C\}) - v(\{A, B\})))\]

이 된다. |S|, 즉 S의 크기 별로 먼저 평균을 낸 뒤에 다시 그 평균들의 평균을 구한다.

현실적인 한계, 그리고 의의

아쉽게도 현실의 매출 기여도 문제에 이 방법을 그대로 적용하기는 어렵다. 다양한 멤버 조합에 대한 실제 매출을 알 방법이 없기 때문이다. 그렇다 하더라도 기여도를 구하는 방법론을 알아두는 것은 의미가 있다. 실험으로 정확한 값을 구하지는 못하더라도 이러한 틀에 따라 v(S) 함수의 값을 정성적으로 추정해 보면 조금이나마 생각의 편향을 줄이는 데 도움이 된다.

게다가 실험의 어려움을 떼놓고 생각하면, 이렇게 기여도를 평가하는 방법론 자체는 합리적이고 공정한 방식이라는 생각이 든다. 그렇지 않은가? 그런 의미에서 이 문제를 한 번 생각해보자.

근로자 1명당 100만원의 이익을 낼 수 있는 회사가 있다. 그런데 안타깝게도 자본이 없어서 설립을 못하고 있다. 만약 어떤 이가 투자금을 대고 4명을 고용해 400만원의 이익을 냈다면, 투자자와 근로자에게 수익을 어떻게 배분해야 할까?

섀플리 밸류를 적용한 결과는 다음과 같다.

투자자: 200만원 (수익의 50%)
근로자(1명당): 50만뭔 (수익의 12.5%)

참고로, 이 세팅에서 투자자는 근로자의 수에 상관없이 항상 전체 수익의 절반을 자기 몫으로 가져간다.

현실을 많이 단순화하기는 했지만 오히려 그렇기 때문에 본질적인 특성을 더 잘 보여주는 측면이 있다. 어떤 결과를 얻기 위해 필수적인, 하지만 희소한 자원은 얼마 만큼의 가치를 가지는가. 섀플리 밸류와 직관과는 다소 차이가 날 수도 있다. 희소성을 바꿔서 투자자와 근로자의 숫자가 같을 때, 아니면 거꾸로 4:1일 때(돈은 넘치는데 일할 사람은 적은 경우) 이 배분이 어떻게 바뀌는지 살펴보는 것도 흥미롭다.

같이 볼 만한 글

책 추천 그래프를 그려보자

Tue, 14 Jul 2020 00:00:00 +0900

내가 재미있게 읽었거나 앞으로 읽고 싶은 책을 중심으로 유명인사들의 추천 그래프를 그려보았다. 즉, 어떤 사람이 어떤 책을 추천했는지를 시각화한 것이다. (그림을 클릭하면 실제 페이지로 연결된다.)

유명인의 기준이 모호하지만, 그냥 내가 들었을 때 누구인지 아는 사람, 특히 책 추천의 맥락에서 의견을 반영하고 싶은 사람, 매체, 블로그를 마음대로 선정했다.

공식적이거나 명시적인 추천이 아니더라도 긍정적인 맥락으로 소개한 적이 있으면 추천으로 간주했다. 하지만 아직까지는 책 뒷면에 쓰여있는 추천평 위주이긴 하다.

그래프 시각화는 D3.js의 Force Directed Graph의 도움을 받았다. 여기의 코드를 그대로 가져왔다.

그래프를 그린 목적 중 하나가 다음 번에 읽을 책을 찾으려는 것도 있기 때문에 이미 읽은 책과 안 읽은 책을 색깔로 구분했다. 덕분에 내 독서의 과거 취향과 미래 계확이 너무 투명하게 드러나는 듯해 민망하다.

실제로 그래프를 그려놓으니까 흥미로운 점을 새로 발견하게 된다. ‘이 책을 이 사람도 추천했었구나’라거나 ‘이 두 사람이 같은 책(들)을 추천했구나’ 뭐 이런 것들. 좀더 데이터가 쌓이면 링크를 타고 노드를 따라가는 구경도 재미있을 것 같다.

이제 좋아하는 블로그에서 추천하는 책을 발견했을 때, 인터넷 서점의 위시리스트 외에도 기록할 곳이 생겨서 기쁘다. 나중에는 자동으로 수집할 수도 있겠지만 일단은 한땀한땀 모으고 추가하는 즐거움을 만끽하고 싶다.

책의 관계를 그래프로 그려보자 - 이때는 태그를 기준으로 책을 연결했었다.

두뇌는 최강의 실험실: 생각을 더 잘 하는 방법

Tue, 07 Jul 2020 00:00:00 +0900

상트페테르부르크의 역설로 알려진 도박 게임이 있다. 참가자는 동전을 앞면이 나올 때까지 계속 던진다. 앞면이 나오면 그때까지 던진 횟수가 N이라고 할 때, \(2 ^ N\) 만큼 상금을 받고 게임이 끝난다. 예를 들어, 던지자마자 앞면이 나오면 \(2 ^ 1 = 2\)원을 받는다. 두 번만에 앞면이 나오면 4원, 세 번이라면 8원이다. 이 도박을 단 한 판만 한다고 했을 때, 여러분은 참가비로 얼마까지 지불할 의향이 있는가?

계산해보면 알겠지만 이 도박의 상금 기댓값은 무한대이다.

\[2^1 \cdot \frac{1}{2^1} + 2^2 \cdot \frac{1}{2^2} + 2^3 \cdot \frac{1}{2^3} + ...\]

설마 기댓값이 무한이니 이 게임 한 판에 전재산을 걸겠다는 사람은 없겠지? 진짜 질문은 바로 이것이다. 수학적으로는 합리적인(?) 결정인데, 왜 전재산을 거는 게 말도 안 된다고 “느껴지는가”?

현실에서는 대박이 터질 때까지 무한하게 도박을 할 수 없기 때문이라는 설명도 있고, 금액은 무한대로 커져도 효용은 한계에 이르기 때문(“한계효용 체감의 법칙”)이라는 베르누이의 설명도 있다는데…

이 도박에 여러 번 참가했을 때, 획득하는 상금의 분포는 어떤 모양일까? 1천만 번 했을 때, 상금은 X축, 그 상금을 얻은 횟수, 즉 빈도를 Y축에 그렸다. 왼쪽 그래프는 원래 스케일이고, 오른쪽은 Y축을 로그 스케일로 변환했다. 참여한 게임의 대부분에서는 낮은 상금만 받는다는 것을 알 수 있다.

구체적인 통계 수치를 보자. 1천만 번 실험에서 얻은 상금의 기댓값과 분위수이다.

1천만 번 했을 때의 상금 기댓값은? 24.4에 불과하다. 이론적인 값은 무한대지만, 가령 100번 연속으로 뒷면이 나올 확률은 너무나도 낮기 때문에 1천만 번을 해도 그런 사건은 발생하지 않았다.
분위수(q25, …, q99)는 어떤가. 100명 중에 2번째로 운이 좋은 사람이라도 128원밖에 못 받고, 운이 중간인 사람은 고작 4원을 받는다.

우리의 직관은 기댓값과 일치하지 않으며 그 사건이 발생할 확률 같은 요소를 암묵적으로 반영하고 있을 것이라는 생각을 하게 된다. 거꾸로 생각하면, 직관적으로는 불리하게 느껴지지만 기댓값 기준에서는 합리적인 게임도 있을 수 있다는 뜻이다.

다음으로, 확률의 알쏭달쏭함을 보여주는 유명한 문제인 몬티홀 딜레마를 보자. 지금 내 앞에는 3개의 문이 있고, 그중 하나에만 상금이 있다. 내가 문 하나를 선택하면, 사회자가 나머지 2개 중에서 상금이 없는 문 하나를 열어서 보여준다. 나는 원래의 선택을 고수할 수도 있고, 바꿀 수도 있다. 어떻게 해야 할까?

이제는 많이 알려진 문제이고, 정답 해설도 나와 있다. 그런데도 왜 최선의 선택이 자연스럽고 당연하게 느껴지지 않을까? 매번 숫자를 적어서 풀어볼 수도 없는데, 어떻게 하면 비슷한 상황에 처했을 때 직관적으로 좋은 결정을 할 수 있을까?

내가 들은 가장 직관적인 설명은 다음과 같다. 문의 개수를 3개에서 100개로 바꾼다. 문 하나를 선택하면 사회자가 나머지 99개 중 98개의 비어있는 문을 열어서 보여준다. 이제는 느낌이 어떤가? 아직도 선택이 망설여지는가? 문제의 설정을 극단적으로 바꿈으로써 처음에는 모호했던 사회자의 행동이 가지는 가치가 명확해졌다.

이제 숫자의 세계를 떠나 물리적인 현실로 돌아오자. 세 번째 질문이 준비되어 있다. 무거운 물체와 가벼운 물체를 동시에 떨어뜨리면 무엇이 먼저 땅에 떨어질까? 물론 이미 답을 알고 있을 것이다. 그런데 물리학 지식이나 실험 없이도 같은 결과를 도출할 수 있을까?

수세기 전에 살았던 갈릴레이는 가능했다. 무거운 물건이 더 빨리 떨어진다고 가정해보자. 무거운 물건과 가벼운 물건을 단단하게 연결해서 떨어뜨리면 무슨 일이 벌어질까? 무거운 물건은 가벼운 것이 더 빨리 떨어지도록 당기고, 반대로 가벼운 물건은 무거운 것을 당겨서 혼자 떨어질 때보다 속도를 늦출 것이다. 따라서 연결된 두 물체는 각각이 혼자 떨어졌을 때의 중간 정도의 속도로 떨어져야 한다. 하지만, 한편으로는 두 물건을 단단히 연결했으므로 원래보다 더 무거워졌다. 처음 가정에 따르면 더 빨리 떨어져야 한다. 모순이 발생했다. 그 원인은? 갈릴레이는 이런 사고실험을 통해 진짜 실험 없이도 결과를 예측하거나 설명할 수 있었다.

위의 몇 가지 사례에서 진실과 직관의 괴리를 느껴보았고, 발상의 전환이나 추론을 통해 더 잘 생각하는 방법을 살펴보았다. 이 내용은 모두 『두뇌는 최강의 실험실』 책에서 가져온 것이다. 저자는 역사적으로 유명한 사고실험을 소개하며, 그것이 나온 역사적인 맥락과 의미를 너무 깊이에 짓눌리지 않을 수준에서 설명해준다. 이런 생각의 도구는 유용하다. 직관을 날카롭게 갈아주기도 하고, 비슷한 상황에서 약간의 설정 변경에 따라 달라지는 느낌과 결론을 보면서 자신의 생각에 대해서도 다시 한 번 생각해보게 된다. (어쩌면 디버깅까지도?) 흥미로운 사고실험의 세계로 안내를 바란다면 이 책을 읽어봐도 좋겠다.

AWS에 정적 사이트 올리기

Tue, 30 Jun 2020 00:00:00 +0900

가상 서버 호스팅 속에 살던 블로그를 AWS의 구름 위로 띄웠다. 인터넷 검색해도 많이 나오는 내용이지만 나중에 다시 찾아보기 쉽도록 과정을 간략히 정리했다.

1. S3 버킷 생성

아마존의 S3는 Simple Storage Service의 줄임말로, 실제 데이터를 저장할 곳이다.
버킷 이름: 사이트 도메인과 동일하게 한다.
- HTTPS를 위해서는 버킷 이름을 도메인과 다르게 해야 한다는 글을 봤는데, 이번에 해보니 똑같아도 된다.

권한 설정: 방금 만든 버킷을 아무나 읽을 수 있도록 한다. [권한] - [버킷 정책]에 아래 내용을 추가한다.

{
  "Version": "2012-10-17",
  "Statement": [
      {
          "Effect": "Allow",
          "Principal": "*",
          "Action": "s3:GetObject",
          "Resource": "arn:aws:s3:::[BUCKET_NAME]/*"
      }
  ]
}

사이트 호스팅: [속성] - [정적 웹 사이트 호스팅] 메뉴에서 [이 버킷을 사용하여 웹 사이트를 호스팅합니다]를 선택하고, [인덱스 문서]에 index.html 입력한다.
엔드포인트를 기억해둔다. 이제부터는 누구나 이 주소로 사이트에 접속할 수 있다.

2. HTTPS를 위한 인증서 발급

DNS를 AWS의 Route 53을 쓰고 있다면 간단하게 발급된다.
3번 과정 중간에 만들 수 있다.

3. CloudFront 설정

클라우드프론트(CloudFront)는 CDN 서비스로, 사용자가 전세계 어디에 있든 빠르게 접속할 수 있게 도와준다. 사실 그런 이유보다는 HTTPS를 설정하기 위해 사용했다.
SSL Certificate를 Custom SSL Certificate로 선택하고, 위에서 발급한 인증서를 선택한다. 없으면 Request or Import a Certificate with ACM을 클릭해서 발급하면 된다.
Origin Domain Name에 1번 과정에서 만든 엔드포인트를 입력한다.
(Default Root Object를 index.html로 설정한다. 그런데 안 해도 되는 것 같다.)
[Behaviors] - [Viewer Protocol Policy]에서 원하는 방식을 선택한다. e.g. “Redirect HTTP to HTTPS”

4. Route 53 네임서버 설정

Route 53은 아마존에서 제공하는 DNS 서비스이다.
[레코드 세트 생성] 클릭, 유형을 “A - IPv4 주소” 선택, 별칭(Alias)을 “예” 선택한다.
별칭 대상을 선택하면 후보가 드롭다운 메뉴로 뜨는데, CloudFront에서 선택해야 한다. S3가 아니라.

참고자료

백종원의 장사 이야기: 비밀 레시피보다 운영의 기술

Sun, 14 Jun 2020 00:00:00 +0900

외식사업가 백종원이 요식업 현직자와 희망자에게서 많이 받은 질문에 대한 생각을 담은 책이라고 하는데, 식당을 열 계획이 없는 나같은 사람도 재미있게 읽었고 배울거리가 많았다. 책의 주제는 아래의 말로 요약되는 것 같다.

장사가 잘되는 요인은 요리가 다가 아니다. 정말 배워야 할 것은 양념 비법이 아니라 가게를 운영하는 전반적인 방법이다., 121p

기억에 남는 구절을 몇 개 소개한다.

도메인 지식의 중요성

음식을 모르면 서빙을 할 수 없다. 어떤 음식이냐에 따라 서빙 순서가 다르고 음식이 나오는 타이밍도 다르다. 밑반찬을 미리 갖다 주는 이유는 뭔지, 고기가 왜 이 타이밍에 나오는지, 찌개는 언제 나와야 좋은지 직접 경험해야 안다., 22p

역시나 현장에서 배울 수 있는 경험의 가치를 강조한다. 음식 뿐만 아니라, 초기에는 권리금을 비싸게 주더라도 가능하면 상권이 좋은 입지와 접근성이 높은 1층을 확보하여 손님이 많이 오게 하는 것을 추천하는데, 이익이 적더라도 손님이 와서 매출이 발생하면 어떻게든 운영은 된다는 현실적인 요인 그리고 실제 경험을 쌓을 수 있다는 점 때문이다.

스스로 틀을 깨는 방법

식당을 하려면 많이 먹어 보라고 말한다. 하지만 먹어 본 것을 진짜 만들지는 말아야 한다. (중략) 웬만해서는 그 음식 맛이 나지 않는다. 그럴 때는 먼저 머릿속으로 만들어서 연구를 하는 게 좋다. 손으로 만들면 10시간이 걸리지만 머리속으로 만들면 1시간이면 충분하다. (중략) 나는 한 번 먹은 음식은 기가 막히게 흉내를 잘 낸다. 하지만 기존의 방식이 아닌 나만의 방식으로 새롭게 만든다. 내가 추구하는 원리는 기존의 틀을 깨는 것이다. 출발점이 여기고 목표점이 저기라고 정해지면, 남들이 많들어놓은 고정관념을 버리고 내가 생각하는 단거리로 간다. 26 - 27p

초심자일 때는 일단 배우는 게 우선이지만 기본을 떼었다면 이런 식으로 기술을 연마해도 좋을 것 같다. 기존에 존재하는 것을 많이 찾아보고 좋아보이는 게 있으면 답을 보지 않고 나름대로 만들어본다. 안다고 생각했지만 직접 해보면서 실은 몰랐다는 것을 깨닫기도 하고, 결과를 비교하다가 더 좋은 방법을 발견하기도 한다. 때로는 ‘난 왜 그 방법을 생각 못했지’라는 고민이 더 깊은 이해를 선물한다.

홍콩반점이 저렴할 수 있는 이유

난 중국집 주방장들이 본격 요리가 아닌 짬뽕, 짜장만 만들면서 매일 자기 능력의 50~60퍼센트밖에 쓰지 않는 데에 주목했다. 자, 난자완스나 깐풍기나 양장피 같은 요리의 매출이 없다고 치면, 이런 요리 기술에 특화된 주방장이 필요 없지 않을까? 일반 중국집에서는 짜장, 짬뽕을 만들어 내는 일은 주방 보조가 더 많이 한다. 그래서 짜장, 짬뽕만 하는 식당을 생각했다. 그것도 짜장, 짬뽕소스를 그때그때 간을 봐서 만드는 게 아니라 양념장처럼 한꺼번에 미리 만들어 놓고 사용할 수 있다면 볶는 것만 배우면 된다. 볶는 기술은 정말 사흘 만에 배울 수 있다. (중략) 이런 방식을 도입한 곳이 바로 ‘홍콩반점0410’이다. 30 - 31p

이 책에서 가장 강한 생각의 펀치를 맞은 내용이다. 가게를 운영하는 관점에서는 요리사/주방장의 비용과 효용이 이렇게 보일 수 있구나. 급여를 받는 입장에서 생각해왔던 노동과 경험의 시장 가치를 다른 관점에서 생각해 보게 한다.

운영의 기술

식당을 운영해보지 않은 사람은 생각해보지 않았을 디테일, 그러나 알고 나면 자기 일에도 영감을 주는 내용이 꽤 나온다.

분식점이라면, 라면을 끓이는 중에 새로운 라면 주문이 들어오고, 1분 후에 또 주문이 들어와도 대응할 수 있어야 한다. 실제로는 그 와중에 떡볶이와 김밥 주문도 동시다발적으로 들어온다.
오늘 음식이 10개만 팔려도 내일 재료가 활용 가능하다면 좋다.
주방의 크기는 너무 크지도 작지도 않아야 하며, 동선이 최적화되지 않으면 일하는 사람이 본인도 모르는 사이에 스트레스를 받는다.
음식 종류에 따라서 테이블 간격이 달라야 한다.
사장은 주방보다는 홀에 있어야 한다. 사장이 손님을 보지 않고 음식만 만들고 있어서는 가게가 잘 되기 어렵다.

마지막으로

식당을 운영하면서 자존심이 상하거나 스트레스를 받는다는 이야기가 페이지 곳곳에 묻어 있다. 그만큼이나 강조하는 데에는 다 이유가 있겠지.

충분히 설명되었는가?

Thu, 11 Jun 2020 00:00:00 +0900

세스 스티븐스 다비도위츠의 『모두 거짓말을 한다』는 데이터 분석으로 발견한 사실을 쉽고 흥미롭게 이야기해주는 책이다. 구글 시대의 『괴짜경제학』 이라고나 할까. 여기서 책을 소개하려는 것은 아니고, 그냥 읽다가 떠올린 생각 한 꼭지를 적어본다.

“혈통은 말이 훌륭한 경주마가 될 가능성 중 아주 적은 부분을 말해줄 뿐입니다. 그 말이 좋다는 것을 알 수 있다면, 어디서 그 자질을 얻었는지까지 신경 쓸 필요가 있을까요?”, 90p

데이터를 기반으로 경주마를 평가하는 방식을 도입해 성공을 거둔 제프 세이더의 말이다. 기존에는 주목하지 않았던 말의 좌심실과 비장의 크기가 중요하다는 점을 발견해서 시장의 비효율을 혁신했다는, 이제는 식상할 정도로 넘쳐나는 이야기지만 그럼에도 저 말이 왠지 뇌리에 꽂혔다.

그냥 생각해도 혈통보다는 좌심실(그냥 단순하게 심장이라고 하자)의 크기가 달리기에 중요할 것 같지만, 내장 기관의 크기를 측정할 수단이 없던 시절에는 혈통이 그나마 유의미한 피처(Feature)였을 것이다. 부모 말의 심장이 크면 자손도 그럴 가능성이 높으니까. 그 시절에 회귀분석을 돌렸다면 혈통이 통계적으로 유의하다고 나왔을지도 모른다.

하지만, 직접적인 인과관계를 설명하면서 예측 정확도까지 높이는 요인이 새로 발견되었다면 굳이 과거의 유물을 사용할 이유는 없다. 예측 모델링을 할 때 이런 점을 유념해서 상관관계와 인과관계를 구분하고, 설명력이 높아지도록 피처 선택에 신경쓰자. 오케이. 생각 끝.

그런데 흥미롭게도, 저자는 세이더에게서 배울 수 있는 교훈 중 하나로 “어떤 모델이 예측에 효과적인 이유에 관해서는 지나치게 많이 생각할 필요가 없다는 점”을 꼽았다. “예측을 할 때는 어떤 것이 효과가 있는지만 알면 되고 그 이유까지 알 필요는 없다”는 것이다.

즉, 말의 심장이 클수록 달리기를 잘 한다는 것은 예측에 유용한 발견이지만, 이유를 충분히 설명하지는 못한다는 말이 된다. 이유를 안다고 말하려면 어느 정도까지 이해해야 할까? 효과적인 이유를 지나치게 많지는 않지만 충분히 생각하는 건 어느 정도일까? 딴지가 아니고 진짜 평소에도 종종 고민하던 문제다.

잠깐 다른 사례를 보자.

미국에서 야구 팬의 나이와 그가 응원하는 팀 사이에는 특별한 관계가 있을까? 아니면 서로 독립일까? 본인의 직관을 테스트할 겸 한 번 생각해보자.

… (기다리는 중) …

답이 나왔는가? 저자의 분석에 따르면, 둘은 관계가 있다. 어린이 야구 팬은 자기가 8살이 될 무렵에 우승한 팀의 팬이 되는 확률이 상대적으로 높다고 한다. 어떤 분야에 입문하는 시기에 받은 인상이 오래 간다는 건데, 오호! 그럴 듯한 설명이다. 경험적으로도 납득이 된다.

이것으로 나이와 응원하는 팀의 관계가 충분히 설명되었다고 생각할지 모르겠지만, 누군가에겐 새로운 질문의 시작이다. 특정 나이대의 경험이 평생 지속되는 팬심을 만드는 뇌의 메커니즘은 무엇인가? 같은 나이에 동일한 경험을 했는데도 팬이 되지 않는 사람은 왜 그런가? 야구가 아닌 다른 분야에도 유효한가? 이런 질문이 꼬리를 물고 계속 나올 수 있다.

저자 또한 야구에서 그치지 않고, 유권자의 지지 정당과 그가 성인이 되는 시기에 인기 있었던 정치인/정당의 관계를 분석하는 데까지 나아간다. 나이라는 요소가 예측에 효과적인 이유에 대해 “지나치게 많지” 않은 범위 내에서 많이 고민하며 일반화하려고 노력한 결과일 것이다.

경주마의 능력을 평가하는 사람에게는 말의 심장 크기가 중요하다는 사실만으로도 충분할 수 있다. 그 이상의 탐구는 가성비가 안 나온다. 반면, 말을 키워내야 하는 쪽에서는 구체적인 메커니즘을 밝혀내는 일도 도전해볼 만하다. 어쩌면 심장 좌심실의 크기는 (혈통처럼) 그저 겉으로 드러난 상관관계일 뿐이고, 사육사가 조절할 수 있는 직접적인 요소를 알아내서 실제 사육에 활용한다면 큰 부가가치를 만들 수도 있다.

‘충분히 설명되었는가’에 대한 답은 그 문제를 바라보는 관점과 목적에 따라 다르다. 이 모델로 문제가 충분히 설명되었다고 느끼는지에 대한 스스로의 판단이 그 문제를 대하는 나의 관심사와 역할을 알려준다. 특정 문제 영역에서 데이터 과학자와 도메인 전문가를 굳이 나눠야겠다면, 이 질문에 어떤 답을 하는지 물어보는 것도 한 방법이겠다는 생각이 문득 들었다.

감각의 미래

Mon, 08 Jun 2020 00:00:00 +0900

우리가 세상을 감지하고 인식하는 방식에 대한 지식과 생각을 넓혀준다.

1부는 우리가 너무 익숙하고 당연하게 느끼던 오감에 대해서 다시 생각해보게 만든다. 맛의 종류는 몇 가지일까? 감칠맛(우마미)이 뒤늦게 발견 혹은 인정되었듯이 새로운 기본 맛이 추가될 가능성은 없을까? 혹시 특정 맛을 느끼는 능력과 그 맛에 이름이 붙어있는지 여부가 관련있지는 않을까 같은 문제를 찾아 저자는 연구소의 실험실을 방문하고, 식당 요리사를 만나 인터뷰한다.

새로운 맛을 인공적으로 만드는 일은 그저 호기심의 영역으로 보일 수도 있다. 하지만, 앞을 보지 못하게 된 사람에게 시각을 되찾아주는 기술은 현실적으로도 매우 가치 있다. 그 시도와 현재까지의 성과를 3장에서 소개한다. 5장에서는 로봇수술에 있어 시각 못지 않게 중요한 촉각과 그 감각의 전달과 관련된 연구를 둘러볼 수 있다. 1부를 읽고 두 가지 생각이 들었는데, 실제 뇌에 감각을 입력해 넣거나 그 반대로 뇌의 내용을 해석해내기 위한 노력이 정말 활발하게 이뤄지고 있구나 라는 발견이 첫 번째이고, 두 번째는 운좋게도 지금까지 나는 필요를 느낄 일이 없었지만, 의료 기술이 누군가에게는 정말 기적을 만들어주는구나 라는 감사함이었다.

2부는 일차적인 감각을 넘어 시간, 고통, 감정처럼 보다 고차원적인 인식을 다룬다. 생각해보면 시간을 어떻게 인지하는지 신기하기는 한데, 책에서 소개하는 연구가 어떤 통찰이 있는지는 잘 와닿지 않았다. 그보다는 초정밀한 원자시계와 광시계, 그리고 초장기적인 1만년을 가는 시계 프로젝트가 더 흥미로웠다. 그리고 신체적인 고통과 마음의 고통이 비슷하다는 내용도.

고통과 관련해서 가장 흥미로운 연구 분야는 뼈가 부러졌을 때의 신체적 고통과 마음이 아플 때의 사회적 고통을 뇌가 어떻게 처리하느냐와 관련되어 있다. UCLA의 사회심리학자 나오미 아이젠버거 박사를 비롯한 일부 학자들은 두 가지 고통을 처리하는 과정이 놀라우리만치 비슷하다고 주장한다., 251p

가상현실을 통해 트라우마를 치료하거나 예방하는 훈련을 하고, 자원 절약이나 동물 권리의 필요성을 보다 직접적으로 느끼고, 심지어 제3의 팔을 다루는 연습을 하는 것은 어느 정도 알고 있던 내용이다. 그런데 아예 몸에 칩을 이식해서 자기장처럼 보통 사람은 느끼지 못하는 감각을 느끼려고 하는 사람들이 있는지는 몰랐다. 이런 류의 작업을 바이오해킹이라고 부른다는데, 그래서 3부의 제목이 인식 해킹이다. 그들이 꿈꾸는 것은 감각과 인식의 확장이다.

살모사와 상어와 나비에게 열려 있는 세계가 인간에게는 닫혀 있어서 인간이 뭔가를 놓치고 있다는 현실이 부당하다는 생각에 토대를 두었다., 419p

아직은 낯설고 괴짜스러운 아이디어지만, 문신/피어싱/성형수술도 한때는 그랬으나 이제는 훨씬 일반적으로 받아들여지고 있다는 말을 부정하기는 힘들다. 특히 이런 능력이 실제 현실에서 직업적 경쟁력 우위를 준다면 어떻게 될까? 흥미로운 생각 거리를 던진다.

여기까지 가볍게 내용을 소개하며 인상을 적어보았다. 이 주제에 관심이 있다면 책에서 훨씬 더 자세하고 흥미로운 내용을 발견할 수 있을 것이다. 사람에 따라서는 저자의 스타일이 생생한 현장감을 불어넣는다고 할 수도 있고, 핵심 내용 전달에 불필요한 묘사가 많다고 느낄 수도 있을 것 같기는 하다.

노란 형광펜

“환자의 몸은 커다란 퍼즐 같아요. 뭐가 잘못됐는지 알아내려고 애쓰고 내 판단이 옳았는지 직접 보면서 문제를 해결하죠.” 그녀는 그 퍼즐을 맞추는 일이 즐겁다. “인간의 해부학적 구조는 아름다워요. 그걸 다루는 일은 예술이죠.”, 192p
그는 컴퓨터가 더욱 작아지고 휴대가 편리해짐에 따라 점점 몸 위쪽으로 올라가고 있으며, 마침내 머리에까지 도달했다고 말한다. “방, 책상, 무릎을 거쳐 주머니까지 이동했습니다. 이제 서서히 뇌로 이동하고 있지 않을까요?”, 373p

같이 볼 만한 글

그곳은 소, 와인, 바다가 모두 빨갛다: 흥미로운 언어와 사고의 관계 추적사

알아가는 즐거움

유전자 로또

설득으로서의 추천

데이터의 가치를 평가하는 방법

Approximation

Experiments

Discussion

같이 볼 만한 글

기여도를 측정하는 방법 feat. Shapley Value

현실적인 한계, 그리고 의의

같이 볼 만한 글

책 추천 그래프를 그려보자

관련 글

두뇌는 최강의 실험실: 생각을 더 잘 하는 방법

AWS에 정적 사이트 올리기

1. S3 버킷 생성

2. HTTPS를 위한 인증서 발급

3. CloudFront 설정

4. Route 53 네임서버 설정

참고자료

백종원의 장사 이야기: 비밀 레시피보다 운영의 기술

도메인 지식의 중요성

스스로 틀을 깨는 방법

홍콩반점이 저렴할 수 있는 이유

운영의 기술

마지막으로

충분히 설명되었는가?

감각의 미래

노란 형광펜

같이 볼 만한 글