본문 바로가기

전체 글14

[논문 리뷰] Distributed Representations of Sentences and Documents 기계 학습을 하려면 인풋의 차원이 일정해야 한다. 하지만 텍스트는 제각기 길이가 다르다. 문장, 단락, 챕터, 책 한 권. 단위를 정하기가 쉽지 않다. 그래서 텍스트를 고정된 길이의 벡터로 표현하기 위한 가장 간단한 방법으로, bag-of-words 또는 bag-of-n-grams를 쓴다. 각 단어가 몇 개 있는지 세는 것이다. 하지만 자연어를 담기에는 한참 부족한 방법이다. bag-of-words는 텍스트의 순서를 고려하지 못하고, bag-of-n-grams는 data sparsity와 차원의 저주 문제를 가지고 있다. 서론이 길었는데 그래서 이 논문에선 단어 단위가 아니라 하나의 단락을 벡터로 표현하고자 한다. 개념은 word2vec과 비슷하다. 이전 단어들로 다음에 오는 단어를 예측하는 것이다. 다.. 2023. 2. 14.
[논문 리뷰] Novelty and cultural evolution in modern popular music 데이터셋: Billboard Hot 100 songs between 1974-2013 단 네 마디. 드럼 솔로 연주. 누구나 한 번쯤 들어본 익숙한 리듬이다. 일명 'Amen Break'라고 불리는 이 드럼 비트는 밴드 'The Winstons'의 'Amen Brother'이라는 곡에 나오는 것으로, 수많은 곡에 샘플링되며 현대 대중음악에 지대한 영향을 끼쳤다. 음악은 기존의 좋은 것을 차용하며 발전한다. 차용하면서 사람들에게 익숙함을 주고, 새로움을 시도하면서 사람들에게 신선함을 준다. 즉, 적당히 익숙하고 적당히 새로워야 한다. 이것을 이 논문에선 'Optimal differentiation'(최적 차별화)라고 말한다. 최적 차별화와 관련되선 추후에 관련 논문을 더 다루려고 한다. 이 논문에선 음악이.. 2023. 2. 14.
수상작품집 출간 아작 출판사에서 수상작품집이 나왔다. 이외에도 수상 소감 인터뷰가 들어간 The Earthian Tales(어션테일즈)도 있다. 2022. 12. 31.
2021 제2회 포스텍SF어워드 단편 대상 2022년의 마지막 날에 한 해를 돌아본다. 가장 큰 사건을 하나 꼽으라면 SF소설 공모전에 당선이 된 것이다. 2021년이 굉장히 무료한 해였는데, 그래서 연말 마감인 공모전에 가벼운 마음으로 소설을 하나 써서 냈다. 글쓰기는 원래 좋아했지만 처음 써 보는 소설이었다. 당연히 수상 욕심은 없었지만 뭐든지 그렇듯 막상 시작하고 나니 은근히 기대를 품었다. 심사 발표일에 늘 그렇듯 연구실에 있었다. 수상자에겐 홈페이지 발표 전 개인 전화로 연락이 온다는 얘기를 들었는데 난 전화를 받지 못하고 홈페이지 공지가 뜬 걸 보았다. 역시 안 된 걸까 싶었다. 그런데! 연구실에서 소리를 질렀다. 이번 해는 운이 좋은가보다. 2022. 12. 31.