返回首页
最新
我住在旧金山湾区,拥有一份高免赔额的健康保险计划。最近,我的初级保健医生离开了加州大学旧金山分校(UCSF),成为了一名私人医生——他厌倦了繁琐的官僚制度和低收入,尽管每年要管理成千上万的病人。
我预约了UCSF的一位医生进行新患者就诊。这个预约大约持续了20分钟。几周后,我收到了账单:867美元。我以为这是个错误,但在打电话确认后,我得知这是CPT代码99204(新患者就诊,45-59分钟)的正确费用。由于我的免赔额,保险无法报销。
这感觉太荒谬了。我明白医疗系统存在问题,尤其是在像旧金山这样科技密集的城市,但867美元的常规就诊费用实在难以让人接受。
有没有人在寻找可行的替代方案?私人医生模式?订阅式医疗?这是否是一个创业机会,还是说监管才是唯一的解决办法?我很好奇其他人是如何应对这个问题的,以及是否有可扩展的前进路径。
在关于约翰·卡马克演讲的讨论中,有人提到他从伊利亚那里获得的阅读清单,这些书单对于理解重要内容和当时知识的现状至关重要。经过一些搜索,这个清单似乎是可信的,尽管没有得到确认:
https://github.com/dzyim/ilya-sutskever-recommended-reading?tab=readme-ov-file
那么,今天的更新版清单会是什么样的呢?
我之所以问这个问题,是因为我正朝着与卡马克类似的方向发展(虽然我的天赋和技能可能只有他的1%,但嘿,这一切都是关于旅程的!),我并不打算致力于改进现有模型,我也相信那是一条无路可走的道路,而是希望从基础开始理解事物,最终或许能找到“不同的东西”。
doc2dict是一个Python包,可以将HTML和PDF文档转换为保留层次结构的字典。它还支持从HTML文件中提取表格。
<a href="https://github.com/john-friedman/doc2dict">https://github.com/john-friedman/doc2dict</a>
<p>速度:</p>
<p>* HTML - 单线程每秒处理500页。</p>
<p>* PDF - 每秒处理200页,PDF必须具有底层文本结构。由于PDFium的限制,无法进行多线程处理。</p>
<p>以下是微软年度报告的示例输出:</p>
> "title": "PART I",
"standardized_title": "parti",
"class": "part",
"contents": {
"38": {
"title": "ITEM 1. BUSINESS",
"standardized_title": "item1",
"class": "item",
"contents": {
"39": {
"title": "GENERAL",
"standardized_title": "",
"class": "predicted header",
"contents": {
"40": {
"title": "Embracing Our Future",
"standardized_title": "",
"class": "predicted header",
"contents": {
"41": {
"text": "Microsoft is a technolo...<p>原始数据:
<a href="https://html-preview.github.io/?url=https://raw.githubusercontent.com/john-friedman/doc2dict/refs/heads/main/example_output/html/msft_10k_2024.html#:~:text=embracing" rel="nofollow">https://html-preview.github.io/?url=https://raw.githubusercontent.com/john-friedman/doc2dict/refs/heads/main/example_output/html/msft_10k_2024.html#:~:text=embracing</a></p>
<p>解析后的字典:</p>
<a href="https://github.com/john-friedman/doc2dict/blob/main/example_output/html/dict.json">https://github.com/john-friedman/doc2dict/blob/main/example_output/html/dict.json</a>
<p>算法的简单描述:</p>
<p>* 处理复杂文档,如PDF或HTML,并为其创建一个简化的表示,形式为字典的列表,其中每个字典是一个文本块,包含“粗体”、“字体大小”等关键特征,每一行表示一个新的HTML块或PDF中的一行。</p>
<p>* 使用一组预定规则将简化的表示转换为字典,例如,较小的字体大小表示标题应嵌套在较大字体大小的标题下。</p>
<p>请注意,我正在努力使最后一部分更加模块化,创建用户可以根据其用例调整的预定指令,而无需重写解析器。我称这些为“映射字典”。</p>
<p>doc2dict还包括调试过程的可视化工具:</p>
<p>* 可视化简化表示
<a href="https://html-preview.github.io/?url=https://github.com/john-friedman/doc2dict/blob/main/example_output/html/instructions_visualization.html" rel="nofollow">https://html-preview.github.io/?url=https://github.com/john-friedman/doc2dict/blob/main/example_output/html/instructions_visualization.html</a></p>
<p>* 可视化输出字典
<a href="https://html-preview.github.io/?url=https://github.com/john-friedman/doc2dict/blob/main/example_output/html/document_visualization.html" rel="nofollow">https://html-preview.github.io/?url=https://github.com/john-friedman/doc2dict/blob/main/example_output/html/document_visualization.html</a></p>
<p>我为什么要做这个:</p>
<p>我目前正在开发另一个开源Python包,以便更容易地利用证券交易委员会的数据。编写一个可以调整的通用文档解析器比为每种文档类型编写100个专用解析器要容易得多。</p>
<p>此外,将HTML和PDF文件转换为字典表示可以将文档大小减少约10倍。不确定我可以用这个做什么,但计划进行一些有趣的NoSQL数据库实验。</p>
<p>其他包的链接(datamule)
<a href="https://github.com/john-friedman/datamule-python">https://github.com/john-friedman/datamule-python</a></p>